La ciencia de datos ha experimentado un crecimiento exponencial en la última década. Cada día es más fácil adquirir y almacenar datos de todo tipo. Pero los desafíos ahora tienen que ver con la extracción de información útil de esos datos. La inteligencia artificial está proveyendo soluciones efectivas a gran cantidad de problemas de este tipo, especialmente desde el aprendizaje de máquina, que ha demostrado tener todo el potencial necesario para los desafíos actuales. En particular, el area de bioinformática presenta problemas en ciencia de datos cada vez más desafiantes. Por ejemplo, la predicción automática de la función de genes a partir de genomas completos y de mediciones experimentales de diferente naturaleza. Actualmente existen anotaciones semánticas con vocabulario controlado que describen a los genes en cualquier organismo en base a términos de la ontologíade genes (GO). La curaduría (manual) de anotaciones para nuevos genes es un procedimiento muy costoso que requiere de conocimiento específico de parte del experto del dominio. Las herramientas computacionales basadas en aprendizaje de máquina pueden ayudar a encontrar rápidamente potenciales anotaciones para genes nuevos, e impulsar el descubrimiento de nuevo conocimiento en este dominio. En este proyecto se proponen nuevos modelos y algoritmos para predecir anotaciones de genes cuya potencial función es desconocida, es decir sin términos GO asociados, mediante el desarrollo de métodos novedosos de aprendizaje de máquina. En primer lugar se propone desarrollar un nuevo método a partir de factorización conjunta de matrices no negativas de distancias de expresión y distancias semánticas entre genes conocidos. Una vez realizada esta factorización, se propone utilizarla para reconstruir la información faltante en la matriz de distancia semántica a genes desconocidos. Una segunda etapa utilizará esta información semántica reconstruida para entrenar modelos probabilísticos y modelos de aprendizaje profundo que permitan predecir el conjunto de etiquetas GO que describen la función de cada gen desconocido.
Data science has experienced exponential growth in the lastdecade. Every day it is easier to acquire and store data of all kinds. But the challenges now have to do with extracting useful information from that data. Artificial intelligence is providing effective solutions to a large number of problems of this kind, especially machine learning, which has proven to have all the necessary potential for current challenges. In particular, the bioinformatics area presents problems in data science more challenging every time. For example, the automatic prediction of gene function from complete genomes and experimental measurements of different nature. There are currently semantic annotations with controlled vocabulary thatdescribe genes in any organism based on terms of the ontologyof genes (GO). Curation (manual) of annotations for new genes is a very expensive procedure that requires specific knowledge from the domain experts. The computer tools based on machine learning can help find ing potential annotations for new genes, and drive the discovery of new knowledge in this domain. This project proposes new models and algorithms to predict gene annotations whose potential function is unknown, that is to say without GO terms, by developing novel machine learning methods. First, it is proposed to develop a new method with the non-negative matrix factorization of both expression distancesand semantic distances between known genes. Once this factorization is done it is proposed to use it to reconstruct the missing information in the matrix ofsemantic distance of unknown genes. A second stage will use this information to train probabilistic models and deep learning models to predict the set of GO terms that could describe the function of each unknown gene.