Biblioteca Virtual

Estimación de distancias semánticas y aprendizaje profundo para la predicción de nuevas funciones de genes

Mostrar el registro sencillo del ítem

dc.contributor.author Stegmayer, Georgina Silvia
dc.date.accessioned 2021-09-16T18:53:01Z
dc.date.available 2021-09-16T18:53:01Z
dc.identifier.uri https://hdl.handle.net/11185/6143
dc.description Fil: Stegmayer, Georgina Silvia. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.
dc.description.abstract La ciencia de datos ha experimentado un crecimiento exponencial en la última década. Cada día es más fácil adquirir y almacenar datos de todo tipo. Pero los desafíos ahora tienen que ver con la extracción de información útil de esos datos. La inteligencia artificial está proveyendo soluciones efectivas a gran cantidad de problemas de este tipo, especialmente desde el aprendizaje de máquina, que ha demostrado tener todo el potencial necesario para los desafíos actuales. En particular, el area de bioinformática presenta problemas en ciencia de datos cada vez más desafiantes. Por ejemplo, la predicción automática de la función de genes a partir de genomas completos y de mediciones experimentales de diferente naturaleza. Actualmente existen anotaciones semánticas con vocabulario controlado que describen a los genes en cualquier organismo en base a términos de la ontologíade genes (GO). La curaduría (manual) de anotaciones para nuevos genes es un procedimiento muy costoso que requiere de conocimiento específico de parte del experto del dominio. Las herramientas computacionales basadas en aprendizaje de máquina pueden ayudar a encontrar rápidamente potenciales anotaciones para genes nuevos, e impulsar el descubrimiento de nuevo conocimiento en este dominio. En este proyecto se proponen nuevos modelos y algoritmos para predecir anotaciones de genes cuya potencial función es desconocida, es decir sin términos GO asociados, mediante el desarrollo de métodos novedosos de aprendizaje de máquina. En primer lugar se propone desarrollar un nuevo método a partir de factorización conjunta de matrices no negativas de distancias de expresión y distancias semánticas entre genes conocidos. Una vez realizada esta factorización, se propone utilizarla para reconstruir la información faltante en la matriz de distancia semántica a genes desconocidos. Una segunda etapa utilizará esta información semántica reconstruida para entrenar modelos probabilísticos y modelos de aprendizaje profundo que permitan predecir el conjunto de etiquetas GO que describen la función de cada gen desconocido.
dc.description.abstract Data science has experienced exponential growth in the lastdecade. Every day it is easier to acquire and store data of all kinds. But the challenges now have to do with extracting useful information from that data. Artificial intelligence is providing effective solutions to a large number of problems of this kind, especially machine learning, which has proven to have all the necessary potential for current challenges. In particular, the bioinformatics area presents problems in data science more challenging every time. For example, the automatic prediction of gene function from complete genomes and experimental measurements of different nature. There are currently semantic annotations with controlled vocabulary thatdescribe genes in any organism based on terms of the ontologyof genes (GO). Curation (manual) of annotations for new genes is a very expensive procedure that requires specific knowledge from the domain experts. The computer tools based on machine learning can help find ing potential annotations for new genes, and drive the discovery of new knowledge in this domain. This project proposes new models and algorithms to predict gene annotations whose potential function is unknown, that is to say without GO terms, by developing novel machine learning methods. First, it is proposed to develop a new method with the non-negative matrix factorization of both expression distancesand semantic distances between known genes. Once this factorization is done it is proposed to use it to reconstruct the missing information in the matrix ofsemantic distance of unknown genes. A second stage will use this information to train probabilistic models and deep learning models to predict the set of GO terms that could describe the function of each unknown gene.
dc.format application/pdf
dc.language.iso spa
dc.publisher Universidad Nacional del Litoral
dc.relation info:eu-repo/grantAgreement/UNL/CAI+D/50620190100115LI/AR. Santa Fe. Santa Fe/Estimación de distancias semánticas y aprendizaje profundo para la predicción de nuevas funciones de genes
dc.rights info:eu-repo/semantics/openAccess
dc.rights Atribución-NoComercial-SinDerivadas 4.0 Internacional (CC BY-NC-ND 4.0)
dc.rights.uri http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject Bioinformática
dc.subject Aprendizaje maquinal
dc.subject Función de genes
dc.subject Bioinformatics
dc.subject Machine learning
dc.subject Gene function
dc.title Estimación de distancias semánticas y aprendizaje profundo para la predicción de nuevas funciones de genes
dc.title.alternative Semantic distance estimation and deep learning for the prediction of novel gene functions
dc.type info:ar-repo/semantics/plan de gestión de datos
dc.type info:eu-repo/semantics/data management plan
dc.type info:eu-repo/semantics/acceptedVersion


Ficheros en el ítem

Este ítem aparece en

Mostrar el registro sencillo del ítem

info:eu-repo/semantics/openAccess Excepto si se señala otra cosa, la licencia del ítem se describe como info:eu-repo/semantics/openAccess

Buscar en la biblioteca