El aprendizaje maquinal ha tenido un gran desarrollo en los últimos años y ha permitido resolver una gran cantidad de problemas en las más diversas disciplinas, aunque aun quedan grandes desafíos por resolver cuando los datos presentan un alto grado de desbalance de clases o tienen muy pocos
datos etiquetados. Un caso particular de aplicación donde se presentan desafíos como estos es en la predicción computacional de secuencias de microARN. Este, también llamado microARN maduro, es una pequeña molécula de ARN no codificante la cual puede regular la expresión de los genes.
En los últimos años, se ha desarrollado una gran cantidad de métodos que intentan detectar nuevos microARN utilizando información principalmente de su estructura. El principal inconveniente de estos métodos es que utilizan características basadas principalmente en la estructura del precursor (pre-miARN) sin incluir la información del miARN maduro, que se encuentra codificada en forma secuencial. De esta manera, se pierde información muy valiosa que podría utilizarse para mejorar la predicción de nuevos pre-miARN y disminuir a su vez el número de falsos positivos.
Recientemente se propusieron enfoques basados en aprendizaje profundo como un método para la extracción automática de características. Sin embargo, éstos tienen aún importantes limitaciones prácticas cuando deben aplicarse a tareas de predicción real. Para poder permitir la predicción de nuevos miARNs en genomas completos, en esta tesis se realizaron dos grandes aportes. En primer lugar, se desarrollaron tres nuevas características basadas en medidas de complejidad del miARN maduro, las cuales permiten reducir significativamente el número de falsos positivos. En segundo lugar, se desarrolló el primer algoritmo de aprendizaje profundo de extremo a extremo para la predicción de pre-miARNs en genomas completos.
Machine learning has had a great development in recent years and has allowed solving a large number of problems in the most diverse disciplines, although there are still great challenges to be solved when the data presents a high degree of class imbalance or has few labeled data. A particular case of application where challenges like these present themselves is in the computational prediction of microRNA sequences. This, also called mature microRNA, is a small non-coding RNA molecule which can regulate gene expression.
In recent years, a large number of methods have been developed that try to detect new microRNAs using information mainly from their structure. The main drawback of these methods is that they use characteristics based mainly on the structure of the precursor (pre-miRNA) without including the information of the mature miRNA, which is sequentially encoded. In this way, very valuable information is lost that could be used to improve the prediction of new pre-miRNAs and, in turn, reduce the number of false positives.
Deep learning-based approaches have recently been proposed as a method for automatic feature extraction. However, they still have important practical limitations when applied to real forecasting tasks. In order to allow the prediction of new miRNAs in complete genomes, two major contributions were made in this thesis. First, three new features were developed based on complexity measures of the mature miRNA, which allow to significantly reduce the number of false positives. Second, the first end-to-end deep learning algorithm for the prediction of pre-miRNAs in whole genomes was developed.