Machine learning has had a great development in recent years and has allowed solving a large number of problems in the most diverse disciplines. However, there are still great challenges to be solved, such as learning in data with a high degree of class imbalance or with very little tagged data. A particular case of application where challenges such as these are presented is in the computational prediction of microRNA (miRNA) sequences. MicroRNAs (miRNA) are a group of small sequences of non-coding ribonucleic acid (RNA) that play a very important role in gene regulation. In recent years, methods have been developed that try to detect new miRNAs using only structure and sequence information, that is, without measuring levels of expression. These types of methods have important practical limitations when they must be applied to real prediction tasks.
In this thesis contributions were made in the three stages of the miRNA prediction process. A tool was developed to extract substrings of a complete genome that meet minimum requirements to be potential pre-miRNAs. A tool was developed to calculate most of the characteristics used in the state of the art. The third and main contribution consists of a semi-supervised learning algorithm that allows to make predictions from few positive class examples and the rest of the unlabeled chains. Each designed tool was compared against the state of the art, obtaining better performance rates and shorter execution times.
El aprendizaje maquinal ha tenido un gran desarrollo en los últimos años y ha permitido resolver una gran cantidad de problemas en las más diversas disciplinas. Sin embargo, aún quedan grandes desafíos por resolver, como lo es el aprendizaje en datos con alto grado de desbalance de clases o con muy pocos datos etiquetados. Un caso particular de aplicación donde se presentan desafíos como estos es en la predicción computacional de secuencias de microARN (miARN). Los microARN (miARN) son un grupo de pequeñas secuencias de ácido ribonucleico (ARN) no codificante que desempeñan un papel muy importante en la regulación génica. En los últimos años, se han desarrollado métodos que intentan detectar nuevos miARNs utilizando sólo información de estructura y secuencia, es decir, sin medir niveles de expresión. Este tipo de métodos tienen importantes limitaciones prácticas cuando deben aplicarse a tareas de predicción real.
En esta tesis se realizaron aportes en las tres etapas del proceso de predicción de miARN. Se desarrolló una herramienta para extraer subcadenas de un genoma completo que cumplan con requerimientos mínimos para ser potenciales pre-miARNs. Se desarrolló una herramienta que permite calcular la mayoría de las características utilizadas en el estado del arte. La tercer y principal contribución consiste en un algoritmo de aprendizaje semi-supervisado que permite realizar predicciones a partir de pocos ejemplos de clase positiva y el resto de las cadenas sin etiqueta. Cada herramienta diseñada fue comparada contra el estado del arte, obteniendo mejores tasas de desempeño y menores tiempos de ejecución.