Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática

Yones, Cristian Ariel

Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática

Biblioteca Virtual
→
Colección de posgrado
→
Facultad de Ingeniería y Ciencias Hídricas
→
Doctorado en Ingeniería
→
Ver ítem

Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática

Yones, Cristian Ariel

Autor: Yones, Cristian Ariel

URI: http://hdl.handle.net/11185/1159

Fecha: 2018-11-22

Palabras clave: Machine learning - Semi-supervised learning - microRNA prediction - Whole genome - Aprendizaje maquinal - Aprendizaje semi-supervisado - Predicción de microRNA - Genoma completo -

Resumen:

Machine learning has had a great development in recent years and has allowed solving a large number of problems in the most diverse disciplines. However, there are still great challenges to be solved, such as learning in data with a high degree of class imbalance or with very little tagged data. A particular case of application where challenges such as these are presented is in the computational prediction of microRNA (miRNA) sequences. MicroRNAs (miRNA) are a group of small sequences of non-coding ribonucleic acid (RNA) that play a very important role in gene regulation. In recent years, methods have been developed that try to detect new miRNAs using only structure and sequence information, that is, without measuring levels of expression. These types of methods have important practical limitations when they must be applied to real prediction tasks. In this thesis contributions were made in the three stages of the miRNA prediction process. A tool was developed to extract substrings of a complete genome that meet minimum requirements to be potential pre-miRNAs. A tool was developed to calculate most of the characteristics used in the state of the art. The third and main contribution consists of a semi-supervised learning algorithm that allows to make predictions from few positive class examples and the rest of the unlabeled chains. Each designed tool was compared against the state of the art, obtaining better performance rates and shorter execution times.

El aprendizaje maquinal ha tenido un gran desarrollo en los últimos años y ha permitido resolver una gran cantidad de problemas en las más diversas disciplinas. Sin embargo, aún quedan grandes desafíos por resolver, como lo es el aprendizaje en datos con alto grado de desbalance de clases o con muy pocos datos etiquetados. Un caso particular de aplicación donde se presentan desafíos como estos es en la predicción computacional de secuencias de microARN (miARN). Los microARN (miARN) son un grupo de pequeñas secuencias de ácido ribonucleico (ARN) no codificante que desempeñan un papel muy importante en la regulación génica. En los últimos años, se han desarrollado métodos que intentan detectar nuevos miARNs utilizando sólo información de estructura y secuencia, es decir, sin medir niveles de expresión. Este tipo de métodos tienen importantes limitaciones prácticas cuando deben aplicarse a tareas de predicción real. En esta tesis se realizaron aportes en las tres etapas del proceso de predicción de miARN. Se desarrolló una herramienta para extraer subcadenas de un genoma completo que cumplan con requerimientos mínimos para ser potenciales pre-miARNs. Se desarrolló una herramienta que permite calcular la mayoría de las características utilizadas en el estado del arte. La tercer y principal contribución consiste en un algoritmo de aprendizaje semi-supervisado que permite realizar predicciones a partir de pocos ejemplos de clase positiva y el resto de las cadenas sin etiqueta. Cada herramienta diseñada fue comparada contra el estado del arte, obteniendo mejores tasas de desempeño y menores tiempos de ejecución.

Descripción: Fil: Yones, Cristian Ariel. Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas; Argentina.

Director: Milone, Diego Humberto

Codirector: Stegmayer, Georgina

Tribunal examinador: Manavella, Pablo - Grinblat, Guillermo - Chesñevar, Carlos - Carballido, Jéssica

Financiación: Universidad Nacional del Litoral - Agencia Nacional de Promoción Científica y Tecnológica

Mostrar el registro completo del ítem

Ficheros en el ítem

Nombre: Tesis.pdf

Tamaño: 3.904Mb

Formato: PDF

ver

Este ítem aparece en

Doctorado en Ingeniería

Excepto si se señala otra cosa, la licencia del ítem se describe como info:eu-repo/semantics/openAccess

Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática

Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática

Resumen:

Ficheros en el ítem

Este ítem aparece en

Buscar en la biblioteca