Nuevos enfoques basados en medidas de complejidad para la detección de secuencias cortas en bioinformática

Raad, Jonathan

Nuevos enfoques basados en medidas de complejidad para la detección de secuencias cortas en bioinformática

Biblioteca Virtual
→
Colección de posgrado
→
Facultad de Ingeniería y Ciencias Hídricas
→
Doctorado en Ingeniería
→
Ver ítem

dc.contributor.advisor	Milone, Diego Humberto
dc.contributor.author	Raad, Jonathan
dc.contributor.other	Lucero, Leandro
dc.contributor.other	Tapia, Elizabeth
dc.contributor.other	Carballido, Jéssica
dc.date.accessioned	2023-08-18T12:27:46Z
dc.date.available	2023-08-18T12:27:46Z
dc.date.issued	2021-12-17
dc.identifier.uri	https://hdl.handle.net/11185/7197
dc.description	Fil: Raad, Jonathan. Universidad Nacional del Litoral. Facultad de ingeniería y Ciencias Hídricas; Argentina.	es_ES
dc.description.abstract	El aprendizaje maquinal ha tenido un gran desarrollo en los últimos años y ha permitido resolver una gran cantidad de problemas en las más diversas disciplinas, aunque aun quedan grandes desafíos por resolver cuando los datos presentan un alto grado de desbalance de clases o tienen muy pocos datos etiquetados. Un caso particular de aplicación donde se presentan desafíos como estos es en la predicción computacional de secuencias de microARN. Este, también llamado microARN maduro, es una pequeña molécula de ARN no codificante la cual puede regular la expresión de los genes. En los últimos años, se ha desarrollado una gran cantidad de métodos que intentan detectar nuevos microARN utilizando información principalmente de su estructura. El principal inconveniente de estos métodos es que utilizan características basadas principalmente en la estructura del precursor (pre-miARN) sin incluir la información del miARN maduro, que se encuentra codificada en forma secuencial. De esta manera, se pierde información muy valiosa que podría utilizarse para mejorar la predicción de nuevos pre-miARN y disminuir a su vez el número de falsos positivos. Recientemente se propusieron enfoques basados en aprendizaje profundo como un método para la extracción automática de características. Sin embargo, éstos tienen aún importantes limitaciones prácticas cuando deben aplicarse a tareas de predicción real. Para poder permitir la predicción de nuevos miARNs en genomas completos, en esta tesis se realizaron dos grandes aportes. En primer lugar, se desarrollaron tres nuevas características basadas en medidas de complejidad del miARN maduro, las cuales permiten reducir significativamente el número de falsos positivos. En segundo lugar, se desarrolló el primer algoritmo de aprendizaje profundo de extremo a extremo para la predicción de pre-miARNs en genomas completos.	es_ES
dc.description.abstract	Machine learning has had a great development in recent years and has allowed solving a large number of problems in the most diverse disciplines, although there are still great challenges to be solved when the data presents a high degree of class imbalance or has few labeled data. A particular case of application where challenges like these present themselves is in the computational prediction of microRNA sequences. This, also called mature microRNA, is a small non-coding RNA molecule which can regulate gene expression. In recent years, a large number of methods have been developed that try to detect new microRNAs using information mainly from their structure. The main drawback of these methods is that they use characteristics based mainly on the structure of the precursor (pre-miRNA) without including the information of the mature miRNA, which is sequentially encoded. In this way, very valuable information is lost that could be used to improve the prediction of new pre-miRNAs and, in turn, reduce the number of false positives. Deep learning-based approaches have recently been proposed as a method for automatic feature extraction. However, they still have important practical limitations when applied to real forecasting tasks. In order to allow the prediction of new miRNAs in complete genomes, two major contributions were made in this thesis. First, three new features were developed based on complexity measures of the mature miRNA, which allow to significantly reduce the number of false positives. Second, the first end-to-end deep learning algorithm for the prediction of pre-miRNAs in whole genomes was developed.	en_EN
dc.description.sponsorship	Consejo Nacional de Investigaciones Científicas y Técnicas	es_ES
dc.description.sponsorship	Universidad Nacional del Litoral
dc.format	application/pdf
dc.language.iso	spa	es_ES
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject	Medidas de complejidad	es_ES
dc.subject	Aprendizaje maquinal	es_ES
dc.subject	Aprendizaje profundo	es_ES
dc.subject	Predicción de pre-miARN	es_ES
dc.subject	Genoma completo	es_ES
dc.subject	Redes transformers	es_ES
dc.subject	Complexity measures	en_EN
dc.subject	Machine learning	en_EN
dc.subject	Deep learning	en_EN
dc.subject	Pre-miRNA prediction	en_EN
dc.subject	Genome-wide	en_EN
dc.subject	Transformers networks	en_EN
dc.title	Nuevos enfoques basados en medidas de complejidad para la detección de secuencias cortas en bioinformática	es_ES
dc.title.alternative	New approaches based on complexity measures for the detection of short sequences in bioinformatics	en_EN
dc.type	SNRD	es_ES
dc.type	info:eu-repo/semantics/doctoralThesis
dc.type	info:ar-repo/semantics/tesis doctoral
dc.type	info:eu-repo/semantics/acceptedVersion
dc.contributor.coadvisor	Stegmayer, Georgina
unl.degree.type	doctorado
unl.degree.name	Doctorado en Ingeniería
unl.degree.mention	Inteligencia Computacional, Señales y Sistemas
unl.degree.grantor	Facultad de Ingeniería y Ciencias Hídricas
unl.formato	application/pdf