Reducción de dimensiones para datos composicionales en alta dimensión

Koplin, Eric Lionel

Reducción de dimensiones para datos composicionales en alta dimensión

dc.contributor.advisor	Tomassi, Diego
dc.contributor.author	Koplin, Eric Lionel
dc.contributor.other	Cafaro, Diego
dc.contributor.other	Leonardi, Florencia
dc.contributor.other	Rodriguez, Daniela
dc.date.accessioned	2024-10-18T14:07:44Z
dc.date.available	2024-10-18T14:07:44Z
dc.date.issued	2023-12-15
dc.identifier.uri	https://hdl.handle.net/11185/7789
dc.description	Fil: Koplin, Eric Lionel. Universidad Nacional del Litoral. Facultad de Ingeniería Química; Argentina.	es_ES
dc.description.abstract	La reducción de dimensiones es esencial en el análisis de datos complejos de alta dimensión para conservar información relevante y fundamentar conclusiones. Aunque ampliamente desarrollada en estadística y aprendizaje automático, requiere adaptaciones para datos complejos como los del microbioma humano, que influyen en enfermedades, tratamientos y desarrollo infantil. El microbioma, descrito como datos de conteo de alta dimensión que registra el número de microorganismos leídos en una muestra, presenta retos debido a su cuantificación compleja, abundancias relativas informativas, alta cantidad de ceros y variabilidad entre individuos. El análisis de estos datos busca identificar diferencias significativas en la composición del microbioma relacionadas con variables de interés, pero también explicar qué componentes impulsan estas asociaciones. Esta tesis introduce métodos basados en reducción suficiente de dimensiones y modelos gráficos para datos composicionales y de conteo de alta dimensión. Los modelos gráficos condicionales permiten modelar dependencias complejas entre componentes de la microbiota, describiéndolos como un ecosistema. Se presentan nuevos modelos gráficos capaces de manejar una gran proporción de ceros y se desarrollan algoritmos de estimación. La metodología incluye caracterización de distribuciones multivariadas y modelado de predictores como función de la respuesta, derivando la reducción suficiente de dimensiones (RSD). Se minimiza una divergencia con penalización jerárquica para identificar predictores asociados con la respuesta, produciendo estimadores consistentes aplicables a respuestas continuas o categóricas. Con selección de variables, las reducciones permiten evaluar asociaciones globales e identificar componentes clave de la microbiota. Los métodos se ilustran con simulaciones y datos reales de microbioma.	es_ES
dc.description.abstract	This thesis introduces novel methods for dimension reduction tailored to microbiome data, a type of complex high-dimensional compositional data characterized by its sparse nature and the presence of numerous zeros. The human microbiome is significant for various health outcomes, yet its complex data structure poses challenges for traditional statistical and machine learning approaches. Existing methods often fail to adequately address the unique features of microbiome data, such as its compositionality and sparsity. The proposed methodology leverages sufficient dimension reductions and graphical models to preserve relevant information and model complex dependencies among microbiota components. Specifically, new graphical models are introduced to handle the excess of zeros in the data. These models characterize multivariate distributions through univariate conditional distributions and use a pairwise graphical model framework to account for the zeros. A key innovation is the derivation of first-order sufficient dimension reduction (SDR), which identifies linear combinations of predictors that encapsulate all the information for regressing an outcome on these predictors. Estimation of the SDR involves minimizing a divergence with a graph-aware hierarchical penalty, inducing structured sparsity to pinpoint key predictors associated with the outcome. This method provides consistent estimators and is applicable to both continuous and categorical outcomes. The efficacy of these methods is demonstrated through simulations and real microbiome data analyses, highlighting their ability to visualize overall associations and identify crucial microbiota components driving these associations.	en_EN
dc.description.sponsorship	Consejo Nacional de Investigaciones Científicas y Técnicas	es_ES
dc.format	application/pdf
dc.language.iso	spa	es_ES
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/deed.es
dc.subject	Modelos gráficos	es_ES
dc.subject	Reducción suficiente de dimensiones	es_ES
dc.subject	Selección de variables	es_ES
dc.subject	Independencia condicional	es_ES
dc.subject	Alta dimensión	es_ES
dc.subject	Datos de conteo	es_ES
dc.subject	Graphical model	es_ES
dc.subject	Sufficient reduction in dimensions	es_ES
dc.subject	Variable selection	es_ES
dc.subject	Conditional independence	es_ES
dc.subject	High dimension	es_ES
dc.subject	Count data	es_ES
dc.title	Reducción de dimensiones para datos composicionales en alta dimensión	es_ES
dc.title.alternative	Sufficient dimension reduction for high-dimensional compositional data	es_ES
dc.type	SNRD	es_ES
dc.type	info:eu-repo/semantics/doctoralThesis
dc.type	info:ar-repo/semantics/tesis doctoral
dc.type	info:eu-repo/semantics/acceptedVersion
dc.contributor.coadvisor	Forzani, Liliana
unl.degree.type	doctorado
unl.degree.name	Doctorado en Ingeniería Matemática
unl.degree.grantor	Facultad de Ingeniería Química
unl.formato	application/pdf