Muchos de los problemas en estadística se basan en estudiar el comportamiento de una o más variables llamadas respuesta a partir de un conjunto de variables llamadas predictoras. Para ello se toman mediciones u observaciones, se hace un análisis exploratorio de estos datos y se propone un modelo matemático que explique su relación. Uno de los modelos más usados y estudiados es la regresión lineal. Cuando el número de predictores p es grande comparado con el tamaño de observaciones n, muchos de los métodos tradicionales en estadística comienzan a dar estimaciones que pueden ser muy pobres. En particular, en el contexto de regresión lineal se vuelve un problema estimar el vector de parámetros con el método de mínimos cuadrados, usado tradicionalmente en el caso n > p. El objetivo de esta tesis es extender los resultados de Cook y Forzani de 2018 para hallar la distribución (n,p) asintótica de la predicción PLS. En un contexto general, encontramos la presencia de un sesgo no aleatorio en esta convergencia y damos condiciones para que sea despreciable. Proponemos estimadores para la varianza asintótica y para el sesgo, mostrando su consistencia. Utilizando éstos deducimos a su vez intervalos de confianza y predicción para el parámetro dado por el modelo. Finalmente, mostramos ejemplos y simulaciones para ilustrar los resultados expuestos.
Many of the problems in statistics are based on studying the behavior of one or more variables called response from a set of variables called predictors. For this, measurements or observations are taken, an exploratory analysis of these data is made and a mathematical model is proposed to explain their relationship. One of the most used and studied models is linear regression. When the number of predictors p is large compared to the size of observations n, many of the traditional methods in statistics begin to give estimates that can be very poor. In particular, in the context of linear regression it becomes a problem to estimate the vector of parameters with the method of least squares, traditionally used in the case n > p. The objective of this thesis is to extend the results of Cook and Forzani from 2018 to find the asymptotic (n,p) distribution of the PLS prediction. In a general context, we find the presence of a non-random bias in this convergence and give conditions for it to be negligible. We propose estimators for the asymptotic variance and for the bias, showing their consistency. Using these we in turn deduce confidence and prediction intervals for the parameter given by the model. Finally, we show examples and simulations to illustrate the exposed results.