Uno de los principales objetivos en el ámbito de la estadística es la capacidad de predecir fenómenos de interés a partir de ciertas variables observadas. Cuando se construye un modelo de predicción es importante tener en cuenta la naturaleza de la variable a predecir y las características de las variables con las que se cuenta para realizar la estimación del modelo. Los modelos clásicos se basan en ciertos supuestos sobre las variables involucradas, como por ejemplo independencia y distribución de las mismas. Es sabido que modelos desarrollados para datos independientes no tienen un buen desempeño en datos que presentan cierta estructura de dependencia. Por otra parte, los avances tecnológicos que venimos experimentado en la era del Big Data facilitan la generación de datos que a menudo no está acompañada por un incremento similar en la cantidad de observaciones recolectadas. Cuando los métodos usuales de estimación son aplicados a los casos antes descriptos, las estimaciones proporcionadas por los mismos son poco fiables y sesgadas. Para sortear estas limitaciones es de interés proponer modelos que se adecúen a los datos disponibles y a los objetivos buscados, particularmente, a datos de alta dimensión, de conteo con exceso de ceros y/o datos espaciales que naturalmente presentan dependencia. Este tipo de datos es muy frecuente en el área de economía y ciencias sociales, por lo que en el presente proyecto nos focalizaremos en tales aplicaciones.
One of the main objectives in the field of statistics is the ability to predict phenomena of interest from certain observed variables. When building a prediction model, it is important to consider the nature of the variable to be predicted and the characteristics of the variables available for estimating the model. Classical models are based on certain assumptions about the variables involved, such as independence and distribution. It is well known that models developed for independent data do not perform well on data that exhibit some structure of dependence. Moreover, the technological advances we have been experiencing in the Big Data era facilitate the generation of data that is often not accompanied by a similar increase in the number of observations collected. When usual estimation methods are applied to the aforementioned cases, the estimates provided by them are unreliable and biased. To overcome these limitations, it is of interest to propose models that are suited to the available data and the desired objectives, particularly high-dimensional data, count data with excess zeros, and/or spatial data that naturally present dependence. This type of data is very common in the fields of economics and social sciences, so in the present project, we will focus on such applications.