Por favor, use este identificador para citar o enlazar este ítem: http://dspace.espoch.edu.ec/handle/123456789/14828
Título : Medición de la efectividad de técnicas de imputación para datos faltantes
Autor : Vinueza Chalco, Jamilton Daniel
Masaquiza Aragón, Galo Alexander
Director(es): Flores Muñoz, Pablo Javier
Tribunal (Tesis): Pazmiño Maji, Rubén Antonio
Palabras claves : CIENCIAS EXACTAS Y NATURALES;ESTADÍSTICA;MÉTODO DE MONTECARLO;IMPUTACIÓN DE DATOS;PRECISIÓN DE AJUSTE;PROPIEDADES DEL ESTIMADOR
Fecha de publicación : 23-ago-2021
Editorial : Escuela Superior Politécnica de Chimborazo
Citación : Vinueza Chalco, Jamilton Daniel; Masaquiza Aragón, Galo Alexander. (2021). Medición de la efectividad de técnicas de imputación para datos faltantes. Escuela Superior Politécnica de Chimborazo. Riobamba.
Identificador : UDCTFC;226T0093
Abstract : The objective of this research work was to measure the effectiveness in terms of precision and quality of estimation presented by different imputation techniques for missing data, coming from a normal distribution. From the Monte Carlo method, a bivariate matrix structured by observed data and by missing data was created, where the missing values were developed through an established model. Representative samples of size 5, 10, 30 and 100 were simulated 100,000 times working with different percentages of information loss for the scenarios: Missing completely at random (MCAR), missing at random (MAR) and missing not at random (MNAR). The imputation techniques by elimination, mean, median and linear regression were applied, in which the adjustment of the data was diagnosed through a precision measure and it was verified if the imputed data maintain their estimation properties of unbiasedness and minimum variance., using the mean and variance estimators. Using the RStudio software, it was determined which linear regression is the most accurate in samples from 30, while the mean and median in small samples such as 5 to obtain values closer to the real data. The unbiasedness of the mean shows that the best technique is the imputation by linear regression, since its property is maintained in samples from 30 onwards. In the unbiasedness of the variance, the most viable technique in MAR and MCAR is elimination for samples of 30 and 100, while for MNAR in samples of any size. According to the minimum variance of the mean and variance, the technique that yielded a lower variance in most contexts is linear regression. It is recommended to extend the study using multiple imputation techniques and machine learning to diagnose better results.
Resumen : El presente trabajo de titulación tuvo por objetivo medir la efectividad en términos de precisión y calidad de estimación que presentan distintas técnicas de imputación para datos faltantes, provenientes de una distribución normal. A partir del método de Montecarlo, se creó una matriz bivariada estructurada por datos observados y por datos perdidos, donde los valores faltantes fueron desarrollados a través de un modelo establecido. Se simularon 100.000 veces muestras representativas de tamaño 5, 10, 30 y 100 trabajando con diversos porcentajes de pérdida de información para los escenarios: Faltantes completamente aleatorios (MCAR), Faltantes aleatorios (MAR) y Faltantes no aleatorios (MNAR). Se aplicaron las técnicas de imputación por eliminación, media, mediana y regresión lineal, en la cual se diagnosticó el ajuste de los datos a través de una medida de precisión y se verificó si los datos imputados mantienen sus propiedades de estimación de insesgadez y mínima varianza, utilizando los estimadores de media y varianza. Mediante el uso del software RStudio se determinó qué regresión lineal es la más precisa en muestras a partir de 30, mientras la media y mediana en muestras pequeñas como 5 por obtener valores más cercanos a los datos reales. La insesgadez de la media, demuestra que la mejor técnica es la imputación por regresión lineal, debido a que su propiedad se mantiene en muestras a partir de 30. En la insesgadez de la varianza la técnica más viable es la eliminación en los escenarios MAR y MCAR para muestras de 30 y 100, mientras para MNAR en muestras de cualquier tamaño. Conforme a la mínima varianza de la media y varianza, la técnica que arrojó una varianza inferior en la mayoría de los contextos es la regresión lineal. Se recomienda ampliar el estudio utilizando técnicas de imputación múltiple y machine learning para diagnosticar mejores resultados.
URI : http://dspace.espoch.edu.ec/handle/123456789/14828
Aparece en las colecciones: Ingeniero en Estadística Informática; Ingeniero/a Estadístico/a

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
226T0093.pdf1,32 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons