Comparativa entre regresión logística ordinal, redes neuronales artificiales y Gradient boosting; en la predicción de la satisfacción laboral en Ecuador

Andrade Saltos, Vinicio Alexander

Por favor, use este identificador para citar o enlazar este ítem: http://dspace.espoch.edu.ec/handle/123456789/14279

Título :	Comparativa entre regresión logística ordinal, redes neuronales artificiales y Gradient boosting; en la predicción de la satisfacción laboral en Ecuador
Autor :	Andrade Saltos, Vinicio Alexander
Director(es):	Flores Muñoz, Pablo Javier
Tribunal (Tesis):	Pazmiño Maji, Rubén Antonio
Palabras claves :	ESTADÍSTICA;MODELO PREDICTIVO;ESTADÍSTICA CLÁSICA;MACHINE LEARNING (METODOLOGÍA);SATISFACCIÓN LABORAL;R Y RSTUDIO (SOFTWARE)
Fecha de publicación :	10-ene-2020
Editorial :	Escuela Superior Politécnica de Chimborazo
Citación :	Andrade Saltos, Vinicio Alexander. (2020). Comparativa entre regresión logística ordinal, redes neuronales artificiales y Gradient boosting; en la predicción de la satisfacción laboral en Ecuador. Escuela Superior Politécnica de Chimborazo. Riobamba.
Identificador :	UDCTFC;226T0054
Abstract :	This research aims to compare the predictive quality and processing demand of the classical technique: ordinal logistic regression and machine learning techniques: artificial neural networks and gradient boosting. The study is set in a context where technological progress has allowed exponential growth in the production of information, which needs to be analyzed efficiently, therefore, it is essential to identify the best techniques for analysis. The comparison was made within the framework of the construction of a model that predicts the level of job satisfaction in Ecuadorian householders with a single job. Therefore, the main characteristics of both methodologies were studied and their equivalences in terminology were identified. Subsequently, a quantitative comparison of the predictive quality was made, processing times and peak RAM associated with each of the models built with the three techniques, a resampling process was performed using ten-fold cross validation and 200 models were run per each technique to control the variability of the phenomenon under study. Finally, the level of processing generated was contrasted, taking into account two factors: 1) sample size (real and increased with 37 336 and 373 360 observations, respectively), and 2) number of effective processor cores (one and seven). The results showed that the total prediction error for gradient boosting was 29.5%, concluding that this technique is the most reliable in its predictive task, presenting a high demand for processing, which decreases considerably when working in parallel, that is, when using all processor cores. It is recommended to use gradient boosting in socio-economic studies like the study proposed here.
Resumen :	La presente investigación tiene como objetivo comparar la calidad predictiva y la demanda de procesamiento de la técnica clásica: regresión logística ordinal y las técnicas de machine learning: redes neuronales artificiales y gradient boosting. El estudio se plantea en un contexto donde el avance tecnológico ha permitido un crecimiento exponencial en la producción de información, la cual requiere ser analizada de forma eficiente, por lo tanto, resulta indispensable identificar las mejores técnicas para el análisis. La comparación se realizó en el marco de la construcción de un modelo que prediga el nivel de satisfacción laboral en jefes de hogar ecuatorianos con un único trabajo. Así, se estudiaron las principales características de ambas metodologías y se identificaron sus equivalencias en terminología. Posteriormente se realizó una comparación cuantitativa de la calidad predictiva, tiempos de procesamiento y pico de memoria RAM asociados a cada uno de los modelos construidos con las tres técnicas, se realizó un proceso de remuestreo mediante ten-fold cross validation y se corrieron 200 modelos por cada técnica para controlar la variabilidad propia del fenómeno bajo estudio. Finalmente se contrastó el nivel de procesamiento generado, tomando en cuenta dos factores: 1) tamaño de muestra (real y aumentada con 37 336 y 373 360 observaciones, respectivamente), y 2) número de núcleos efectivos del procesador (uno y siete). Los resultados mostraron que el error total de predicción para gradient boosting fue del 29.5%, concluyendo así que esta técnica es la más confiable en su tarea predictiva, presentando una alta demanda de procesamiento, la cual disminuye considerablemente al trabajar en paralelo, es decir, al utilizar todos los núcleos del procesador. Se recomienda utilizar gradient boosting en estudios socio – económicos similares al estudio aquí planteado.
URI :	http://dspace.espoch.edu.ec/handle/123456789/14279
Aparece en las colecciones:	Ingeniero en Estadística Informática; Ingeniero/a Estadístico/a

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
226T0054.pdf		2,27 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons