Compartir
Título
Contribuciones al Biplot Logístico Binario
Autor(es)
Director(es)
Assunto
Tesis y disertaciones académicas
Universidad de Salamanca (España)
Tesis Doctoral
Academic dissertations
Biplot
Matriz
Teorema
Informática
Clasificación UNESCO
1209.09 Análisis Multivariante
1209 Estadística
Fecha de publicación
2022
Resumen
[ES] Con los avances tecnológicos también se ha generado un crecimiento masivo en la cantidad y
variedad de datos, esto brinda la oportunidad de tener una comprensión más profunda
pero también introduce grandes desafíos estadísticos. Esto ha llevado a que se generen
nuevas líneas de investigación que combinan los métodos estadísticos con los desarrollos en
informática, y así implementar nuevas herramientas que permitan modelar y comprender
conjuntos de datos complejos.
Los métodos de ordenación y reducción de la dimensionalidad son utilizados con frecuencia
porque permiten simplificar los análisis con la mínima pérdida de información. En este
contexto, los métodos biplot son una variedad de técnicas multivariantes que permiten
reducir y visualizar de forma simultánea la información de un conjunto de datos, y han
contribuido al avance de la ciencia por más de cinco décadas. Los aportes realizados en los
métodos biplot han permitido que las técnicas puedan ser aplicadas en diferentes áreas del
conocimiento, facilitando la toma de decisiones.
Inicialmente el biplot fue propuesto como una extensión del análisis de componentes
principales basado en la descomposición en valores singulares y luego fue extendido para
visualizar los resultados de otros métodos. Uno de estos se denomina biplot logístico,
que es un tipo de biplot lineal para datos binarios que permite modelar la relación entre
las variables observadas y las dimensiones del biplot a través de una curva de respuesta
logística.
Este trabajo presenta contribuciones para los casos donde la matriz de información es binaria,
proponiendo métodos que faciliten el análisis para grandes volúmenes de información,
haciendo un aporte novedoso al combinar el biplot logístico con los métodos de optimización
aplicados en el contexto de machine learning y utilizando los desarrollos informáticos
disponibles en la actualidad.
En este proyecto se investiga y se propone una metodología basada en validación cruzada
que es adaptada para el biplot logístico, con el fin de contar con un método que permita
identificar el número de dimensiones que son apropiadas para ajustar el modelo. De este
procedimiento se obtiene un error de entrenamiento y un error de validación que pueden ser
ilustrados en una gráfica y así visualizar el valor apropiado para el número de dimensiones
que debe ser elegido.
De otra parte, con el fin de contribuir al proceso de análisis multivariante para matrices de
datos binarias de tipo big data, se incorporan nuevas formulaciones que permiten obtener
funciones de pérdida adecuadas para ajustar el biplot logístico cuando se tiene un alto
volumen de datos. Para ello se realizan diferentes desarrollos teóricos que son postulados
y demostrados en algunos teoremas. A partir de las funciones que permiten sustituir el
problema de optimización por otro más simple, se realiza el desarrollo teórico para adaptar
diferentes algoritmos que permiten estimar los parámetros del modelo. Asimismo, se explora
un enfoque a partir de algoritmos basados en el gradiente conjugado. Para comparar el
rendimiento de los algoritmos se usa un procedimiento de simulación que permite medir
la capacidad que tienen los diferentes métodos para identificar el número de dimensiones
del modelo y la habilidad que tienen para recuperar la matriz canónica de parámetros en
escenarios con matrices balanceadas y en otros donde la matriz de datos está desequilibrada.
Partiendo de que la matriz de datos binaria puede estar incompleta, se incorpora una
metodología que permite dar un tratamiento a los datos faltantes. Esta se desarrolla desde
una nueva perspectiva que está basada en el método de proyección de datos propuesto por
Pearson para un análisis de componentes principales. En este trabajo se realiza el desarrollo
teórico que permite llegar a un problema de minimización y un algoritmo apropiado
para obtener una solución al problema, con la ventaja de que las entradas faltantes en
la matriz binaria también se van optimizando mientras se realiza el ajuste del modelo.
Este enfoque además permite obtener la matriz de marcadores fila como una función de
los marcadores columna, permitiendo la proyección de filas suplementarias sin tener que
realizar nuevamente el proceso de optimización.
vi
Con el fin de ilustrar su uso práctico y la interpretación de los resultados, los métodos propuestos
son aplicados usando conjuntos de datos reales en diferentes contextos. Finalmente,
para dar un soporte práctico a los investigadores de las diferentes áreas del conocimiento, los
métodos propuestos y desarrollados teóricamente, son puestos a disposición en un paquete
escrito en lenguaje R, denominado BiplotML, el cual cuenta con toda la documentación de
ayuda y puede ser instalado desde el repositorio de CRAN.
URI
DOI
10.14201/gredos.150738
Aparece en las colecciones