Compartir
Título
Desarrollo de un sistema para minería de datos basado en los métodos Biplot
Autor(es)
Director(es)
Materia
Tesis y disertaciones académicas
Universidad de Salamanca (España)
Tesis Doctoral
Academic dissertations
Estadísitica
Statistics
Clasificación UNESCO
1209 Estadística
Fecha de publicación
2003
Resumen
[ES]Con esta tesis se buscó realizar dos objetivos:
1. Demostrar que tiene sentido la construcción de sistemas de minería gráfica de datos basados en el concepto de biplot, utilizando las característica únicas de interpretabilidad de estos gráficos que presentan, en un espacio métrico, conceptos expresos por conjuntos de observaciones, por conjuntos de variables y por conjuntos de variables y observaciones – lo que permite una fácil, útil e intuitiva interpretación de las proximidades geométricas de esos conceptos. Este objetivo fue cumplido construyendo un prototipo de ese tipo de sistema, testado con datos reales.
2. Mostrar que es posible crear un lenguaje para expresar los resultados de una gran clase de métodos de análisis de datos multivariantes – análisis de clústeres, componentes principales, escalamiento multidimensional, análisis canónica y otras- que permite la generación automática de expresiones con sugestiones de interpretación de esos resultados, fácilmente interpretables por los seres humanos. Ese lenguaje es formada por expresiones conjuntivas de átomos de significado del tipo (Variable = valor). Las expresiones resultantes pueden ser miradas como caminos en grafos de intersección construidos con el objetivo de facilitar la implementación de los algoritmos de interpretación. Este sistema ha sido testado con éxito usando datos reales. [EN] With this thesis I had in mind two main objectives:
1. To show that it makes sense to build graphical data mining systems using the unique interpretability features of biplots (that presents, in a metric space, both concepts expressed by sets of variables, by sets of observations and by sets of variables and observations - allowing an easy and intuitive interpretation of proximities between those concepts). This objective was achieved building one prototype of such system.
2. To show that it is possible to create a language to express the results of a large class of multivariate data analysis methods - cluster analysis, principal components analysis, multidimensional scaling, canonical analysis and other – that allows the automatic generation of expressions to convey suggestions of interpretation of those results, easily interpretable by humans. That language is formed by conjunctive expressions formed by atoms of meaning of the type (Variable = value). The resulting expressions can be geometrically interpreted as paths in an intersection graph constructed for that purpose. This system was successfully tested with real data.
URI
Colecciones