Cluster no jerárquicos versus CART y BIPLOT

Carrasco Oberto, Gonzalo Isaac

doi:10.14201/gredos.145450

Título

Cluster no jerárquicos versus CART y BIPLOT

dc.contributor.advisor	Vicente Galindo, María Purificación	es_ES
dc.contributor.advisor	Patino Alonso, María Carmen	es_ES
dc.contributor.author	Carrasco Oberto, Gonzalo Isaac
dc.date.accessioned	2021-03-02T09:44:54Z
dc.date.available	2021-03-02T09:44:54Z
dc.date.issued	2020
dc.identifier.uri	http://hdl.handle.net/10366/145450
dc.description.abstract	[ES] INTRODUCCIÓN Cada día estamos más inmersos en un mundo en el que los datos crecen y crecen. La minería de datos (MD) muy relacionada con el Descubrimiento de Conocimiento en Bases de datos (KDD -Knowledge Discovery in Databases) nos permite descubrir información de grandes volúmenes de datos y son fundamentales para analizarlos de manera eficaz, a la vez que revelan patrones que no eran conocidos (Holsheimer & Siebes, 1994). El KDD es un proceso que consta de un conjunto de fases que incluye el preprocesamiento minería y post procesamiento de los datos. La minería de datos es una técnica de Inteligencia Artificial que permite extraer conocimiento útil y comprensible previamente desconocido a partir de grandes volúmenes de datos y consiste en la aplicación de un algoritmo para extraer patrones de datos. Sin embargo, con el fin de analizar los datos enfocados en el descubrimiento del conocimiento se ha ido adaptando y ha surgido lo que se denomina minería de datos espacial (MDE), la cual se considera como el proceso automático de explorar grandes cantidades de datos espaciales con el objetivo de descubrir conocimiento. En la actividad investigadora resulta de gran interés identificar asociaciones, patrones y reglas. Dentro de las técnicas de MD se encuentra el agrupamiento (Clustering). El agrupamiento de datos es un problema fundamental en una variedad de áreas de la informática y campos relacionados, como el análisis de datos, la compresión de datos y el análisis de datos estadísticos (Aboubi, Drias, & Kamel, 2016). Puede considerarse el problema más importante de aprendizaje no supervisado tratando de encontrar una estructura de datos no etiquetados (Jain & Dubes, 1988; Jain, Murty, & Flynn, 1999). Los algoritmos de agrupamiento más conocidos son los métodos jerárquicos y los métodos de partición, aunque existen otros métodos basados en densidades y los métodos basados en Gird. Existen diversas razones por las que las agrupaciones particionadas o de aprendizaje no supervisado son de interés: implementación rápida y convergen rápidamente, permiten categorizar elementos, entre otras. Sin embargo, estos algoritmos sufren inconvenientes en la especificación de los parámetros iniciales no adecuados, que pueden generar una mala convergencia. Se han desarrollado diferentes métodos de agrupamiento que atienden a diversos problemas como costo computacional, sensibilidad a la inicialización, clases desbalanceadas y convergencia a un óptimo local, entre otros. Sin embargo, para la selección de un método, es necesario considerar la naturaleza de los datos y las condiciones del problema con el fin de agrupar patrones similares, de tal forma que se tenga un buen compromiso entre costo computacional y efectividad en la separabilidad de las clases. Algunos de los algoritmos basados en particiones son el algoritmo K-Medias, el algoritmo K-Medoids, el algoritmo de particionamiento alrededor de Medoids (PAM) y una versión de PAM diseñada para grupos de datos mayores denominado CLARA (Gupta & Panda, 2018). Hay numerosos investigadores que han propuesto algoritmos de K-Medias y K- Medoids (Borah & Ghose, 2009; Dunham, 2002; Han & Kamber, 2006; Khan & Ahmad, 2004; Park, Lee, & Jun, 2006; Rakhlin & Caponnetto, 2007; Xiong, Wu, & Chen, 2009). La agrupación ha ganado un amplio uso y su importancia ha crecido proporcionalmente debido a la cantidad cada vez mayor de datos y al aumento exponencial en las velocidades de procesamiento de la computadora. La importancia de la agrupación se puede entender por el hecho de que tiene una amplia variedad de aplicaciones, ya sea en educación o industrias o agricultura o economía. Las técnicas de agrupamiento se han vuelto muy útiles para grandes conjuntos de datos, incluso en redes sociales como Facebook y Twitter (Soni & Patel, 2017). El análisis de conglomerados juega un papel indispensable en la exploración de la estructura subyacente de un conjunto de datos dado, y se usa ampliamente en un variedad de temas de ingeniería y científicos, como, medicina, sociología, psicología y recuperación de imágenes Además en otras áreas, tales como, estudios de segmentación de clientes en el área financiera (Abonyi & Feil, 2007), biología (Der & Everitt, 2005; Quinn & Keough, 2002) , ecología (McGarigal, Cushman, & Stanford, 2000) , entre otros, puesto que la mayoría de las veces no utiliza ningún supuesto estadístico para llevar a cabo el proceso de agrupación (Leiva-Valdebenito & Torres-Avilés, 2010)...	es_ES
dc.language.iso	spa	es_ES
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Tesis y disertaciones académicas	es_ES
dc.subject	Universidad de Salamanca (España)	es_ES
dc.subject	Tesis Doctoral	es_ES
dc.subject	Academic dissertations	es_ES
dc.subject	K-medias	es_ES
dc.subject	Agrupamiento	es_ES
dc.subject	Algoritmo PAM	es_ES
dc.subject	CLARA	es_ES
dc.title	Cluster no jerárquicos versus CART y BIPLOT	es_ES
dc.type	info:eu-repo/semantics/doctoralThesis	es_ES
dc.subject.unesco	1209 Estadística	es_ES
dc.identifier.doi	10.14201/gredos.145450
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES