Uso de los clústeres en la minería de datos. Creación de una aplicación web con R para clasificar o predecir datos reales.

Alonso Escudero, Natalia

Título

Uso de los clústeres en la minería de datos. Creación de una aplicación web con R para clasificar o predecir datos reales.

Autor(es)

Alonso Escudero, Natalia

Director(es)

Rodríguez Rosa, Miguel

Palabras clave

Conglomerados

Programación con R

Salud Fetal

R-Shiny

Clustering

R. Programming

Fetal Health

Clasificación UNESCO

1209.14 Técnicas de Predicción Estadística

1203.23 Lenguajes de Programación

320108

Fecha de publicación

2023-07

Resumen

[ES]En este proyecto, nos enfocamos en la importancia crucial de reducir la mortalidad infantil y materna, dos problemas de salud que continúan siendo desafiantes a nivel mundial. Reconocemos que la salud fetal juega un papel crítico para prevenir complica ciones y tomar decisiones médicas apropiadas. Es por eso que usamos los cardiotocogramas, una herramienta para monitorizar la salud de los fetos durante el embarazo y el parto. Además, en el campo de la medicina, existe una gran cantidad de datos recogi dos a lo largo del tiempo, lo que ha llevado al surgimiento de la minería de datos y el machine learning como herramientas pro metedoras para extraer conocimiento valioso y realizar análisis más precisos. En este contexto, introducimos el concepto de clustering, una técnica de aprendizaje no supervisado que nos permite identificar patrones y estructuras ocultas en conjuntos de datos sin etiquetar. El objetivo principal de este trabajo es desarrollar un análisis estadístico utilizando la técnica de clustering en una base de datos de cardiotocogramas. Para lograr esto, nos aprovechamos del lenguaje de programación R y la plataforma Shiny para crear una aplicación web interactiva y amigable con el usuario que permita la clasificación y predicción precisa de datos que tienen que ver con la salud fetal. Exploramos diferentes métodos de clustering, incluyendo el popular algoritmo de K means, técnicas basadas en jerarquías y densidad de datos. También mencionamos técnicas de aprendizaje supervisado, como los K-vecinos más cercanos (KNN) y clustering supervisado, los cuales podrían complementarse y además mejorar nuestro análisis.

[EN]In this project, we focus on addressing the crucial importance of reducing infant and maternal mortality, two health issues that continue to be challenging worldwide. We recognise that fetal health assessment plays a critical role in preventing complications and making appropriate medical decisions. That is why we use cardiotocograms, a widely-used tool for monitoring the health of the fetus during pregnancy and childbirth. Furthermore, in the field of medicine, there is a large amount of data collected over time, which has led to the emergence of data mining and machine learning as promising tools to extract valuable knowledge and perform more accurate analyses. In this context, we introduce the concept of clustering, an unsupervised learning technique that allows us to identify hidden patterns and structures in unlabelled datasets. The main objective of this work is to develop a statis tical analysis using the clustering technique on a cardiotocogram database. To achieve this, we leveraged the R programming language and the Shiny platform to create an interactive and userfriendly web application that allows for data classification and accurate predictions regarding fetal health. We explore different clustering methods, including the popular K-means algorithm, techniques based on hierarchy and data density. We also mention supervised learning techniques, such as K-nearest neighbours (KNN) and supervised clustering, which could complement and further enhance our analysis

Descripción

Trabajo de fin de Grado. Grado en Estadística. Curso académico 2022-2023.

URI

https://hdl.handle.net/10366/156797

Aparece en las colecciones