Compartir
Título
Uso del clustering espacial basado en densidad de aplicaciones con ruido en la minería de datos. Creación de una aplicación web con R para clasificar o predecir datos reales
Autor(es)
Director(es)
Palabras clave
Conglomerados
Programación en R
Trayectorias GPS
R. Shiny
Clustering
R. Programming
GPS trajectories
Clasificación UNESCO
1209.14 Técnicas de Predicción Estadística
1203.23 Lenguajes de Programación
3327.02 Análisis del Tráfico
Fecha de publicación
2024-07
Resumen
[ES]Formalmente, el clustering espacial basado en densidad de aplicaciones con ruido (DBSCAN) es un algoritmode clustering no paramétrico que agrupa puntos de datos en función de su densidad en un espacio
métrico. Su objetivo principal es encontrar áreas de alta densidad en el espacio de datos y asignar puntos
a clusters en función de la conectividad de dichas áreas densas. Es especialmente útil para identificar
clusters de diferentes formas y tamaños en conjuntos de datos donde la densidad varía significativamente.
Además es capaz de detectar outliers, y no requiere que se especifique el número de clusters de antemano.
Este trabajo consiste en buscar un conjunto de datos y crear una aplicación web con R para llevar a cabo
el procedimiento del DBSCAN, y usarlo para clasificar los datos o hacer predicciones, documentando
cualquier pre-procesamiento requerido para hacer los datos adecuados para el ajuste del modelo, limpiando
la base de datos, y dividiéndola en datos de entrenamiento y testeo.
Ejemplos de situaciones reales en las que usar esta técnica pueden ser: detectar patrones de uso del
transporte público para analizar cómo los usuarios se agrupan en función de sus patrones de viajes,
detección de clusters de lugares turísticos y descubrir áreas de alta concentración de visitantes en una
ciudad en función de sus preferencias, agrupar datos de actividades deportivas y descubrir patrones de
comportamiento en función de su actividad (carreras, caminatas, ciclismo) y rendimiento. [EN]Formally, Density-Based Spatial Clustering of Applications with Noise (DBSCAN) is a non-parametric
clustering algorithm that groups data points based on their density in a metric space. Its main objective
is to find high-density areas in the data space and assign points to clusters based on the connectivity of
these dense areas. It is particularly useful for identifying clusters of di↵erent shapes and sizes in datasets
where the density varies significantly. Additionally, it can detect outliers and does not require specifying
the number of clusters beforehand.
The task involves selecting a dataset and creating a web app using R to perform the DBSCAN procedure,
and using it to classify the data or make predictions. This includes documenting any preprocessing
required to make the data suitable for model fitting, cleaning the database, and splitting it into training
and testing data.
Examples of real-life situations where this technique can be used include: detecting public transport
usage patterns to analyze how users group based on their travel patterns, detecting clusters of tourist spots
and discovering areas of high visitor concentration in a city based on their preferences, grouping sports
activity data, and discovering behavioral patterns based on their activity (running, walking, cycling) and
performance...
Descripción
Trabajo de fin de Grado. Grado en Estadística. Curso académico 2023.-2024.
URI
Aparece en las colecciones













