Compartir
Título
Uso de la agregación Bootstrap y los bosques aleatorios en la minería de datos. Creación de una aplicación web con R para clasificar o predecir datos reales
Autor(es)
Director(es)
Palabras clave
Árboles de decisión
Agregación Bootstrap
Bosque aleatorio
Enfermedades cardiovasculares
Decisión Trees
Bagging
Random forest
Cardiovascular diseases
Clasificación UNESCO
1209.14 Técnicas de Predicción Estadística
1203.23 Lenguajes de Programación
3205.01 Cardiología
Fecha de publicación
2024-07
Resumen
[ES]El trabajo se centra en la implementación y aplicación de los algoritmos bagging y random forest
para predecir enfermedades cardiovasculares. El objetivo principal fue desarrollar una aplicación
web utilizando RStudio, integrando técnicas estadísticas para ayudar en la toma de decisiones clínicas.
El proyecto detalla los pasos de preprocesamiento de datos y elabora el proceso de desarrollo
de software utilizando R y Shiny.
Inicialmente, se elegió una base de datos de enfermedades cardiovasculares por su relevancia clínica
y calidad de datos. El conjunto de datos se dividió en subconjuntos de entrenamiento, testeo
y predicción para facilitar el desarrollo y validación del modelo.
El núcleo del trabajo se centra en la aplicación de los algoritmos bagging y random forest. Bagging,
o bootstrap aggregating, implica generar múltiples versiones de un predictor y usar estos
para obtener un resultado agregado. Random Forest, una extensión de bagging, construye una
multitud de árboles de decisión y combina sus resultados para mejorar la precisión predictiva. Estos
métodos se implementaron en R, con su rendimiento evaluado en los datos de enfermedades
cardiovasculares.
Los resultados mostraron el potencial de estas técnicas en entornos clínicos. El trabajo también
aborda la creación de una aplicación web interactiva utilizando Shiny, que permite a los usuarios
cargar datos, especificar divisiones de entrenamiento y testeo, y visualizar los resultados de las
predicciones. Esta aplicación sirve como una herramienta práctica para los sanitarios, mejorando
su capacidad para diagnosticar condiciones cardiovasculares con precisión.
En conclusión, el trabajo cumple sus objetivos al proporcionar una aplicación web funcional que
aprovecha métodos estadísticos avanzados para ayudar en el diagnóstico de enfermedades cardiovasculares.
La integración de los algoritmos bagging y random forest en una interfaz fácil de
usar ejemplifica la aplicación práctica de la ciencia de datos en la atención médica, ofreciendo un
recurso valioso para los profesionales médicos. [EN]The work focuses on the implementation and application of bagging and random forest algorithms
to predict cardiovascular diseases. The main objective was to develop a web app using RStudio,
integrating statistical techniques to aid in clinical decision-making. The project details the steps of
data preprocessing and elaborates on the software development process using R and Shiny.
Initially, a cardiovascular disease database was chosen for its clinical relevance and data quality.
The dataset was divided into training, testing, and prediction subsets to facilitate the model development
and validation.
The core of the work centers on the application of the bagging and random forest algorithms.
Bagging, or bootstrap aggregating, involves generating multiple versions of a predictor and using
these to obtain an aggregated result. Random Forest, an extension of bagging, builds a multitude decision trees and combines their results to improve predictive accuracy. These methods were
implemented in R, with their performance evaluated on cardiovascular disease data.
The results demonstrated the potential of these techniques in clinical settings. The work also addresses
the creation of an interactive web app using Shiny, allowing users to upload data, specify
training and testing splits, and visualize prediction results. This app serves as a practical tool for
healthcare providers, enhancing their ability to accurately diagnose cardiovascular conditions.
In conclusion, the work meets its objectives by providing a functional web app that leverages
advanced statistical methods to aid in the diagnosis of cardiovascular diseases. The integration
of bagging and random forest algorithms into an easy-to-use interface exemplifies the practical
application of data science in healthcare, offering a valuable resource for medical professionals.
Descripción
Trabajo de fin de Grado. Grado en Estadística. Curso académico 2023-2024.
URI
Aparece en las colecciones













