Modelos de clasificación para datos astronómicos

Teppa Pannia, Florencia Anabella

Título

Modelos de clasificación para datos astronómicos

Otros títulos

Classification Models for Astronomical Data

Autor(es)

Teppa Pannia, Florencia Anabella

Director(es)

Vicente Villardón, José Luis

Palabras clave

aprendizaje automático; modelos de clasificación binaria; clasificación estrellagalaxia

Clasificación UNESCO

2101.10 Estrellas

Fecha de publicación

2022

Editor

Universidad de Salamanca

Citación

Teppa Pannia, F. A. Modelos de clasificación para datos astronómicos. [Salamanca]: Universidad de Salamanca; 2022.

Resumen

La aplicación de métodos de aprendizaje automático supervisado a problemas científicos ha alcanzado su auge en los últimos años como herramienta fundamental para la exploración y minería de grandes bases de datos. En particular, en el campo de la Astronomía, un tema de estudio frecuentemente abordado es el entrenamiento de modelos para la clasificación de objetos celestes a partir de imágenes y/o características físicas observables. El objetivo general de este trabajo es investigar modelos supervisados de clasificación binaria para resolver el problema de la distinción de objetos puntuales dentro de las clases galaxia y estrella. Los objetivos particulares se detallan a continuación: 1. Presentar el marco teórico de los modelos supervisados de clasificación, con el fin de familiarizar las ventajas y desventajas que presenta cada uno, así como adquirir un dominio de las herramientas numéricas para su aplicación. En este marco, se definen también las métricas adecuadas para cuantificar y comparar las capacidades de predicción de cada modelo. 2. Entrenar los modelos presentados utilizando el catálogo astronómico ALHAMBRA, compuesto por un total de 23 filtros fotométricos, que recoge información de observaciones de más de 6 × 104 objetos celestes. Comparar las predicciones de clasificación de cada modelo para este ejemplo concreto. Asimismo, el trabajo es llevado a cabo según la siguiente metodología: el marco teórico para presentar los modelos es recogido de bibliografía específica, siguiendo los lineamientos del modulo 5 (Machine Learning) de este máster; los datos utilizados son de acceso público y se presentan mediante un análisis exploratorio inicial; los modelos son entrenados a partir de algoritmos disponibles en librerías de R y los códigos se presentan detallados para la reproducibilidad de los resultados obtenidos. Como resultado general de nuestro trabajo, encontramos que todos los modelos estudiados arrojan buenos ajustes (regresión logística, support vector machines, redes neuronales y árboles de decisión, entre otros), con errores de predicción bajos al ser evaluados con datos de validación. Valorando la complejidad de los modelos y aplicando el principio de simplicidad, el modelo de regresión logística resulta preferido por su buena capacidad de predicción y la simpleza en implementación e interpretación. Los resultados obtenidos en este trabajo para la clasificación de objetos del catálogo ALHAMBRA son originales, y los modelos entrenados resultan comparables a otros estudiados con catálogos astronómicos de las mismas características.

URI

https://hdl.handle.net/10366/150436

Aparece en las colecciones