Medical image classification based on representational learning

Castro Silva, Juan Antonio

Título

Medical image classification based on representational learning

Autor(es)

Castro Silva, Juan Antonio

Director(es)

Moreno García, María Navelonga

Palabras clave

Tesis y disertaciones académicas

Universidad de Salamanca (España)

Tesis Doctoral

Academic dissertations

Alzheimer's disease

Slice selection

3D vision transformer

Multimodal data

Clasificación UNESCO

1203.04 Inteligencia Artificial

Fecha de publicación

2025

Resumen

[EN] Accurate and early diagnosis of Alzheimers Disease (AD) remains a significant challenge due to the complexity of its pathological progression and the subtlety of its early biomarkers. Structural magnetic resonance imaging (MRI), combined with advancements in deep learning, has shown promising results for AD classification. However, existing approaches suffer from limitations such as fixed or heuristic slice selection, poor region of interest (ROI) targeting, and inadequate handling of anatomical variability. These shortcomings can result in data redundancy, reduced model generalizability, and increased computational costs. This thesis addresses these limitations by proposing a novel, ROI-guided slice instance selection methodology that integrates multi-atlas information to improve the representativeness and informativeness of input data for AD classification. A statistical centroid-based ROI extraction method is also introduced to localize and crop disease-relevant image regions precisely. The selected 2D slices and ROI patches are further evaluated using deep convolutional neural networks (CNNs) and hybrid ensemble methods to assess classification performance across anatomical planes, preprocessing variations, and CNN architectures. Additionally, a multiple-input, mixed-data 3D Vision Transformer (ViT) ensemble model is presented to incorporate multimodal data, combining 3D MRI with demographic and cognitive scores, to improve diagnostic accuracy. The proposed methods were validated using three large-scale public datasets (ADNI, AIBL, and OASIS), and the results demonstrate statistically significant improvements over both the baseline and state-of-the-art models. The hybrid ensemble achieved a maximum classification accuracy of 95%, and the proposed 3D ViT outperformed comparable architectures in multiple configurations. These contributions highlight the effectiveness of anatomically informed instance selection and the value of hybrid and multimodal deep learning approaches for robust and scalable AD diagnosis.

[ES] El diagnóstico temprano y preciso de la enfermedad de Alzheimer (EA) continúa siendo un desafío significativo debido a la complejidad de su progresión patológica y la sutileza de sus biomarcadores en etapas iniciales. La resonancia magnética estructural (MRI), combinada con los avances en aprendizaje profundo, ha mostrado resultados prometedores en la clasificación de casos de EA. No obstante, los enfoques existentes presentan limitaciones importantes, como la selección fija o heurística de cortes, una segmentación deficiente de las regiones de interés (ROIs) y una gestión inadecuada de la variabilidad anatómica. Estas deficiencias pueden generar redundancia de datos, reducir la capacidad de generalización del modelo e incrementar los costos computacionales. Esta tesis aborda dichas limitaciones mediante la propuesta de una novedosa metodología de selección de instancias por cortes, guiada por ROIs e integrada con información de múltiples atlas, con el fin de mejorar la representatividad e informatividad de los datos de entrada en tareas de clasificación de EA. Asimismo, se introduce un método estadístico de extracción de ROIs basado en centroides para localizar y recortar con precisión las regiones de imagen relevantes para la enfermedad. Los cortes 2D seleccionados y los parches de ROI extraídos son evaluados mediante redes neuronales convolucionales (CNNs) y métodos híbridos de ensamble, considerando diferentes planos anatómicos, variantes de preprocesamiento y arquitecturas de CNN. Además, se presenta un modelo de ensamble basado en un Transformer 3D de múltiples entradas y datos mixtos, diseñado para incorporar información multimodal, combinando imágenes de resonancia magnética tridimensional (MRI 3D) con datos demográficos y puntuaciones cognitivas, con el fin de mejorar la precisión diagnóstica. Los métodos propuestos fueron validados utilizando tres conjuntos de datos públicos a gran escala (ADNI, AIBL y OASIS), y los resultados demuestran mejoras estadísticamente significativas en comparación con modelos base y otros enfoques de última generación. El ensamble híbrido alcanzó una precisión máxima del 95%, y el transformador de visión 3D propuesto superó a arquitecturas comparables en múltiples configuraciones. Estas contribuciones destacan la eficacia de la selección de instancias informada anatómicamente y el valor de los enfoques híbridos y multimodales de aprendizaje profundo para un diagnóstico de la EA más robusto y escalable.

URI

https://hdl.handle.net/10366/169694

Aparece en las colecciones