Compartir
Título
Aplicación de algoritmos de predicción y aprendizaje de máquinas en el análisis genómico de los linfomas de células B.
Otros títulos
Application of prediction and machine learning algorithms in the genomic analysis of B-cell lymphomas.
Autor(es)
Director(es)
Palabras clave
Linforma de células B
Aprendizaje de máquinas
Expresión diferencial
Multiómica
B cell lymphoma
Machine learning
Differential expression
Multiomics
Clasificación UNESCO
1209.03 Análisis de Datos
1209.14 Técnicas de Predicción Estadística
1203.23 Lenguajes de Programación
1209.09 Análisis Multivariante
2404.01 Bioestadística
3201.01 Oncología
Fecha de publicación
2023-07
Resumen
[ES]En los últimos años los estudios genómicos en los linfomas de células b (LCB) han permitido definir
subgrupos moleculares con características clínicas y pronósticos diferentes. La posibilidad de acceder a
los datos ómicos de varias series independientes de pacientes con linfomas b permitirá realizar análisis
bioinformáticos y validaciones no planteados en cada estudio particular. Para lograr este objetivo, se
disponen de datos multiómicos a los niveles genómico (alteración en el número de copias de ADN),
transcriptómico (expresión génica mediante RNA-seq) y epigenómico (metilación de ADN), así como de
las características clínicas de pacientes de supervivencia global y de supervivencia libre de progresión.
Tras un primer procesamiento de los datos de partida, se lleva a cabo una preselección de variables
conforme a las variables respuesta de interés mediante la prueba exacta de Fisher en el caso de la meti lación y copy number, o haciendo uso del paquete DESeq2 en el caso de datos de RNA-seq. A continua ción se realiza una segunda selección de las variables de interés mediante el algoritmo Boruta. Con las
variables seleccionadas se llevan a cabo los estudios predictivos sobre la supervivencia global y super vivencia sin progresión empleando técnicas de machine learning como las máquinas de soporte de vec tores, bosques aleatorios y k vecinos más cercanos haciendo uso de un tercio de las muestras iniciales para la validación de los resultados de la predicción. Finalmente, se evalúa la eficacia de los resultados
de los algoritmos de predicción empleando diferentes métricas de rendimiento como la eficacia, la sensibilidad y la especificidad. [EN]In recent years, genomic studies in b-cell lymphomas (b-cell lymphomas) have made it possible to de fine molecular subgroups with different clinical and prognostic characteristics. The possibility of ac cessing omics data from several independent series of patients with b-cell lymphomas will allow bioin formatic analyses and validations not considered in each particular study. To achieve this goal, multi omics data are available at the genomic (DNA copy number alteration), transcriptomic (gene expres sion by RNA-seq) and epigenomic (DNA methylation) levels, as well as clinical characteristics of pa tients for overall survival and progression-free survival. After a first processing of the baseline data, a
pre-selection of variables according to the response variables of interest is performed by fisher's exact
test in the case of methylation and copy number, or by using the DESeq2 package in the case of rna-seq
data. A second selection of the variables of interest is then performed using the Boruta algorithm. With
the selected variables, predictive studies on overall survival and progression-free survival are carried
out using machine learning techniques such as vector support machines, random forests and k-nearest
neighbors using one third of the initial samples for validation of the prediction results. Finally, the effec tiveness of the results of the prediction algorithms is evaluated by employing different performance
metrics such as efficiency, sensitivity and specificity
Descripción
Trabajo de fin de Grado. Grado en Estadística. Curso académico 2022-2023.
URI
Aparece en las colecciones













