PDEMA. Estadística Multivariante Aplicada

PDEMA. Estadística Multivariante Aplicada http://hdl.handle.net/10366/143116 2026-07-24T14:23:44Z Covid-19 en el servicio de salud de Castilla y León (España) desde la perspectiva multivariante http://hdl.handle.net/10366/171261 [ES]La pandemia de COVID-19 supuso un desafío sin precedentes para los sistemas sanitarios, no solo desde el punto de vista asistencial, sino también en términos de salud laboral y prevención de riesgos profesionales. Los trabajadores sanitarios y no sanitarios estuvieron expuestos de manera heterogénea al riesgo de infección por SARS-CoV-2, condicionada por factores organizativos, profesionales, territoriales, temporales y diagnósticos. El objetivo de esta tesis doctoral es analizar y describir los patrones multivariantes de exposición ocupacional y positividad frente al SARS-CoV-2 en los trabajadores del Servicio de Salud de Castilla y León (SACYL, España), durante el periodo comprendido entre marzo de 2020 y marzo de 2022, mediante un enfoque multivariante de carácter exploratorio. El estudio se basa en una base de datos administrativa de gran escala, compuesta por más de 300.000 pruebas diagnósticas realizadas a personal sanitario y no sanitario, caracterizada por una estructura de alta dimensionalidad y por la predominancia de variables categóricas. Dada la naturaleza de los datos y la ausencia de una variable respuesta predefinida, se seleccionó el Análisis de Correspondencias Múltiples (ACM) estimado mediante Escalamiento Óptimo (HOMALS) como herramienta principal de análisis. Esta metodología permite explorar de forma conjunta las asociaciones entre variables categóricas sin imponer supuestos paramétricos, manteniendo al mismo tiempo la viabilidad computacional en bases de datos de gran tamaño. A partir de las coordenadas factoriales obtenidas mediante el ACM, se aplicaron técnicas de agrupamiento jerárquico y no jerárquico (método de Ward y algoritmo K-means), con el objetivo de sintetizar el espacio multivariante en perfiles interpretables de exposición ocupacional y positividad. El análisis se realizó tanto de forma global como estratificada por ámbito organizativo, con el fin de evitar la agregación de poblaciones heterogéneas y mejorar la interpretabilidad de los resultados. Asimismo, se comparó el análisis conjunto de pruebas positivas y negativas con el análisis restringido a pruebas con resultado positivo, permitiendo identificar estructuras más estrechamente relacionadas con los patrones epidemiológicamente relevantes. Los resultados evidencian la existencia de estructuras multivariantes diferenciadas de exposición y positividad asociadas al contexto organizativo, la categoría profesional, la distribución territorial, la estrategia diagnóstica y la evolución temporal de la pandemia. De manera destacada, los patrones identificados no se limitan al personal asistencial, poniendo de manifiesto la relevancia de los colectivos no sanitarios en la dinámica de la exposición ocupacional. Desde una perspectiva metodológica, esta tesis demuestra la idoneidad de la combinación del Análisis de Correspondencias Múltiples y las técnicas de agrupamiento como marco exploratorio para el análisis de grandes bases de datos categóricos en sistemas sanitarios complejos. Los resultados obtenidos aportan evidencia útil para la vigilancia en salud laboral y para el diseño de estrategias preventivas adaptadas en contextos de emergencia sanitaria. 2026-01-01T00:00:00Z Voluntariado, ideología y Estado: un análisis del papel de las creencias políticas en la acción voluntaria, su relación con el tercer sector y la concepción del Estado del bienestar en la prestación de servicios http://hdl.handle.net/10366/170566 [ES] La presente tesis doctoral analiza la relación entre la ideología política de las personas voluntarias en España, el tipo de voluntariado que realizan y su concepción del papel del Estado en el tercer sector de acción social. Partiendo de la idea de que el voluntariado constituye una forma de participación social con implicaciones políticas, la investigación explora hasta qué punto las creencias ideológicas influyen en la elección del ámbito de actuación, en el carácter asistencialista o transformador de la acción voluntaria y en la valoración de la autonomía y la financiación pública de las organizaciones. El estudio se enmarca en el debate sobre la reconfiguración del Estado del bienestar y el papel creciente del tercer sector en la provisión de servicios sociales. A través de una encuesta online dirigida a personas voluntarias en España, se recogen datos sobre ideología, interés por la política, tipo de voluntariado, orientación organizativa y percepción del papel del Estado. La metodología empleada se basa en técnicas de estadística multivariante, especialmente análisis factorial y biplots, que permiten identificar dimensiones subyacentes y representar gráficamente las relaciones entre las variables analizadas. Los resultados muestran que el voluntariado no es una práctica ideológicamente neutra, sino un espacio atravesado por valores políticos y concepciones diferenciadas sobre la responsabilidad social. La tesis contribuye a visibilizar la dimensión política del voluntariado y aporta una aproximación empírica innovadora mediante el uso de técnicas multivariantes aplicadas al estudio del tercer sector en España 2025-01-01T00:00:00Z Bootstrap como estrategia para al estabilización de las soluciones sparse en modelos tensoriales. Aplicado al modelo CenetTucker http://hdl.handle.net/10366/170424 [EN] This doctoral thesis addresses a key methodological challenge in high-dimensional data analysis: the instability of sparse solutions in penalized tensor models. Specifically, it proposes a theoretical and computational framework that integrates Bootstrap resampling techniques with the Elastic Net-penalized Tucker decomposition —known as the CenetTucker model— to enhance the stability and reproducibility of latent factor selection. The research is structured around three main pillars: (i) a comprehensive review of the theoretical foundations and limitations of sparse solutions in tensor-structured data, (ii) the formalization and implementation of a Bootstrap-based stabilization procedure tailored to the CenetTucker model, and (iii) the empirical evaluation of model stability through simulated experiments and real datasets. As an applied contribution, the thesis introduces an R package named GSparseBoot, which automates the model fitting, resampling, and computation of stability metrics —including variable inclusion frequency, Jaccard index, support variability, and stable selection index. While the package is not yet published on CRAN, its development is complete, and its public release is currently in process. Results demonstrate that incorporating Bootstrap significantly reduces the structural variability of penalized solutions without compromising interpretability or predictive performance. This improvement is particularly evident in scenarios involving high collinearity or weak latent structures, where traditional approaches tend to be unstable. Additionally, a set of tailored stability metrics is proposed to rigorously assess consistency across resampling replicates in multi-way contexts. This work offers an original methodological contribution at the intersection of computational statistics, tensor factorization, and regularization. It provides a solid mathematical foundation, a reproducible computational implementation, and practical tools to support scientific studies in genomics, neuroscience, sensory data analysis, and other domains where statistical reproducibility is paramount. Overall, this thesis advances the development of more robust and reliable statistical models in the era of complex, highdimensional data. 2025-01-01T00:00:00Z Evaluación multivariante sobre el rendimiento y la estabilidad de variedades de caña de azúcar en Ecuador http://hdl.handle.net/10366/163809 [ES]Los métodos de interacción genotipo por genotipo+ambiente (GGE) son técnicas estadísticas empleadas en agronomía y mejoramiento genético para analizar y visualizar la variabilidad del rendimiento de diferentes genotipos en múltiples ambientes. Desde el punto de vista estadístico, el enfoque GGE se basa en descomponer la matriz de datos de rendimiento mediante análisis de componentes principales (PCA) o descomposición en valores singulares (SVD), enfocándose en los efectos combinados del genotipo y la interacción genotipo x ambiente (G + G×E). Esto permite identificar patrones y relaciones entre genotipos y ambientes, facilitando la selección de genotipos superiores y la comprensión de cómo responden a distintas condiciones ambientales. Esta investigación es una aplicación del método GGE biplot, para analizar su eficiencia en la evaluación del rendimiento en múltiples ambientes, tomando a estos como ubicaciones y años. El método desarrollado se aplicó en la industria agronómica, específicamente en el sector cañicultor, para evaluar el rendimiento de caña de azúcar en toneladas métricas por hectáreas. Para una mejor comprensión de las observaciones se generaron análisis adicionales, como análisis de la varianza (ANOVA) y el test de Tukey HSD. Los resultados revelaron que emplear ANOVA es útil hasta cierto punto para capturar una pequeña parte de la varianza y determinar en especifico la existencia de diferencias significativas, así mismo el test de Tukey demostró su capacidad para determinar los mejores genotipos, sectores y años, sin embargo, no considerando la interacción entre estas entradas. El modelo GGE biplot, demostró su gran capacidad para explorar los ensayos agronómicos, para determinar los mejores genotipos en distintos ambientes de prueba, ofreciendo bases teóricas y prácticas para la toma de decisiones en la selección de variedades específicas, además de ser beneficioso para los investigadores que utilizan técnicas de exploración de biplot. 2024-12-01T00:00:00Z Monitoreo de la crisis en los sectores financieros mediante el modelo Camels Partial Triadic Analysis (CPTA) http://hdl.handle.net/10366/163713 [ES]Este estudio presenta el modelo CAMELS Partial Triadic Analysis (CPTA), una novedosa integracion´ de la metodolog´ıa CAMELS con el modelo Partial Triadic Analysis (PTA) para mejorar la evaluacion de ´ los indicadores financieros a lo largo de los trimestres. Al analizar las simetr´ıas en las matrices de datos trimestrales y cuantificar las correlaciones vectoriales, el modelo CPTA proporciona una vision profunda ´ de las tendencias financieras durante las recesiones, lo que resulta especialmente util en sectores como ´ el bancario, donde los ajustes estrategicos son cruciales. Este modelo incorpora la matriz de compro- ´ miso, que sintetiza los valores de los indicadores a lo largo del periodo estudiado. Esto permite captar la estabilidad de los datos frente a entornos adversos. Posteriormente, se aplico la t ´ ecnica de retroceso ´ de Fibonacci para analizar las tendencias al alza y a la baja de los indicadores financieros, a partir de la matriz de compromiso, con el fin de evaluar su comportamiento. Cuando se aplico al sector bancario ´ ecuatoriano, el modelo CPTA identifico fluctuaciones significativas en los indicadores financieros duran- ´ te tres periodos cr´ıticos: prepandemico, pand ´ emico y la actual crisis territorial entre la guerra de Rusia ´ y Ucrania. Los resultados demuestran la utilidad del modelo CPTA para detectar variaciones pivotantes y mejorar la visualizacion de las interrelaciones dentro del sector financiero, facilitando as ´ ´ı una mejor toma de decisiones en tiempos de incertidumbre. 2024-12-01T00:00:00Z Mínimos Cuadrados Parciales en Metaanálisis: Estrategias para Abordar la Heterogeneidad y Dependencia http://hdl.handle.net/10366/160644 [ES] Se ha demostrado que PLS lineal de dos bloques es un método valioso para modelar las relaciones entre dos conjuntos de datos (bloques de datos) . Al mismo tiempo, puede servir para tareas de regresión y clasificación, así como para técnicas de reducción de dimensiones y modelado (Rosipal, 2011). Con el conjunto de características y bondades que tiene PLS, desde reducción de la dimensionalidad hasta la posibilidad de clasificación de los datos recogidos en el modelo, invita a su utilización dentro del campo del meta-análisis para el análisis de heterogeneidad, caracterización de grupos y dependencia de resultados. Incluso la dificultad existente para incluir diferentes variables moderadoras dentro de un mismo modelo estadístico para analizar su nivel de influencia puede ser resuelta por PLS. Dadas las consideraciones descritas en los análisis utilizados para resolver la heterogeneidad y dependencia y las características de los mínimos cuadrados parciales se propone en esta tesis la utilización de mínimos cuadrados parciales para analizar datos meta-analíticos donde haya problemas de heterogeneidad y dependencia. 2024-01-01T00:00:00Z Contribuciones a la ganadería bovina cárnica española desde una perspectiva multivariante aplicada http://hdl.handle.net/10366/160264 [ES] La ganadería y, en particular el sector de vacuno cárnico, juega un papel crucial en la economía, la sociedad y el medioambiente, contribuyendo significativamente a la sostenibilidad del país. El presente estudio se centra en la ganadería bovina cárnica española, analizando su caracterización en aspectos zootécnicos, alimentarios, prácticas de gestión medioambiental, gestión de residuos, genética, biodiversidad, uso de energía y aspectos socioeconómicos. Además, este sector ejerce una gran influencia en el entorno rural, condicionando la alimentación, supervivencia y conservación de las comunidades dada a su estrecha relación con la naturaleza circundante. Este trabajo busca generar conocimiento sobre el análisis de datos multivariantes como una herramienta atribuible, fundamental y aplicable al sector de vacuno cárnico. Para realizar el estudio se examinaron 252 explotaciones de vacuno cárnico distribuidas por las diferentes regiones españolas. En una primera fase se analizaron similitudes y diferencias entre las explotaciones, abordando sus características más relevantes, obteniendo un perfil preciso del panorama nacional y proponiendo subgrupos muestrales. Para este propósito, se utilizaron los modelos de segmentación CHAID y TAID, así como el Biplot Logístico Externo. Estas técnicas de análisis multivariante han permitido obtener una visión completa y detallada del sector vacuno cárnico español, lo cual resulta esencial en la toma de decisiones informadas y en el desarrollo de estrategias efectivas en este campo. Los resultados de este estudio promoverán la comprensión de la importancia social de este sector, así como su implicación en la sostenibilidad y conservación de los recursos naturales. 2024-01-01T00:00:00Z Mejoras psicométricas en la evaluación de la salud pública: depresión en Costa Rica http://hdl.handle.net/10366/158237 [ES] Durante la emergencia sanitaria por COVID-19 las entidades gubernamentales encargadas de la seguridad sanitaria: el Ministerio de Sanidad, la Caja Costarricense de Seguro Social nos encargaron una serie de estudios periódicos para monitorear el estado de salud mental de la población y actuar en consecuencia. Para ello se conformó un grupo de trabajo compuesto por profesionales expertos en psicología de emergencias, psicometría, psicología social, estadística, matemáticas y biología. Algunos de ellos actuaban en representación de las principales universidades: Autónoma (UNA) Universidad Nacional (UNA) y la Universidad de Educación a Distancia de Costa Rica (UNED) y otros actuaban en nombre propio. Los informes de estas investigaciones fueron expuestos ante las autoridades, quienes usaron esta información para planificar sus políticas de salud pública. Las conclusiones de los informes debían tratarse con sumo cuidado, ya que la mayoría de los test utilizados no habían sido validados previamente en el país, por lo que podrían tener un funcionamiento diferente en esta población; y es que Costa Rica es el país de Latinoamérica que reporta más felicidad. Debido a su singular felicidad, a las características en salud mental que no habían sido previamente estudiadas a una magnitud poblacional y a sus características lingüísticas y culturales se estimó imprescindible la adaptación tanto cultural como lingüística de las escalas, así como su validación para la población general. De entre todas las escalas psicométricas utilizadas para evaluar la salud mental, se eligió la depresión por ser una dimensión de gran incidencia mundial. Para estudiar la depresión se utilizó el test llamado PHQ-9 (Patient Health Questionnaire-9), el cual consta de 9 ítems que evalúan diferentes facetas de la depresión recogidas en el DSM-IV (Diagnostic and Statistical Manual of Mental Disorders, cuarta versión). Aunque es un test completo, puede usarse por módulos: pueden retirársele ítems para acortar la escala; de esta forma surgen los test PHQ-8, al retirar el noveno ítem y PHQ-2, al dejar solamente los dos primeros ítems (los más definitorios de depresión); por lo que ya que se realizaba el trabajo de validar uno, se validarían sus módulos. Para conocer las propiedades psicométricas de la escala y comprobar si es útil para medir depresión en la población costarricense se utilizaron varias técnicas como la consistencia interna, análisis factorial y análisis de fiabilidad y validez. Además se descubrió que no se estaba detectando adecuadamente la depresión en función del sexo o incluso para población general, por lo que para mejorar esta detección se propusieron nuevos puntos de corte en virtud de una adaptación más adecuada para la población. Así se pudo adaptar la escala para que pueda ser utilizada en la población costarricense de forma confiable y válida. 2023-01-01T00:00:00Z Gráfico de control estadístico de procesos multivariantes para variables cualitativas http://hdl.handle.net/10366/158032 [ES] Los gráficos de control, en el control estadístico de procesos, son esenciales para definir parámetros y límites óptimos en procesos de producción, y monitorizar la calidad de los productos al reducir la variabilidad. Si bien originalmente estos gráficos se centraban en la monitorización univariante, la complejidad organizacional ha impulsado el desarrollo de herramientas multivariantes, siendo el gráfico T2 de Hotelling el más utilizado, aunque tiene sus limitaciones. Esta investigación propone un enfoque innovador al integrar variables cualitativas en gráficos de control multivariantes, considerando que dichas variables desempeñan un papel fundamental en áreas como economía, psicología, educación, en procesos productivos, industriales. El objetivo central es el desarrollo de una metodología que permita el control de estas variables usando técnicas estadísticas multivariantes en la fase I del control estadístico de procesos. El gráfico de control propuesto, se denomina T2Qv, como un acrónimo de T2 (gráfico de Hotelling), Qualitative y Variables. Surge como una herramienta adaptada a bases de datos cualitativas que, partiendo del estadístico T2 de Hotelling, introduce el estadístico 𝑇2med , aprovechando el vector de medianas para mejorar la robustez. Esta metodología detecta anomalías y utilizando técnicas estadísticas multivariantes, como el Análisis de Correspondencias Múltiples y los Métodos biplot, facilita la interpretación de comportamientos variables y su relación con estados fuera de control. Adicionalmente, se ha desarrollado un paquete estadístico computacional, T2Qv, en el lenguaje R, accesible a través del repositorio oficial de R, para ampliar la facilidad y difusión del método. No obstante, el T2Qv presenta algunas limitaciones, como la necesidad de bases de datos con un mínimo de cuatro variables y la pérdida de estabilidad en dimensiones bajas. Como oportunidades futuras, se sugiere la optimización para la fase II y la inclusión de técnicas multivariantes avanzadas. En conclusión, la investigación presenta un avance significativo en la incorporación de variables cualitativas en gráficos de control multivariantes, llenando un vacío en el ámbito de la estadística aplicada, especialmente beneficioso para procesos sociales y campos interdisciplinarios. 2023-01-01T00:00:00Z Biplot de datos composicionales, una nueva herramienta estadística para el estudio de test psicológicos: aplicación al cuestionario de bienestar de Carol Ryff http://hdl.handle.net/10366/157702 [ES] El bienestar psicológico es un constructo multidimensional que abarca diversos aspectos de la experiencia humana, incluyendo la autoaceptación, autonomía, relaciones positivas con otros, dominio del entorno, propósito en la vida y crecimiento personal (Ryff, 1989). Evaluar de manera precisa este concepto es esencial para comprender y promover la salud mental y el desarrollo personal. Para ello el instrumento más usado es el cuestionario de Bienestar Psicológico desarrollado por Carol Ryff en 1989. La versión más extensa del cuestionario, compuesta por 84 ítems, ha sido ampliamente utilizada en diversas investigaciones. Sin embargo, es esencial adaptarla a la población española, asegurándonos de seleccionar los ítems que posean las mejores propiedades psicométricas. El propósito de esta adaptación radica en maximizar la información que proporciona la escala, al tiempo que se minimiza el número de ítems necesarios para su administración. La selección de ítems óptimos se llevará a cabo mediante el empleo de técnicas provenientes tanto de la Teoría Clásica de los Test (TCT), como de la Teoría de Respuesta al Ítem (TRI). Esta combinación de enfoques nos permitirá obtener una versión reducida del cuestionario que sea psicométricamente sólida y culturalmente relevante para la población española. Adicionalmente, para enriquecer el análisis de los datos y proporcionar una perspectiva más completa, se aplicarán técnicas específicas para el análisis de datos composicionales. Este enfoque estadístico es novedoso en el contexto de los test psicológicos en general, ya que en la literatura no se ha encontrado que estos datos se trabajen como composicionales, sin embargo, es particularmente pertinente para evaluar los datos de variables psicológicas ya que su naturaleza multidimensional hace que trabajarlos como vectores composicionales sea adecuado. En concreto, en el bienestar psicológico nos va a aportar una visión de conjunto, permitiendo una comprensión más holística y equilibrada de las dimensiones que lo componen. 2023-11-01T00:00:00Z Importancia de la Subunidad Ácido Lábil (ALS) en el crecimiento. Valores de normalidad, relación con otros factores de crecimiento y su variación en pacientes con talla baja de distinta etiología. http://hdl.handle.net/10366/157567 [ES] Las hipótesis son: - La determinación y valoración de forma conjunta de la ALS, IGF1 e IGFBP3 ayuda a un mejor estudio y diagnóstico de la talla baja en pediatría. - Existen datos en la historia y en la exploración de sujetos con talla baja secundaria a un déficit de ALS que hacen sospechar ese déficit. - El tratamiento con GHr modifica los niveles de ALS y del resto de factores de crecimiento. El objetivo general de esta tesis es conocer el comportamiento de la ALS en el eje de la hormona de crecimiento y su implicación en la presencia de la talla baja. 2023-01-01T00:00:00Z Modelo de análisis multivariante aplicado a la predicción de la tendencia del tipo de cambio euro-dólar http://hdl.handle.net/10366/156745 [ES]Predecir los precios y las tendencias de los instrumentos financieros para mejorar la efectividad de las decisiones de inversión es un reto clave para la industria financiera y los agentes implicados. Aunque se han utilizado muchas técnicas eficaces de inteligencia artificial en el análisis de las series de tiempo, el problema de predecir la dirección del movimiento de los tipos de cambio en el mercado Forex aun requiere soluciones parsimoniosas, descifrables y precisas. Desde la perspectiva del análisis técnico, esta investigación presenta una metodología novedosa para clasificar la dirección de la tendencia de los tipos de cambio. La metodología utiliza puntos de inflexión y datos de mercado que miden la acción de los precios, junto con las diferencias multidimensionales entre tendencias, para construir una función lineal discriminante (LDA). La metodología propuesta consta de cinco fases: preparación de datos, selección de características, detección de estructuras subyacentes, formulación de una función discriminante lineal y evaluación del desempeño del modelo con datos dentro y fuera de la muestra. Los experimentos se realizaron con datos de mercado del tipo de cambio euro-dólar en marcos de tiempo de 15 minutos y 1 semana, y una colección de puntos de inflexión del mercado (ET) definidos por un modelo de negociación algorítmico. El período de muestra va desde enero de 1999 hasta abril de 2023. En contraste con algunos trabajos notables publicados en la literatura científica como la Memoria a Corto Plazo (LSTM), el Aprendizaje Profundo por Refuerzo (DRL), el Análisis Wavelet (WA), el Análisis de Sentimiento de Contenido Textual, las Máquinas de Vectores de Soporte (SVM) y los Algoritmos Genéticos (GA), la metodología propuesta logró una precisión de clasificación del 98.77% con datos fuera de muestra. Estos resultados respaldan la construcción de métodos de clasificación interpretables, generalizables, precisos y parsimoniosos, lo que sugiere mejoras significativas en el rendimiento financiero y la reducción del riesgo en las estrategias de negociación. Además, esta metodología es aplicable en la selección de variables y se adapta fácilmente a otros activos financieros. [EN]Predicting the prices and trends of financial instruments to enhance the effectiveness of investment decisions is a key challenge for the financial industry and stakeholders involved. While many effective artificial intelligence techniques have been utilized in time series analysis, the problem of predicting the direction of exchange rate movements in the Forex market still requires parsimonious, interpretable, and accurate solutions. From the perspective of technical analysis, this research introduces an innovative methodology for classifying the direction of exchange rate trends. The methodology leverages inflection points and market data measuring price action, along with multidimensional differences between trends, to construct a linear discriminant function (LDA). The proposed methodology consists of five phases: data preparation, feature selection, detection of underlying structures, formulation of a linear discriminant function, and evaluation of model performance with in-sample and out-of-sample data. Experiments were conducted using market data for the euro-dollar exchange rate at 15-minute and 1-week timeframes, and a collection of market inflection points (ET) defined by an algorithmic trading model. The sample period spans from January 1999 to April 2023. In contrast to notable works published in the scientific literature, such as Long Short-Term Memory (LSTM), Deep Reinforcement Learning (DRL), Wavelet Analysis (WA), Sentiment Analysis of Textual Content, Support Vector Machines (SVM), and Genetic Algorithms (GA), the proposed methodology achieved a classification accuracy of 98.77% with out-of-sample data. These results support the development of interpretable, generalizable, precise, and parsimonious classification methods, suggesting significant improvements in financial performance and risk reduction in trading strategies. Additionally, this methodology is applicable in variable selection and easily adaptable to other financial assets. 2023-01-01T00:00:00Z Avances en la Economía Circular del Ecuador. Una estrategia para la sostenibilidad basada en Métodos BIPLOT http://hdl.handle.net/10366/153274 [ES]Las técnicas estadísticas convencionales se han utilizado en el área de la biotecnología vegetal para mejorar diferentes propiedades comerciales, como el rendimiento y la tolerancia a estreses bióticos y abióticos; sin embargo, los métodos de reducción, como PCA Biplot y GGE Biplot, se centran en múltiples variables y las presentan en menos variables complejas (Niazian & Niedbała, 2020). La ciencia de datos utiliza una serie de técnicas para analizar múltiples variables mientras proporciona información más precisa mediante el análisis de la estructura de los datos. Las técnicas de ciencia de datos más importantes son el modelado de aprendizaje automático, el procesamiento del lenguaje natural, el análisis de sentimientos, las redes neuronales o el análisis de aprendizaje profundo que se utilizan en análisis de regresión, clasificación, análisis de agrupamiento, reglas de asociación, análisis de series temporales, análisis de sentimientos, patrones de comportamiento, detección de anomalías, análisis factorial, análisis de registros y aprendizaje profundo utilizando la estructura interna de los datos. Estos métodos numéricos pueden aplicarse a masas considerables de datos; permiten a los científicos de datos establecer relaciones entre los datos y detectar los más significativos (Sarker, 2021). Esta investigación se basa en el uso del PCA-Biplot y del GGE Biplot, métodos estadísticos utilizados para la identificación de características específicas biológicas y químicas de diferentes productos alimenticios o que se pueden utilizar en el campo agrícola. 2023-01-01T00:00:00Z Integración de minería de texto y técnicas multivariantes en el entorno digital, aplicado al análisis organizacional PESTEL http://hdl.handle.net/10366/153267 [ES]La presente tesis doctoral aborda, desde lo fundamental, el estudio y aplicabilidad del análisis estadístico de datos textuales (AEDT) a partir de la minería de datos de texto (MDT); atendiendo a las técnicas de investigación más activas a nivel mundial, así como a nuevas perspectivas en el área adelantadas en el Departamento de Estadística de la Universidad de Salamanca. Cada vez es más frecuente un notable aumento en publicaciones, a nivel mundial, que dan cabida al tratamiento de datos textuales en diferentes disciplinas. Al respecto, diversos estudios presentan a consideración de la comunidad científica, la aplicación de distintos enfoques metodológicos para la adquisición, estructuración y análisis de conocimiento a partir de información obtenida desde repositorios digitales en la web. Efectivamente, múltiples metodologías se han desarrollado entorno al AEDT. Se remontan desde las generadas por la escuela francesa, donde se postuló el análisis factorial de correspondencia (AFC) para estudiar las tesis de Chomsky sobre la lengua (Benzécri, 1964). Continuando con técnicas como las desarrolladas por la escuela anglosajona, como el análisis semántico latente (LSA) (Deerwester et al., 1990), el cual incorpora la semántica latente de los textos analizados. En la actualidad, con el incremento de aportes en relación con las técnicas en el campo del aprendizaje automático, la escuela americana ha desarrollado la técnica conocida como Asignación Latente de Dirichlet (LDA) (D. M. Blei et al., 2003). Se trata de un método de aprendizaje no supervisado utilizado para descubrir tópicos ocultos en grandes conjuntos de datos, usándose en el campo de la minería de datos textuales, análisis de sentimientos y recuperación de información. En correspondencia, la presente investigación asume como propósito fundamental el desarrollo de una estrategia metodológica basado en los métodos Biplot para dar un impulso analítico al modelo de Asignación Latente de Dirichlet, integrando la adquisición de información a partir del entorno digital Web, con aplicación al análisis organizacional PESTEL. De esta manera, nuestra investigación pretende contribuir con el desarrollo de una aplicación escrita en lenguaje R (Posit, 2023; R Development Core Team, 2000), denominada LDABiplots (Pilacuan-Bonete, Galindo-Villardón, Delgado-Álvarez, et al., 2022). Destacamos especialmente la utilización del HJ-BIPLOT, que permite generar representaciones Biplot de las matrices de probabilidad transformadas mediante el cálculo de una medida de centralidad del modelado de tópicos LDA, a partir del procesamiento de los datos no estructurados y extraídos desde la web de noticias de Google e integrando el análisis del entorno organizacional PESTEL al HJ-Biplot. Esto representa una ventaja significativa, porque se constituye en una representación conjunta de filas o sujetos objeto de estudio y columnas o variables de estudio. Por ende, proporciona una representación visual intuitiva de la estructura del modelo, permitiendo identificar patrones y tendencias ocultas y ayudando en la selección de términos o palabras, así como de documentos relevantes. 2023-01-01T00:00:00Z BIPLOT Logístico Ponderado Espacio Temporal (TSWLB): una aplicación a datos de mortalidad por cáncer de mama en el Ecuador http://hdl.handle.net/10366/153242 [ES]El objetivo del estudio es combinar las técnicas GWPCA y la prueba estadística no paramétrica Mann-Kendall que son ampliamente usadas para analizar la componente espacial y temporal. Se aplican de forma individual y no hay una representación simultánea. En este artículo se propone una técnica multivariante que la hemos denominado Biplot Logístico ponderado espacio temporal (TSWLB) combina las componentes espacial y temporal para representarlos en un gráfico facilitando la interpretación de las relaciones entre los sitios geográficos y las variables, siendo de interés su aplicación en distintas áreas. Nosotros aplicamos la técnica propuesta en datos de mortalidad por cáncer de mama en el Ecuador. Se utilizó el paquete GWModel, la librería Kendall ambos del lenguaje R y el programa MultiBiplot. Se observó un incremento sostenido de las tasas de mortalidad por cáncer de mama en el Ecuador con una mayor variabilidad de las muertes por esta enfermedad al norte y sur del país. La técnica TSWLB representó simultáneamente las características espacio temporales dando un ordenamiento a los sitios geográficos e identificando cuatro clústeres, siendo el clúster dos, conformada por las provincias: Guayas, El Oro, Santo Domingo de los Tsáchilas y Chimborazo, el más prioritario por presentar una tendencia creciente estadísticamente significativa de la tasa de mortalidad por cáncer de mama y con presencia de altas tasas en años recientes, información que permite orientar las intervenciones en salud por esta enfermedad. [EN]The objective of the study is to combine the GWPCA techniques and the Mann-Kendall non-parametric statistical test that are widely used to analyze the spatial and temporal component. They are applied individually and there is no simultaneous representation. This article proposes a multivariate technique that we have called Time-Space Weighted Logistic Biplot (TSWLB) combines the spatial and temporal components to represent them in a graph, facilitating the interpretation of the relationships between geographic sites and variables, its application being of interest. in different areas. We apply the proposed technique to breast cancer mortality data in Ecuador. The GWModel package, the Kendall library both from the R language and the MultiBiplot program were used. A sustained increase in mortality rates from breast cancer was observed in Ecuador with a greater variability of deaths from this disease in the north and south of the country. The TSWLB technique simultaneously represented the spatio-temporal characteristics, ordering the geographic sites and identifying four clusters, with cluster two, made up of the provinces: Guayas, El Oro, Santo Domingo de los Tsáchilas and Chimborazo, the highest priority for presenting a statistically significant increasing trend in the mortality rate from breast cancer and with the presence of high rates in recent years, information that allows guiding health interventions for this disease. 2023-01-01T00:00:00Z Generalización del biplot logístico para dos o más matrices de datos http://hdl.handle.net/10366/152722 [ES] El objetivo general del estudio es avanzar en el desarrollo y propuesta de métodos multivariantes y de minería de datos que permitan trabajar con matrices de datos categóricos en general y binarios en particular, especialmente cuando se dispone de dos o más matrices. Objetivo 1. Estudiar los algoritmos de reducción de la dimensión para una única matriz de datos categóricos desarrollando un marco general para la obtención de variables latentes relacionadas, mediante respuestas logísticas, con las variables observadas y proponer una posibles algoritmos para datos binarios. Objetivo 2. Desarrollar alternativas basadas en los Modelos Lineales Multivariantes, cuando la matriz de respuestas contiene agrupaciones de individuos y no se verifican las condiciones de aplicación de las técnicas clásicas. Este caso se puede considerar como la extensión a dos matrices cuando las respuestas son numéricas y los predictores binarios, por una parte, y cuando tenemos respuestas binarias usando distancias. Objetivo 3. Presentar técnicas de integración de dos matrices de datos con papeles no simétricos basadas en modelos de respuesta logística con reducción de la dimensión de la matriz de respuestas. Objetivo 4. Extender los modelos compuestos por dos matrices de datos con papeles no simétricos basados en modelos de Regresión Logística en las que se reduce la dimensión de ambas matrices de forma simultánea. Objetivo 5. Ampliar el estudio de la estructura común de varias (más de dos) matrices de datos cuando se ha medido el mismo conjunto variables binarias. 2022-01-01T00:00:00Z