Afficher la notice abrégée

dc.contributor.advisorPrieto Tejedor, Javier es_ES
dc.contributor.advisorAlonso Rincón, Ricardo Serafín es_ES
dc.contributor.authorNegre Rodríguez, Pablo
dc.date.accessioned2026-02-25T11:54:01Z
dc.date.available2026-02-25T11:54:01Z
dc.date.issued2025
dc.identifier.urihttp://hdl.handle.net/10366/170077
dc.description.abstract[ES] Las agresiones físicas son un problema grave y generalizado, como lo demuestra el hecho de que más de una cuarta parte (27%) de las mujeres de entre 15 y 49 años a nivel global declaran haber sido sometidas a algún tipo de violencia física y/o sexual por parte de su pareja íntima. La Inteligencia Artificial y específicamente las técnicas de Visión Artificial, ofrecen una solución eficaz para detectar la violencia en tiempo real, reduciendo la necesidad de supervisión humana constante. La Inteligencia Artificial, y en particular las técnicas de Visión Artificial, pueden contribuir a identificar episodios de violencia en tiempo real en lugares previamente delimitados, respetando los marcos éticos y legales establecidos. Sin embargo, el aumento del uso de la inteligencia artificial ha generado preocupación sobre la fiabilidad de los algoritmos, lo que ha llevado a la creación de informes destinados a establecer estándares y guías, con organizaciones como la Comisión Europea liderando estos esfuerzos. En este respecto, existen múltiples propuestas de algoritmos para la detección de violencia, donde la combinación de arquitecturas más comúnmente empleada es la de Redes Neuronales Convolucionales (CNN) y Redes de Memoria a Corto y Largo Plazo (LSTM), la cual obtiene excelentes resultados, si bien todavía persisten desafíos; sin embargo, hasta donde se conoce, ningún trabajo en el estado del arte ha abordado la detección de violencia mediante el uso de inteligencia artificial explicable, lo que limita la comprensión y confianza en los resultados obtenidos. Por ello, el objetivo principal de esta Tesis Doctoral es investigar, diseñar, desarrollar y validar algoritmos basados en técnicas de inteligencia artificial fiable orientadas en la detección de violencia en vídeo, con foco en arquitecturas basadas en la combinación de CNN junto con capas LSTM. En base a ello, en este trabajo se ha llevado a cabo un análisis y categorización de todos los procesos que involucran la detección de violencia en vídeo. Posteriormente se han investigado, diseñado, desarrollado y validado tres arquitecturas que utilizan la arquitectura VGG-19 preentrenada, una red neuronal convolucional conocida por su capacidad para extraer características visuales, combinadas con: características manuales, capas LSTM y capas Bi-LSTM. Por último, a partir de estas arquitecturas se han implementado técnicas de inteligencia artificial explicable como GradCAM y se ha creado un algoritmo que cuantifica el nivel de importancia para la detección de violencia por parte de las capas LSTM y Bi-LSTM. Los resultados obtenidos demuestran que el uso de capas Bi-LSTM supera al rendimiento obtenido por capas LSTM, si bien esta mejora no supera el 4% de exactitud. No se han encontrado valores o combinaciones de hiperparámetros para las arquitecturas que utilizan capas LSTM y Bi-LSTM que mejoren de una forma estadísticamente significativa la accuracy obtenida. Las arquitecturas desarrolladas han obtenido buenos reusltados como, por ejemplo, la combinación de VGG-19 preentrenada con capas Bi-LSTM, que obtiene un 97% de exactitud utilizando el dataset Hockey Fights. Por último, se ha conseguido hacer más explicable el proceso de detección con las técnicas implementadas.es_ES
dc.description.abstract[EN] Physical aggressions constitute a serious and widespread issue in society. Studies indicate that in 2015, at least half of the children in Asia, Africa, and North America experienced violence. Although solutions have been explored for medium and long-term interventions, real-time violence detection through artificial intelligence offers a direct and efficient solution that can save lives and reduce the need for constant human supervision. On the other hand, the increasing use of artificial intelligence has raised concerns about the development of reliable algorithms, leading to the creation of reports to define and standardize these terms. Major organizations such as the European Comission are leading this effort. There are multiple algorithm proposals for violence detection, with the most commonly employed combination being Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) networks, which yield excellent results. However, there are still issues to address, such as the actual impact of using LSTM layers instead of just CNN, how much violence detection improves with CNN combined with Bi-LSTM layers instead of LSTM layers, or if certain values and combinations of hyperparameters yield better results. Lastly, the use of reliable artificial intelligence remains very limited. Based on this, this work has developed a systematic literature review with the analysis and categorization of: 21 challenges associated with violence detection, 28 public datasets on violence v´ıdeos, and 13 evaluation metric methods; among others. Three architectures have been developed using pre-trained VGG-19 combined with: manual features, LSTM layers, and Bi-LSTM layers. It is evident that the use of Bi-LSTM layers outperforms the performance obtained by LSTM layers, although this improvement does not exceed 3% accuracy. No values or combinations of hyperparameters that significantly improve the obtained accuracy have been found statistically. The developed architectures have achieved good results, such as the combination of pre-trained VGG-19 with Bi-LSTM layers, which achieves 97% accuracy using the Hockey Fights dataset and 90% using the Violent Flow dataset. Lastly, the use of explainable artificial intelligence techniques on the proposed architectures, where YoloV8 and Frame Difference are used for the extraction of characteristic frames, GradCAM to highlight the areas VGG-19 focuses on for each convolutional layer, and a proprietary algorithm quantifies the level of importance for violence detection by LSTM and Bi-LSTM layers in violence detection.
dc.language.isospaes_ES
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internacional*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectTesis y disertaciones académicases_ES
dc.subjectUniversidad de Salamanca (España)es_ES
dc.subjectTesis Doctorales_ES
dc.subjectAcademic dissertationses_ES
dc.subjectDetección de violencia en vídeoes_ES
dc.subjectVisión artificiales_ES
dc.subjectInteligencia artificial explicablees_ES
dc.subjectRedes neuronales convolucionaleses_ES
dc.subjectViolence detection in videoes_ES
dc.subjectComputer visiones_ES
dc.subjectExplainable artificial intelligencees_ES
dc.subjectConvolutional neutral networkses_ES
dc.titleInteligencia artificial fiable para la detección de violencia en vídeoes_ES
dc.title.alternativeTrustworthy artificial intelligence for video violence detectiones_ES
dc.typeinfo:eu-repo/semantics/doctoralThesises_ES
dc.subject.unesco1203.04 Inteligencia Artificiales_ES
dc.subject.unesco3304.17 Sistemas en Tiempo Reales_ES
dc.subject.unesco2209.90 Tratamiento Digital. Imágeneses_ES
dc.identifier.doi10.14201/gredos.170077
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES


Fichier(s) constituant ce document

Thumbnail

Ce document figure dans la(les) collection(s) suivante(s)

Afficher la notice abrégée

Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Excepté là où spécifié autrement, la license de ce document est décrite en tant que Attribution-NonCommercial-NoDerivatives 4.0 Internacional