Inteligencia artificial fiable para la detección de violencia en vídeo

Negre Rodríguez, Pablo

doi:10.14201/gredos.170077

Título

Inteligencia artificial fiable para la detección de violencia en vídeo

dc.contributor.advisor	Prieto Tejedor, Javier	es_ES
dc.contributor.advisor	Alonso Rincón, Ricardo Serafín	es_ES
dc.contributor.author	Negre Rodríguez, Pablo
dc.date.accessioned	2026-02-25T11:54:01Z
dc.date.available	2026-02-25T11:54:01Z
dc.date.issued	2025
dc.identifier.uri	http://hdl.handle.net/10366/170077
dc.description.abstract	[ES] Las agresiones físicas son un problema grave y generalizado, como lo demuestra el hecho de que más de una cuarta parte (27%) de las mujeres de entre 15 y 49 años a nivel global declaran haber sido sometidas a algún tipo de violencia física y/o sexual por parte de su pareja íntima. La Inteligencia Artificial y específicamente las técnicas de Visión Artificial, ofrecen una solución eficaz para detectar la violencia en tiempo real, reduciendo la necesidad de supervisión humana constante. La Inteligencia Artificial, y en particular las técnicas de Visión Artificial, pueden contribuir a identificar episodios de violencia en tiempo real en lugares previamente delimitados, respetando los marcos éticos y legales establecidos. Sin embargo, el aumento del uso de la inteligencia artificial ha generado preocupación sobre la fiabilidad de los algoritmos, lo que ha llevado a la creación de informes destinados a establecer estándares y guías, con organizaciones como la Comisión Europea liderando estos esfuerzos. En este respecto, existen múltiples propuestas de algoritmos para la detección de violencia, donde la combinación de arquitecturas más comúnmente empleada es la de Redes Neuronales Convolucionales (CNN) y Redes de Memoria a Corto y Largo Plazo (LSTM), la cual obtiene excelentes resultados, si bien todavía persisten desafíos; sin embargo, hasta donde se conoce, ningún trabajo en el estado del arte ha abordado la detección de violencia mediante el uso de inteligencia artificial explicable, lo que limita la comprensión y confianza en los resultados obtenidos. Por ello, el objetivo principal de esta Tesis Doctoral es investigar, diseñar, desarrollar y validar algoritmos basados en técnicas de inteligencia artificial fiable orientadas en la detección de violencia en vídeo, con foco en arquitecturas basadas en la combinación de CNN junto con capas LSTM. En base a ello, en este trabajo se ha llevado a cabo un análisis y categorización de todos los procesos que involucran la detección de violencia en vídeo. Posteriormente se han investigado, diseñado, desarrollado y validado tres arquitecturas que utilizan la arquitectura VGG-19 preentrenada, una red neuronal convolucional conocida por su capacidad para extraer características visuales, combinadas con: características manuales, capas LSTM y capas Bi-LSTM. Por último, a partir de estas arquitecturas se han implementado técnicas de inteligencia artificial explicable como GradCAM y se ha creado un algoritmo que cuantifica el nivel de importancia para la detección de violencia por parte de las capas LSTM y Bi-LSTM. Los resultados obtenidos demuestran que el uso de capas Bi-LSTM supera al rendimiento obtenido por capas LSTM, si bien esta mejora no supera el 4% de exactitud. No se han encontrado valores o combinaciones de hiperparámetros para las arquitecturas que utilizan capas LSTM y Bi-LSTM que mejoren de una forma estadísticamente significativa la accuracy obtenida. Las arquitecturas desarrolladas han obtenido buenos reusltados como, por ejemplo, la combinación de VGG-19 preentrenada con capas Bi-LSTM, que obtiene un 97% de exactitud utilizando el dataset Hockey Fights. Por último, se ha conseguido hacer más explicable el proceso de detección con las técnicas implementadas.	es_ES
dc.description.abstract	[EN] Physical aggressions constitute a serious and widespread issue in society. Studies indicate that in 2015, at least half of the children in Asia, Africa, and North America experienced violence. Although solutions have been explored for medium and long-term interventions, real-time violence detection through artificial intelligence offers a direct and efficient solution that can save lives and reduce the need for constant human supervision. On the other hand, the increasing use of artificial intelligence has raised concerns about the development of reliable algorithms, leading to the creation of reports to define and standardize these terms. Major organizations such as the European Comission are leading this effort. There are multiple algorithm proposals for violence detection, with the most commonly employed combination being Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) networks, which yield excellent results. However, there are still issues to address, such as the actual impact of using LSTM layers instead of just CNN, how much violence detection improves with CNN combined with Bi-LSTM layers instead of LSTM layers, or if certain values and combinations of hyperparameters yield better results. Lastly, the use of reliable artificial intelligence remains very limited. Based on this, this work has developed a systematic literature review with the analysis and categorization of: 21 challenges associated with violence detection, 28 public datasets on violence v´ıdeos, and 13 evaluation metric methods; among others. Three architectures have been developed using pre-trained VGG-19 combined with: manual features, LSTM layers, and Bi-LSTM layers. It is evident that the use of Bi-LSTM layers outperforms the performance obtained by LSTM layers, although this improvement does not exceed 3% accuracy. No values or combinations of hyperparameters that significantly improve the obtained accuracy have been found statistically. The developed architectures have achieved good results, such as the combination of pre-trained VGG-19 with Bi-LSTM layers, which achieves 97% accuracy using the Hockey Fights dataset and 90% using the Violent Flow dataset. Lastly, the use of explainable artificial intelligence techniques on the proposed architectures, where YoloV8 and Frame Difference are used for the extraction of characteristic frames, GradCAM to highlight the areas VGG-19 focuses on for each convolutional layer, and a proprietary algorithm quantifies the level of importance for violence detection by LSTM and Bi-LSTM layers in violence detection.
dc.language.iso	spa	es_ES
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Tesis y disertaciones académicas	es_ES
dc.subject	Universidad de Salamanca (España)	es_ES
dc.subject	Tesis Doctoral	es_ES
dc.subject	Academic dissertations	es_ES
dc.subject	Detección de violencia en vídeo	es_ES
dc.subject	Visión artificial	es_ES
dc.subject	Inteligencia artificial explicable	es_ES
dc.subject	Redes neuronales convolucionales	es_ES
dc.subject	Violence detection in video	es_ES
dc.subject	Computer vision	es_ES
dc.subject	Explainable artificial intelligence	es_ES
dc.subject	Convolutional neutral networks	es_ES
dc.title	Inteligencia artificial fiable para la detección de violencia en vídeo	es_ES
dc.title.alternative	Trustworthy artificial intelligence for video violence detection	es_ES
dc.type	info:eu-repo/semantics/doctoralThesis	es_ES
dc.subject.unesco	1203.04 Inteligencia Artificial	es_ES
dc.subject.unesco	3304.17 Sistemas en Tiempo Real	es_ES
dc.subject.unesco	2209.90 Tratamiento Digital. Imágenes	es_ES
dc.identifier.doi	10.14201/gredos.170077
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES