Inteligencia artificial fiable para la detección de violencia en vídeo

Negre Rodríguez, Pablo

doi:10.14201/gredos.170077

Título

Inteligencia artificial fiable para la detección de violencia en vídeo

Otros títulos

Trustworthy artificial intelligence for video violence detection

Autor(es)

Negre Rodríguez, Pablo

Director(es)

Prieto Tejedor, Javier

Alonso Rincón, Ricardo Serafín

Palabras clave

Tesis y disertaciones académicas

Universidad de Salamanca (España)

Tesis Doctoral

Academic dissertations

Detección de violencia en vídeo

Visión artificial

Inteligencia artificial explicable

Redes neuronales convolucionales

Violence detection in video

Computer vision

Explainable artificial intelligence

Convolutional neutral networks

Clasificación UNESCO

1203.04 Inteligencia Artificial

3304.17 Sistemas en Tiempo Real

2209.90 Tratamiento Digital. Imágenes

Fecha de publicación

2025

Resumen

[ES] Las agresiones físicas son un problema grave y generalizado, como lo demuestra el hecho de que más de una cuarta parte (27%) de las mujeres de entre 15 y 49 años a nivel global declaran haber sido sometidas a algún tipo de violencia física y/o sexual por parte de su pareja íntima. La Inteligencia Artificial y específicamente las técnicas de Visión Artificial, ofrecen una solución eficaz para detectar la violencia en tiempo real, reduciendo la necesidad de supervisión humana constante. La Inteligencia Artificial, y en particular las técnicas de Visión Artificial, pueden contribuir a identificar episodios de violencia en tiempo real en lugares previamente delimitados, respetando los marcos éticos y legales establecidos. Sin embargo, el aumento del uso de la inteligencia artificial ha generado preocupación sobre la fiabilidad de los algoritmos, lo que ha llevado a la creación de informes destinados a establecer estándares y guías, con organizaciones como la Comisión Europea liderando estos esfuerzos. En este respecto, existen múltiples propuestas de algoritmos para la detección de violencia, donde la combinación de arquitecturas más comúnmente empleada es la de Redes Neuronales Convolucionales (CNN) y Redes de Memoria a Corto y Largo Plazo (LSTM), la cual obtiene excelentes resultados, si bien todavía persisten desafíos; sin embargo, hasta donde se conoce, ningún trabajo en el estado del arte ha abordado la detección de violencia mediante el uso de inteligencia artificial explicable, lo que limita la comprensión y confianza en los resultados obtenidos. Por ello, el objetivo principal de esta Tesis Doctoral es investigar, diseñar, desarrollar y validar algoritmos basados en técnicas de inteligencia artificial fiable orientadas en la detección de violencia en vídeo, con foco en arquitecturas basadas en la combinación de CNN junto con capas LSTM. En base a ello, en este trabajo se ha llevado a cabo un análisis y categorización de todos los procesos que involucran la detección de violencia en vídeo. Posteriormente se han investigado, diseñado, desarrollado y validado tres arquitecturas que utilizan la arquitectura VGG-19 preentrenada, una red neuronal convolucional conocida por su capacidad para extraer características visuales, combinadas con: características manuales, capas LSTM y capas Bi-LSTM. Por último, a partir de estas arquitecturas se han implementado técnicas de inteligencia artificial explicable como GradCAM y se ha creado un algoritmo que cuantifica el nivel de importancia para la detección de violencia por parte de las capas LSTM y Bi-LSTM. Los resultados obtenidos demuestran que el uso de capas Bi-LSTM supera al rendimiento obtenido por capas LSTM, si bien esta mejora no supera el 4% de exactitud. No se han encontrado valores o combinaciones de hiperparámetros para las arquitecturas que utilizan capas LSTM y Bi-LSTM que mejoren de una forma estadísticamente significativa la accuracy obtenida. Las arquitecturas desarrolladas han obtenido buenos reusltados como, por ejemplo, la combinación de VGG-19 preentrenada con capas Bi-LSTM, que obtiene un 97% de exactitud utilizando el dataset Hockey Fights. Por último, se ha conseguido hacer más explicable el proceso de detección con las técnicas implementadas.

[EN] Physical aggressions constitute a serious and widespread issue in society. Studies indicate that in 2015, at least half of the children in Asia, Africa, and North America experienced violence. Although solutions have been explored for medium and long-term interventions, real-time violence detection through artificial intelligence offers a direct and efficient solution that can save lives and reduce the need for constant human supervision. On the other hand, the increasing use of artificial intelligence has raised concerns about the development of reliable algorithms, leading to the creation of reports to define and standardize these terms. Major organizations such as the European Comission are leading this effort. There are multiple algorithm proposals for violence detection, with the most commonly employed combination being Convolutional Neural Networks (CNN) and Long Short-Term Memory (LSTM) networks, which yield excellent results. However, there are still issues to address, such as the actual impact of using LSTM layers instead of just CNN, how much violence detection improves with CNN combined with Bi-LSTM layers instead of LSTM layers, or if certain values and combinations of hyperparameters yield better results. Lastly, the use of reliable artificial intelligence remains very limited. Based on this, this work has developed a systematic literature review with the analysis and categorization of: 21 challenges associated with violence detection, 28 public datasets on violence v´ıdeos, and 13 evaluation metric methods; among others. Three architectures have been developed using pre-trained VGG-19 combined with: manual features, LSTM layers, and Bi-LSTM layers. It is evident that the use of Bi-LSTM layers outperforms the performance obtained by LSTM layers, although this improvement does not exceed 3% accuracy. No values or combinations of hyperparameters that significantly improve the obtained accuracy have been found statistically. The developed architectures have achieved good results, such as the combination of pre-trained VGG-19 with Bi-LSTM layers, which achieves 97% accuracy using the Hockey Fights dataset and 90% using the Violent Flow dataset. Lastly, the use of explainable artificial intelligence techniques on the proposed architectures, where YoloV8 and Frame Difference are used for the extraction of characteristic frames, GradCAM to highlight the areas VGG-19 focuses on for each convolutional layer, and a proprietary algorithm quantifies the level of importance for violence detection by LSTM and Bi-LSTM layers in violence detection.

URI

https://hdl.handle.net/10366/170077

DOI

10.14201/gredos.170077

Aparece en las colecciones