Compartir
Título
Inteligencia artificial fiable para la detección de violencia en vídeo
Otros títulos
Trustworthy artificial intelligence for video violence detection
Autor(es)
Director(es)
Palabras clave
Tesis y disertaciones académicas
Universidad de Salamanca (España)
Tesis Doctoral
Academic dissertations
Detección de violencia en vídeo
Visión artificial
Inteligencia artificial explicable
Redes neuronales convolucionales
Violence detection in video
Computer vision
Explainable artificial intelligence
Convolutional neutral networks
Clasificación UNESCO
1203.04 Inteligencia Artificial
3304.17 Sistemas en Tiempo Real
2209.90 Tratamiento Digital. Imágenes
Fecha de publicación
2025
Resumen
[ES] Las agresiones físicas son un problema grave y generalizado, como lo demuestra el hecho de
que más de una cuarta parte (27%) de las mujeres de entre 15 y 49 años a nivel global
declaran haber sido sometidas a algún tipo de violencia física y/o sexual por parte de su pareja
íntima. La Inteligencia Artificial y específicamente las técnicas de Visión Artificial, ofrecen una
solución eficaz para detectar la violencia en tiempo real, reduciendo la necesidad de supervisión
humana constante. La Inteligencia Artificial, y en particular las técnicas de Visión Artificial,
pueden contribuir a identificar episodios de violencia en tiempo real en lugares previamente
delimitados, respetando los marcos éticos y legales establecidos. Sin embargo, el aumento del
uso de la inteligencia artificial ha generado preocupación sobre la fiabilidad de los algoritmos,
lo que ha llevado a la creación de informes destinados a establecer estándares y guías, con
organizaciones como la Comisión Europea liderando estos esfuerzos. En este respecto, existen
múltiples propuestas de algoritmos para la detección de violencia, donde la combinación de
arquitecturas más comúnmente empleada es la de Redes Neuronales Convolucionales (CNN)
y Redes de Memoria a Corto y Largo Plazo (LSTM), la cual obtiene excelentes resultados,
si bien todavía persisten desafíos; sin embargo, hasta donde se conoce, ningún trabajo en el
estado del arte ha abordado la detección de violencia mediante el uso de inteligencia artificial
explicable, lo que limita la comprensión y confianza en los resultados obtenidos. Por ello, el
objetivo principal de esta Tesis Doctoral es investigar, diseñar, desarrollar y validar algoritmos
basados en técnicas de inteligencia artificial fiable orientadas en la detección de violencia en
vídeo, con foco en arquitecturas basadas en la combinación de CNN junto con capas LSTM. En
base a ello, en este trabajo se ha llevado a cabo un análisis y categorización de todos los procesos
que involucran la detección de violencia en vídeo. Posteriormente se han investigado, diseñado,
desarrollado y validado tres arquitecturas que utilizan la arquitectura VGG-19 preentrenada,
una red neuronal convolucional conocida por su capacidad para extraer características visuales,
combinadas con: características manuales, capas LSTM y capas Bi-LSTM. Por último, a partir
de estas arquitecturas se han implementado técnicas de inteligencia artificial explicable como
GradCAM y se ha creado un algoritmo que cuantifica el nivel de importancia para la detección
de violencia por parte de las capas LSTM y Bi-LSTM. Los resultados obtenidos demuestran
que el uso de capas Bi-LSTM supera al rendimiento obtenido por capas LSTM, si bien esta
mejora no supera el 4% de exactitud. No se han encontrado valores o combinaciones de
hiperparámetros para las arquitecturas que utilizan capas LSTM y Bi-LSTM que mejoren de
una forma estadísticamente significativa la accuracy obtenida. Las arquitecturas desarrolladas
han obtenido buenos reusltados como, por ejemplo, la combinación de VGG-19 preentrenada con
capas Bi-LSTM, que obtiene un 97% de exactitud utilizando el dataset Hockey Fights. Por último,
se ha conseguido hacer más explicable el proceso de detección con las técnicas implementadas. [EN] Physical aggressions constitute a serious and widespread issue in society. Studies
indicate that in 2015, at least half of the children in Asia, Africa, and North America
experienced violence. Although solutions have been explored for medium and long-term
interventions, real-time violence detection through artificial intelligence offers a direct
and efficient solution that can save lives and reduce the need for constant human
supervision. On the other hand, the increasing use of artificial intelligence has raised
concerns about the development of reliable algorithms, leading to the creation of reports
to define and standardize these terms. Major organizations such as the European
Comission are leading this effort. There are multiple algorithm proposals for violence
detection, with the most commonly employed combination being Convolutional Neural
Networks (CNN) and Long Short-Term Memory (LSTM) networks, which yield excellent
results. However, there are still issues to address, such as the actual impact of
using LSTM layers instead of just CNN, how much violence detection improves with
CNN combined with Bi-LSTM layers instead of LSTM layers, or if certain values
and combinations of hyperparameters yield better results. Lastly, the use of reliable
artificial intelligence remains very limited. Based on this, this work has developed
a systematic literature review with the analysis and categorization of: 21 challenges
associated with violence detection, 28 public datasets on violence v´ıdeos, and 13
evaluation metric methods; among others. Three architectures have been developed
using pre-trained VGG-19 combined with: manual features, LSTM layers, and Bi-LSTM
layers. It is evident that the use of Bi-LSTM layers outperforms the performance
obtained by LSTM layers, although this improvement does not exceed 3% accuracy.
No values or combinations of hyperparameters that significantly improve the obtained
accuracy have been found statistically. The developed architectures have achieved good
results, such as the combination of pre-trained VGG-19 with Bi-LSTM layers, which
achieves 97% accuracy using the Hockey Fights dataset and 90% using the Violent
Flow dataset. Lastly, the use of explainable artificial intelligence techniques on the
proposed architectures, where YoloV8 and Frame Difference are used for the extraction
of characteristic frames, GradCAM to highlight the areas VGG-19 focuses on for each
convolutional layer, and a proprietary algorithm quantifies the level of importance for
violence detection by LSTM and Bi-LSTM layers in violence detection.
URI
DOI
10.14201/gredos.170077
Aparece en las colecciones













