Sistema de auditoría para rastrear, descubrir y reducir el sesgo de género en sistemas de Procesamiento del Lenguaje Natural

Adrados González, Samuel

Título

Sistema de auditoría para rastrear, descubrir y reducir el sesgo de género en sistemas de Procesamiento del Lenguaje Natural

Autor(es)

Adrados González, Samuel

Director(es)

López Batista, Vivian Félix

Villarrubia González, Gabriel

Palabras clave

Procesamiento del Lenguaje Natural

Sesgo

Eliminación del sesgo

Género

PLN

Natural Language Processing

NLP

Bias

Debias

Gender

Clasificación UNESCO

1201.10 Álgebra Lineal

1203.04 Inteligencia Artificial

Fecha de publicación

2023-07

Resumen

[ES]En un mundo cada vez más dependiente del uso de la Inteligencia Artificial y de los sistemas de aprendizaje automático, es crucial asegurarse de que estos sistemas no contengan sesgos. A medida que se va confiando cada vez más en su uso, la influencia en la sociedad aumenta, por lo que se debe asegurar, de forma imprescindible, que sean justos. No se puede permitir que estén diseñados para perpetuar injusticias, sino que deben ser entrenados para ser imparciales y equilibrados en la toma de decisiones. En este trabajo se va a desarrollar una revisión de la literatura científica más relevante del sesgo en el Procesamiento del Lenguaje Natural, más en concreto, el sesgo en los word embeddings, poniéndose el foco sobre el sesgo en el aprendizaje automático para poder tratarlo desde un punto de vista más amplio. También se ha desarrollado un sistema de auditoría de los sesgos, en el que se pueden crear y gestionar word embeddings así como identificar, medir y mitigar los sesgos presentes, mediante la aplicación de los métodos más relevantes, además de la visualización de los resultados mediante gráficas y tablas. Para comprender los métodos utilizados se realizan casos de estudios sencillos, utilizando el sistema desarrollado, permitiendo explorar como funcionan y mostrando los efectos que tienen en las propiedades geométricas de las incrustaciones de palabras.

[EN]In a world increasingly dependent on machine learning systems, it’s crucial to ensure that these systems do not contain biases. As more trust is placed in these systems, their influence into the society increases, so their fairness must be absolutely ensured. It cannot be allowed they are designed to perpetuate unfairness but must be trained to be impartial and fair in decision-making. In this project, a review of literature will be explained in detail with the most relevant publications on bias in Natural Language Processing, more specifically on bias in word embeddings, focusing on bias in machine learning to approach bias from a broader point of view. Furthermore, an auditing system in word embeddings has been developed, in which word embeddings can be created and managed. In this system, the bias in word embeddings can be identified, measured, and mitigated by applying the most relevant methods, as well as plotting the result using scatterplots and tables. To understand the used methods, simple use cases are carried out, using the auditing system, allowing to explore how they work and what effects they have on the geometric properties of the word embeddings.

Descripción

Trabajo Fin de Máster. Máster Universitario en sistemas inteligentes. Curso académico 2022-2023.

URI

https://hdl.handle.net/10366/158418

Aparece en las colecciones