Aplicación para el estudio de japonés

García Encinas, Francisco

Título

dc.contributor.advisor	Paz Santana, Juan Francisco de	es_ES
dc.contributor.advisor	López Batista, Vivian Félix	es_ES
dc.contributor.author	García Encinas, Francisco
dc.date.accessioned	2025-05-06T11:23:44Z
dc.date.available	2025-05-06T11:23:44Z
dc.date.issued	2024-02
dc.identifier.uri	http://hdl.handle.net/10366/164933
dc.description	Trabajo de Fin de Máster. Máster en Ingeniería Informática. Curso académico 2023-2024.	es_ES
dc.description.abstract	[ES]El japonés tiene muchas diferencias con respecto a los lenguajes occidentales. Entre ellas, una de las más notables es el uso de caracteres logográficos, esto es, caracteres que por sí mismos tienen un significado, los kanjis. Existen aproximadamente 3.000 kanji de uso común, pero la cifra puede aumentar hasta unos 13.000 si se consideran estándares técnicos o, incluso, 50.000 si se consideran kanjis infrecuentes. Como se puede suponer, para un nativo de una lengua occidental, que no está acostumbrado al uso de esta clase de caracteres, estudiar japonés no es una tarea sencilla. De hecho, el Foreign Service Institute de Estados Unidos lo clasifica como uno de los lenguajes más difíciles. Este trabajo pretende analizar las aplicaciones existentes en el campo del aprendizaje de la lengua japonesa, centrándose en el estudio de kanjis, y mejorar sobre ellas. Para ello, se desarrollará una aplicación web que potencie la experiencia de aprendizaje por medio de técnicas de inteligencia artificial, específicamente, embeddings para encontrar kanjis similares. Gracias a esto se ayudará a los usuarios a detectar más fácilmente las diferencias. También, se hará uso de algoritmos de repetición espaciada con el objetivo de alcanzar una frecuencia de estudio óptima. Para implementar esta aplicación se hace uso de bastantes herramientas diferentes, desde TypeScript con NestJS para el servidor hasta Python con PyTorch para los modelos pasando por TypeScript con React para el cliente. Además, se utiliza una base de datos PostgreSQL con el plugin pgVector para almacenar los vectores de embedding y realizar consultas sobre ellos. También se utiliza Kuromoji y parsers implementados con Parsimmon para diversas tareas de procesamiento del lenguaje natural.	es_ES
dc.description.abstract	[EN]Japanese is very different from occidental languages. Among them, one of the most notable differences is the usage of logographic characters, that is, characters that have a meaning on their own, the kanjis. There are around 3.000 frequently used kanji, but this count can increase to up to 13.000 if we consider technical standards, or even 50.000 if more infrequent characters are considered. Obviously, studying Japanese is not a simple task for a native speaker of an occidental language since they are not accustomed to these kinds of characters. Indeed, the Foreign Service Institute of the United States of America classifies Japanese as one of the hardest languages. This work analyzes already existing Japanese studying applications, especially those centered around kanjis, and improves over them. To do this, we propose a web application that empowers the learning process with the use of artificial intelligence algorithms, specifically, embeddings to find similar kanjis. Thanks to these users can learn differences between similar kanjis in a simple way. Also, the spaced repetition algorithm is used to reach an optimal review frequency. Many different tools have been used to develop this application, from TypeScript with NestJS for the server to Python with Pytorch for the machine learning models passing by TypeScript with React for the from. Furthermore, a PostgreSQL database with the pgVector plugin is used to store embedding vectors and query them. Also, Kuromoji and some custom parsers developed using Parsimmon are used for natural language processing.
dc.language.iso	spa	es_ES
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Japonés	es_ES
dc.subject	Estudio	es_ES
dc.subject	Aplicación	es_ES
dc.subject	Web	es_ES
dc.subject	Japanese	es_ES
dc.subject	Study	es_ES
dc.subject	App	es_ES
dc.title	Aplicación para el estudio de japonés	es_ES
dc.type	info:eu-repo/semantics/masterThesis	es_ES
dc.subject.unesco	1203.23 Lenguajes de Programación	es_ES
dc.subject.unesco	1203.04 Inteligencia Artificial	es_ES
dc.subject.unesco	1209.03 Análisis de Datos	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES