Compartir
Título
Organización Automática de Documentos. Técnicas K-Means
Autor(es)
Director(es)
Materia
Clasificación automática
Prensa digital
España
Noticias
Ciencia
K-Means
Scikit-learn
Automatic clustering
Digital press
Spain
Fecha de publicación
2017-07-20
Citación
Pradales Gallego, S. (2017, julio 20). Organización Automática de Documentos. Técnicas K-Means. Trabajo de Fin de Máster en Sistemas de Información Digital, 2016-2017. Recuperado a partir de https://gredos.usal.es/jspui/handle/10366/138123
Resumen
[ES] En los últimos años hemos experimentado el crecimiento progresivo de los documentos, sobre todo con la aparición de internet, la globalización y las nuevas tecnologías de la información y comunicación, que han dado lugar a una gran cantidad de documentos en formato digital. Toda esta información era necesario organizarla, y para ello existen diversos sistemas de filtrado de documentos automáticos, siendo uno de los más utilizados el clustering, que a través en este caso del algoritmo de K-Means y el software de Scikit-learn, permite la recuperación y clasificación de documentos afines. Con esta idea se pretendió comprobar la evolución de un conjunto de noticias de ciencia y tecnología extraídas de la prensa digital española, y la utilidad de este sistema de clasificación. Los resultados reflejan que es un buen sistema aunque tiene algunas carencias que dependen sobre todo de factores humanos.
[EN] In recent years we have experienced the progressive growth of documents, especially with the emergence of the internet, globalization and new information and communication technologies, which have resulted in a large number of documents in digital format. All this information was necessary to organize it, and for this purpose there are several automatic document filtering systems, one of the most used being clustering, which in this case, the K-Means algorithm and the Scikit-learn software, Retrieval and classification of related documents. With this idea it was tried to verify the evolution of a set of science and technology news extracted from the Spanish digital press, and the usefulness of this classification system. The results reflect that it is a good system although it has some deficiencies that depend mainly on human factors.
Descripción
Trabajo de Fin de Máster en Sistemas de Información Digital, 2016-2017.
URI
Colecciones
Ficheros en el ítem
Tamaño:
1.520Mb
Formato:
Adobe PDF
Descripción:
TFM