Clasificación automática de información en portales web mediante técnicas de clustering

Alvarez García, Juan Carlos

doi:10.14201/gredos.76382

Título

Clasificación automática de información en portales web mediante técnicas de clustering

Autor(es)

Alvarez García, Juan Carlos

Director(es)

García de Figuerola Paniagua, Luis Carlos

Materia

Tesis y disertaciones académicas

Universidad de Salamanca (España)

Academic dissertations

Recuperación de la información

Information Retrieval

Análisis cluster

Cluster analysis

Búsqueda en Internet

Internet searching

Clasificación UNESCO

1203.17 Informática

Fecha de publicación

2010

Resumen

[EN]The expression, "Information Retrieval" (Information Retrieval), refers to automatic processing is carried out in order to respond to a need for information. It includes some aspects of the representation, storage and organization of information and on the other aspects of efficiency in the production of results as a result of consultations. These provide the user with valuable information that is relevant, not only data as far as possible classified and weighted as to their degree of usefulness. There are various classification algorithms have been used. They tend to operate according to a set of premises, which in many cases will be measured or measurable, which will result in different models of information retrieval. Classic models such as Boolean, the vector or probabilistic. Alternative to the classical models, such as finite sets, boolean extended, generalized vector space, that of latent semantic indexing, the neural network, the network of inferences or network of beliefs. We have aimed to give an overview of all of them and a classification. Moreover clustering techniques are techniques of data analysis in which observations are applied according to their similarity. Its fields of application are most diverse: business, microeconomics, GIS, bioinformatics, genomics, image segmentation, natural language processing and a long list that includes aspects we want to address as the classification of documents in Recovery Information. Some have sought to apply the rules of clustering for automated sorting large amounts of information that usually handle directories of many web sites, looking for shared libraries documents in groups, so that they can subsequently be applied to other practical problems such as the grouping of documents obtained from web searches, or viewing of directories. This has been necessary to analyze the various document clustering techniques to analyze their methods and determine which one best fits the classification of documents from web sites and model a process by identifying and characterizing the different phases that combines models of recovery technical information clustering approaches. This addresses a topic of great interest to the user of information technology and communication as the improvement in the location of content to the growing flood of data and its temporality. On the other hand seeks to provide new forms of web portals to present information to complement existing ones.

[ES]La expresión, “Recuperación de la Información” (Information Retrieval), hace referencia al tratamiento automatizado que se lleva a cabo para poder dar respuesta a una necesidad de información. Engloba por una parte aspectos relacionados con la representación, almacenamiento y organización de la información y por otra parte aspectos relacionados con la eficiencia en la presentación de resultados como consecuencia de consultas. Se trata de proporcionar al usuario información válida que le sea relevante, no solamente datos, en la medida de lo posible clasificada o ponderada en cuanto a su grado de utilidad. Son diversos los algoritmos de clasificación que se han utilizado. Suelen operar de acuerdo a un conjunto de premisas, que en muchos casos van a ser medibles o ponderables, que darán lugar a los distintos modelos de recuperación de la información. Modelos clásicos como el booleano, el vectorial o el probabilístico. Modelos alternativos a los clásicos, como el de conjuntos finitos, el booleano extendido, el espacio vector generalizado, el de indexación por la semántica latente, el de redes neuronales, el de red de inferencias o el de red de creencias. Se ha pretendido dar una visión de conjunto de todos ellos y una clasificación. Por otra parte las técnicas de clustering son técnicas de análisis de datos en las que se aplican las observaciones según su similitud. Sus campos de aplicación son de lo más variados: actividades empresariales, microeconomía, información geográfica, bioinformática, genómica, segmentación de imágenes, procesamiento del lenguaje natural y un largo etcétera que incluye aspectos que queremos abordar como es la clasificación de documentos en Recuperación de la Información. Se ha pretendido aplicar las reglas de clustering para clasificar de forma automatizada grandes cantidades de información que manejan habitualmente los directorios de muchos portales web, buscando repartir los documentos de colecciones en grupos, de forma que puedan ser aplicados posteriormente a otros problemas prácticos como puede ser la agrupación de documentos obtenidos en las búsquedas web, o la visualización de directorios. Para ello ha sido necesario analizar las distintas técnicas de clustering de documentos para analizar sus métodos y determinar cuál se adapta mejor a la clasificación de documentos provenientes de sitios web y modelar un proceso determinando y caracterizando sus distintas fases que permita combinar modelos de recuperación de la información con enfoques de técnicas de clustering. De esta forma se aborda un tema de gran interés para el usuario de las tecnologías de la información y la comunicación como es la mejora en la localización de contenidos ante la creciente avalancha de datos y su temporalidad. Por otra parte se busca brindar a los portales web nuevas formas de poder presentar la información que complementen a las ya existentes.

URI

http://hdl.handle.net/10366/76382

DOI

10.14201/gredos.76382

Colecciones

Mostrar el registro completo del ítem