REINA. Artículos

REINA. Artículos http://hdl.handle.net/10366/4559 2026-07-21T20:16:35Z Stemming and n-grams in Spanish: an evaluation of their impact on information retrieval http://hdl.handle.net/10366/56126 At some stage, most of the models and techniques implemented in IR use frequency counts of the terms appearing in documents and in queries. However, many words, since they are derived from the same stem, have very close semantic contents. This makes a grouping of such variants under a single term advisable. Otherwise, dispersal occurs in the calculation of frequency of these terms, and it also becomes difficult to compare queries and documents. On the other hand, there are notable differences between different languages in the way of forming derivatives and inflected forms, so that the application of specific techniques can produce unequal results according to the language of the documents and queries. A description is given of the tests carried out for documents in Spanish, which involved some stemming techniques widely used in English, as well as the application of n-grams, and the results are compared. 2000-01-01T00:00:00Z La investigación sobre recuperación de la información en español http://hdl.handle.net/10366/56131 La Recuperación de la Información es un área de investigación fuertementerelacionado con las Ciencias de la Documentación y con la Informática. Losprincipales modelos propuestos dependen en mayor o menor medida delidioma, tanto de los documentos como de las consultas que se formulan. Pesea ser el español una de las lenguas más habladas, el trabajo de investigación yexperimentación en Recuperación de la Información sobre coleccionesdocumentales en español es poco abundante. Se pasa revista a los principales trabajos publicados en esta línea, se comentan los principales problemas encontrados, así como los resultados obtenidos. 2000-01-01T00:00:00Z Diseño de un motor de recuperación de lainformación para uso experimental y educativo http://hdl.handle.net/10366/56125 Se describe el diseño y funcionamiento de un motor de recuperación de información, basado en el modelo vectorial y cuya finalidad es servir de base de experimentación en tareas de investigación, así como de recurso para la docencia. No obstante, el motor resultacompletamente operacional, y puede ser utilizado en entornos documentales. Construido sobre una base de datos relacional, facilita la observación y manipulación de estructuras yresultados intermedios; realiza las operaciones fundamentales a partir de sentencias SQL, lo cual permite una fácil modificación de su funcionamiento interno y, en consecuencia, laexperimentación. 2000-01-01T00:00:00Z Soportes de almacenamiento de información. Problemas para su recuperación http://hdl.handle.net/10366/56130 Se analizan los sistemas de almacenamiento de información en cuanto a su soporte y a lacapacidad para recuperar la información almacenada con los dispositivos actuales.Asimismo se plantea el problema de la normalización en los soportes y en elalmacenamiento de datos como solución para la pérdida de información 2000-01-01T00:00:00Z Automatic vs. Manual categorisation of documents in Spanish http://hdl.handle.net/10366/56136 Automatic categorisation can be understood as a learning process during which a programme recognises the characteristics that distinguish each category or class from others, i.e. those characteristics which the documents should have in order to belong tothat category. As yet few experiments have been carried out with documents in Spanish.Here we show the possibilities of elaborating pattern vectors that include thecharacteristics of different classes or categories of documents, using techniques based on those applied to the expansion of queries by relevance; likewise, the results of applyingthese techniques to a collection of documents in Spanish are given. The same collection of documents was classified manually and the results of both procedures were compared. 2001-01-01T00:00:00Z Firma digital http://hdl.handle.net/10366/56138 2000-01-01T00:00:00Z Herramientas para la investigación en recuperación de información:KARPANTA, un motor de búsqueda experimental http://hdl.handle.net/10366/56132 La investigación en Recuperación de la Información es un área que conoce en la actualidad un desarrollo sin precedentes. Uno de sus principales atractivos reside en su carácter esencialmente multidisciplinar, participando de muy diversos ámbitos del conocimiento: Ciencias de la Documentación, Informática, Matemáticas, Lingüística y otros. Sin embargo, la investigación experimental requiere disponer de utilidades y herramientas que no siempre están al alcance de los investigadores. Se presenta KARPANTA, un motor de recuperación extremadamente flexible, que implementa un gran número de algoritmos diferentes (más de 300), y que aísla el proceso de indización automática y resolución de consultas de las fases de análisis léxico y visualización. El código es extremadamente simple y fácilmente modificable, dado que resuelve la totalidad de las operaciones mediante sencillas sentencias SQL, almacenando los datos en tablas relacionales. KARPANTA es un paquete de códigolibre y abierto (licencia GPL) que puede ser utilizado, modificado y adaptado libremente por cualquier investigador. De otro lado, KARPANTA puede ser también usado con éxito operacionalmente, en entornos reales y para tareas reales como las que puedan darse en un Centro de Documentación.; Research in Information Retrieval is field that knows a development without precedents. One of its mainattractiveness is his multidisciplinary character participating in very diverse scopes of theknowledge: Information Science, Computer science,Mathematics, Linguistics and others. Nevertheless, the experimental research requires utilities and tools that not always are within reach of the researchers. We introduce KARPANTA, a search engine that implements a great number of different algorithms (more than 300), and that isolates the process of automatic indexing and resolving queries of the phases oflexical analysis and visualization.The code is very simple and easily modifiable, since it solves the totality of the operations by means of simple SQL sentences, storing the data in relational tables. KARPANTA isfree and open code (GPL license) that can be used, freely modified and adapted by any researcher. Of another side, KARPANTA also can be successfully used operationally for real tasks like which they can occur in a Documentation Center. 2004-01-01T00:00:00Z Análisis cualitativo de la visibilidad de la investigación de las universidades españolas a través de sus páginas web1 http://hdl.handle.net/10366/56124 Análisis y evaluación de la difusión de la investigación de las universidades españolas a través de la World Wide Web, con la finalidad de obtener un estado de la visibilidad de la información sobre investigación de las mismas y proponer medidas para mejorar la calidad de sudifusión. Se presenta la parte de la investigación relacionada con el uso de métodos de investigación cualitativa. El objeto de estudio está conformado por una muestra seleccionada de 19universidades españolas, elegidas en función de la representatividad por Comunidad Autónoma y el peso administrativo y científico de las mismas. Se explica el procedimiento de definición de los indicadores cualitativos, el método de recogida de datos y el procedimiento de análisis de los mismos. Los resultados ofrecen un panorama detallado del estado de la cuestión de la visibilidad de la información sobre investigación en las páginas web de las universidades seleccionadas respectoa cada uno de los indicadores, que ha permitido, a su vez, definir unas propuestas de mejora susceptibles de contribuir a la excelencia de su difusión.; Analysis and evaluation of the dissemination of the information on research of Spanish universities throughout the World Wide Web, with an aim in offering a state of their visibility and,derived form it, a set of proposals to improve the quality of such a diffusion. The part of the project related with the use of qualitative research methods is presented. The object of study is conformed by a selected sample of 19 Spanish universities, representing all the Spanish Autonomous Regions but with a consideration to the administrative and scientific weight of some of them. The procedure of definition of the qualitative indicators, the method of collection of data and the method of analysis are presented. The results offer a detailed landscape of the state of the question of the visibility ofthe information on research in the World Wide Web of the universities selected in relation with each of the proposed indicators. Those results have allowed, as well, to define of a set of proposals ofimprovement which it si hoped could contribute to the excellence of Spanish universities web-based information. 2004-01-01T00:00:00Z El sistema de recuperación Karpanta: estudio de usuarios a través del archivo de registro http://hdl.handle.net/10366/56129 En el contexto de las bibliotecas digitales es muy importante analizar la forma en que los usuarios interactúan con los sistemas reales. En estos sistemas, uno de los aspectos más importantes es laformulación de la necesidad informativa por parte del usuario. Desafortunadamente se trata de unproblema que no es simple. El usuario debe traducir su necesidad informativa en una consulta para que pueda ser procesada por el sistema de recuperación. Su diseño correcto evita en la mayoría de los casos tener que reformular la consulta para obtener mejores resultados. Uno de los mecanismos que permiten analizar el comportamiento del usuario consiste en el estudio de los archivos de registro de tales sistemas.En esos archivos quedan grabadas las actuaciones de los usuarios que consultan el sistema. En estetrabajo hemos realizado el análisis de los archivos de registro para nuestro sistema de recuperación, al que hemos llamado Karpanta.; In digital libraries context is very important to analyze the ways in which users interact with real systems.The user has to translate his information need into a query in the language provided by the system.Unfortunately, characterization of the user information need is not a simple problem. The user must translate the information need into a query, which can be processed by the information retrieval system.In most cases, the correct design of a query avoids to reformulate it for gain in accuracy. Transaction logsare one source for study the user behavior. These files store the user actions carried out in the informationsystem. In this paper we have analyzed the transaction logs for our information retrieval system, denoted Karpanta. 2004-01-01T00:00:00Z La interacción con el usuario en los sistemas de Recuperación de Información: realimentación por relevancia http://hdl.handle.net/10366/56133 En los sistemas de Recuperación de la Información la interacción con el usuario permite la formulación de consultas más eficientes, que producen mejores resultados. La realimentación de consultas es una técnica a través de la cual el usuario, utilizando un interfaz adecuado, examina los documentos devueltos tras una primera consulta convencional y utiliza tales documentos para plantear al sistema ejemplos positivos y negativos de los documentos a recuperar. Se indican el proceso normalmente seguido en la realimentación de consultas y se muestran resultados experimentales que permiten estimar el grado de mejora en los resultados de la recuperación conseguida mediante estos sistemas.; Interaction with the user in Information Retrieval Systems allows the formulation of more efficient queries that produce better results. Relevance feedback is a process where users identify relevant documents in an initial list of retrieval documents, and the system then creates a new query based on positive and negative examples of those documents. The user interface is an important element in the process. Usually followed process in relevance feedback technique and experimental results are shown. They allow estimating the degree of improvement in the results of the retrieval by means of these systems. 2002-01-01T00:00:00Z Agentes inteligentes: recuperación autónoma de información en el Web http://hdl.handle.net/10366/56137 El problema de la recuperación de información en el Web se puede planteardesde diferentes puntos de vista, con mecanismos como la realimentación por relevancia, la utilización de tesauros, el estudio de los hiperenlaces, o la aplicación de redes neuronales, entre otros. Todos estos mecanismos se aplican sobre grandes bases dedatos construidas a partir de la exploración previa de sectores más o menos amplios del Web. La experiencia ha demostrado que la precisión de estos sistemas es baja, y la exhaustividad está relativizada al sector explorado. Existe sin embargo otra aproximación al problema que pretende obtener resultados mucho más precisos, aunque sin perseguiraltas tasas de exhaustividad, basándose en el uso de agentes inteligentes que rastreen la red según las necesidades informativas del usuario. Se indican las características de los agentes y se analizan algunas de las propiedades y habilidades deseables para aquellosagentes dedicados a la recuperación de información en el Web.; The problem of the information retrieval in the Web can be raised from differentpoints of view, with mechanisms like the feedback by relevance, the use of thesauri, the study of the hyperconnections, or the application of neuronal networks, among others.All these mechanisms are applied on great data bases constructed from the previous exploration of more or less ample sectors of the Web.The experience has demonstrated that the precision of these systems is low, and the recall is relativized to the explored sector.Another approach to the problem that it tries to obtain precise results much more, although without persecuting discharges rates of recall exists nevertheless, being based on the use of intelligent agents who track the network according to the informative necessities of the user.The characteristics of the agents are indicated and some of the properties and desirable abilities for those agents dedicated to the information retrieval in the Web are analyzed. 2003-01-01T00:00:00Z Cibermetría del Web: las leyes de exponenciación http://hdl.handle.net/10366/56128 Se realiza una introducción a las leyes de exponenciación, enunciadas por MichalisFaloutsos y que nos permiten realizar una caracterización del Web a través del análisis de su topología. Se describen sus características más importantes y cómo se calculan algunos de los valores de las funciones más interesantes.; An introduction to the power laws, enunciated by Michalis Faloutsos, is made and that allows us to make a characterization of the Web through the analysis of their topology.Their most important characteristics are described and how calculate some of the values of the most interesting functions. 2001-01-01T00:00:00Z Encontrar documentos a través de las palabras http://hdl.handle.net/10366/56135 2006-01-01T00:00:00Z Reformulation of queries using similarity thesauri http://hdl.handle.net/10366/56134 One of the major problems in information retrieval is the formulation of queries on thepart of the user. This entails specifying a set of words or terms that express their informationalneed. However, it is well-known that two people can assign different terms to refer tothe same concepts. The techniques that attempt to reduce this problem as much as possiblegenerally start from a first search, and then study how the initial query can be modified toobtain better results. In general, the construction of the new query involves expanding theterms of the initial query and recalculating the importance of each term in the expandedquery. Depending on the technique used to formulate the new query several strategies aredistinguished. These strategies are based on the idea that if two terms are similar (withrespect to any criterion), the documents in which both terms appear frequently will also berelated. The technique we used in this study is known as query expansion using similaritythesauri. 2005-01-01T00:00:00Z Algunas técnicas de clasificación automática de documentos http://hdl.handle.net/10366/56127 La idea de clasificación es bien conocida por quienes se dedican a la documentación.Sin entrar en disquisiciones formales, se trata de organizar los documentos en algunaforma que permita después su mejor recuperación. En torno a ello se han elaboradodiversas técnicas, que se han aplicado con mejor o peor fortuna. Con la crecientedisponibilidad de documentos en formato electrónico, susceptibles, por consiguiente,de ser procesados de manera automática, surge la posibilidad de abordar laclasificación de documentos de manera automática. Este trabajo describe algunas delas técnicas y algoritmos aplicables en clasificación automática, los conceptos básicosen que se basan tales algoritmos, así como los instrumentos necesarios paraaplicarlos. Del mismo modo, en la medida en que tales técnicas y algoritmos hayansido aplicados, se ofrece una estimación del alcance y posibilidades de cada uno deellos. 2005-01-01T00:00:00Z