Documentos duplicados y casi duplicados en el Web: detección con técnicas de hashing borroso

García de Figuerola Paniagua, Luis Carlos; Gómez Díaz, Raquel; Alonso Berrocal, José Luis; Zazo Rodríguez, Ángel Francisco

Título

dc.contributor.author	García de Figuerola Paniagua, Luis Carlos
dc.contributor.author	Gómez Díaz, Raquel
dc.contributor.author	Alonso Berrocal, José Luis
dc.contributor.author	Zazo Rodríguez, Ángel Francisco
dc.date.accessioned	2016-05-03T10:08:46Z
dc.date.available	2016-05-03T10:08:46Z
dc.date.issued	2011
dc.identifier.citation	Figuerola, C. G., Gómez Díaz, R., Alonso Berrocal, J. L., Zazo Rodríguez, Á. F. (2011). Documentos duplicados y casi duplicados en el Web: detección con técnicas de hashing borroso. Scire. 17(1):49-54.	es_ES
dc.identifier.issn	1135-3716
dc.identifier.uri	http://hdl.handle.net/10366/128123
dc.description.abstract	[ES]La detección de los duplicados en la web es importante porque permite aligerar las bases de datos documentales y mejorar la eficiencia de los motores de búsqueda y la precisión de los análisis cibermétricos y los estudios de minería web, etc. Sin embargo, las técnicas estándar de hashing aplicadas habitualmente sólo detectan duplicados exactos, a nivel de bits, mientras que muchos de los duplicados que encontramos en el mundo real no son exactamente iguales, por cambios en el formato, las cabeceras, las etiquetas META o las plantillas de visualización. La solución obvia es comparar las conversiones a texto plano de todos esos formatos, pero esas conversiones nunca son idénticas, debido al diferente tratamiento que hacen los conversores de los diversos elementos de formato. Se presenta la posibilidad de utilizar fuzzy-hashing para producir huellas digitales de dos documentos que se pueden comparar para proporcionar una estimación de la cercanía o distancia entre los dos documentos. Basado en el concepto de rolling-hash, el fuzzy hashing se utiliza con éxito en tareas de seguridad informática como identificación de programas maliciosos, correo basura, detección de virus, etc. Hemos añadido capacidades de fuzzy-hashing a un crawler y hemos llevado a cabo diversas pruebas que nos han permitido estimar umbrales útiles de similitud o parecido entre documentos, así como obtener datos interesantes sobre la cantidad y distribución de documentos duplicados en servidores web.	es_ES
dc.format.mimetype	application/pdf
dc.language.iso	spa	es_ES
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Unported
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/3.0/
dc.subject	World Wide Web	es_ES
dc.subject	Detección de duplicados	es_ES
dc.subject	Fuzzy hashing	es_ES
dc.title	Documentos duplicados y casi duplicados en el Web: detección con técnicas de hashing borroso	es_ES
dc.title.alternative	Duplicate and near duplicate documents in the web: detection by means of fuzzy hash techniques
dc.type	info:eu-repo/semantics/article	es_ES
dc.type	info:eu-repo/semantics/article	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess

Ficheros en el ítem

Nombre:: 20112_3895-4539-1-PB.pdf
Tamaño:: 386.3Kb
Formato:: PDF

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

ECYT. Artículos [18]

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 Unported