Indización Social y Recuperación de Información

Hassan Montero, Yusef

16 de Noviembre de 2006

Indización Social y Recuperación de Información

Hassan Montero, Yusef

Resumen: Introducción y análisis de las características de los sistemas de tagging o etiquetado social, y sus ventajas y desventajas frente a otros modelos para la recuperación de información.

Introducción

Con la aparición en la Web de las herramientas de bookmarking social (como del.icio.us), se populariza un nuevo modelo para organizar, describir y compartir recursos web, denominado tagging o etiquetado social. Como primera definición operativa podemos decir que el tagging es aquel proceso distribuido en el que los recursos u objetos son descritos o caracterizados por medio de tags (términos o conjuntos de términos en lenguaje natural). Al resultado agregado de este proceso se le denomina folksonomía, que significaría “clasificación hecha por el pueblo” (Quintarelli; 2005).

El tagging tiene dos dimensiones interrelacionadas: la personal y la colectiva. En su dimensión personal, el tagging es un proceso de indización o categorización de recursos cuya principal motivación es de carácter egoísta: el usuario etiqueta los recursos para poder recuperarlos posteriormente (Cañada; 2006). Es decir, cada usuario confecciona su propio índice personal de tags (personomía) para su colección personal de recursos.

Puesto que el tagging suele llevarse a cabo en un entorno compartido, tiene además una dimensión social o colectiva: los usuarios comparten sus tags y recursos, generando mediante colaboración implícita un índice global de tags (folksonomía) a través del que cualquier persona podrá recuperar cualquier recurso descrito por otros usuarios. Esta dimensión social es la que le confiere al tagging su mayor potencial en áreas como la Recuperación de Información (entre otras).

A continuación se contextualiza y define el concepto de indización social, con el objetivo de poder abordar sus características, ventajas, desventajas e implicaciones para la recuperación de información.

Indización Social

La indización es el proceso de analizar el contenido de los documentos (recursos, imágenes, textos, etc.) y asignarle términos descriptivos, generando un índice de puntos de acceso a través del cual poder recuperar dichos documentos.

La distinción entre tipos de indización se suele realizar en función de cómo se realiza el proceso, dando pie a dos grandes categorías: indización humana e indización automática.

La indización humana es un proceso intelectual, donde es una persona (tradicionalmente un indizador profesional) quien, tras analizar el contenido del documento o parte del documento, le asigna aquellos términos de indización que considera identifican las temáticas principales de su contenido. La indización automática, por el contrario, es realizada por algoritmos que mediante diversas técnicas o métodos determinan cuál es el peso con el que cada uno de los términos que aparecen en el documento representa su contenido temático.

Aclaración:
Si bien en modelos clásicos como el Modelo Espacio Vectorial la descripción de los documentos se realiza en función de los términos que aparecen en su cuerpo textual, existen modelos que posibilitan caracterizar los documentos a través de términos que no aparecen necesariamente en el documento. Tal es el caso de la Indización de Semántica Latente, donde un documento puede ser descrito por términos que no aparecen en el documento, pero que presentan fuertes relaciones de co-ocurrencia con los términos del documento en otros documentos de la colección. Para ampliar información sobre modelos de recuperación de información se recomienda consultar (Rijsbergen; 1975), (Baeza-Yates, Ribeiro-Neto; 1999) y (Abadal, Codina; 2005).

La indización humana y la automática ofrecen resultados diferentes, aunque igualmente válidos (Anderson, Pérez-Carballo; 2001). Sin embargo, la automática posee una destacable ventaja frente a la humana: su menor coste. Por esta razón resulta la única opción plausible en colecciones de gigantesco volumen y constante crecimiento (como es la propia Web).

La indización humana únicamente puede aplicarse sobre colecciones dinámicas y de gran volumen a través de la distribución de la tarea de indizar entre el máximo número de individuos posibles. Un modelo de distribución del trabajo sería la indización realizada por los autores o creadores de los recursos. En la Web tenemos ejemplos claros de este modelo, como el empleo de las metaetiquetas en páginas HTML o el tagging de autor-creador (flickr).

Aunque la indización del autor pueda resultar de utilidad en determinados entornos, de cara a la recuperación de información en entornos abiertos presenta problemas de fiabilidad, debido a la falta de objetividad en la descripción.

La indización social representaría un nuevo modelo de indización, en el que son los propios usuarios o consumidores de los recursos los que llevan a cabo su descripción - lo que Mathes (2004) denomina metadatos generados por el usuario -. La descripción de cada recurso se obtendría por agregación, es decir, un mismo recurso sería indizado por numerosos usuarios, dando como resultado una descripción intersubjetiva y por tanto más fiable que la realizada por el autor del recurso, e incluso por un profesional.

Otra diferencia de la indización social frente a la individual es que ya que los recursos son indizados independientemente por varias personas, el resultado del proceso será más exhaustivo, es decir, se asignará un mayor número de términos de indización diferentes a cada recurso. Al ser más exhaustiva la indización, es más consistente, mitigando el tradicional problema de la inconsistencia en la indización profesional. Sin embargo, esta exhaustividad no será proporcional: habrá recursos con muchos tags asignados, y recursos con muy pocos tags (Hassan; 2006b).

La indización social conlleva otros inconvenientes. Puesto que se realiza en lenguaje natural no controlado, y en la mayoría de casos con motivaciones egoístas, existirá una importante proporción de términos o tags vacíos de significación colectiva. Es decir, el usuario asignará frecuentemente tags que sólo tienen sentido para sí mismo, a lo que habría que sumar los conocidos problemas de la polisemia y sinonimia.

Algunos autores abogan por alfabetizar al usuario en el tagging, ofreciendo instrucciones o mecanismos para mejorar los tags que introduce. Aunque esta solución, en su justa medida de intrusión y limitación de la libertad del usuario, podría mejorar la indización social, no debemos olvidar que una de las razones del éxito del tagging es precisamente el bajo esfuerzo cognitivo que supone para el usuario asignar el primer tag que le venga a la cabeza (Sinha; 2005), sin necesidad de amoldarse a unas reglas o esquema predefinidos.

Otra solución, completamente invisible para el usuario final, sería el empleo de algoritmos para la ponderación de los tags (qué relevancia descriptiva tiene cada tag para cada recurso), así como para la eliminación de tags vacíos de significación colectiva. Para esto sólo sería necesario aplicar modelos propios de la indización automática sobre la indización social: ponderación mediante el empleo de las frecuencias de uso del tag, ponderación de los taggers por autoridad, desambiguación del significado en función del contexto, etc.

Por ello, para explotar el verdadero potencial de la indización social en recuperación de información, este modelo de indización debe ser considerado un híbrido entre la indización humana y la automática. Por un lado es resultado de un proceso intelectual (humano) distribuido, pero al mismo tiempo si no se aplican algoritmos de ponderación, el resultado “en bruto” de la indización social contendrá excesivo ruido y ambigüedad semántica como para resultar de utilidad colectiva.

Palabras clave o Categorías

Cuando se trata de definir qué son los tags, algunos autores los asemejan a categorías mientras que otros a palabras clave. La distinción conceptual entre palabras clave y categorías, y por tanto entre descripción y clasificación, es básicamente una cuestión de especificidad. Las categorías representan la temática global bajo la que se enmarca un recurso, mientras que las palabras clave describen aquellos conceptos que son tratados en el recurso (Hassan, Núñez-Peña; 2005).

Ya que es una cuestión de especificidad, podemos darle una interpretación estadística, partiendo de las medidas de especificidad del término (número de recursos web que representa) y exhaustividad de la indización (número de términos asociados al recurso) (Spärck Jones; 1972). Es decir, es una cuestión de proporcionalidad entre el número de recursos de la colección y el número de términos diferentes presentes en el índice.

Así, la descripción por palabras clave daría lugar a términos de indización más específicos e indizaciones de recursos más exhaustivas, mientras que su categorización daría lugar a términos más genéricos e indizaciones menos exhaustivas.

Distinguir entre palabras clave y categorías sería una cuestión completamente trivial si no fuera porque dependiendo de la naturaleza de la indización, ésta resultará de mayor utilidad para ofrecer sistemas de búsqueda (querying) o, por el contrario, sistemas de navegación (browsing). De este modo, la descripción por términos más específicos será más adecuada para sistemas de búsqueda, mientras que los términos más genéricos (categorización) son más apropiados para ofrecer sistemas de navegación.

¿Por qué es así?
El querying (interrogación de un buscador) es una estrategia de búsqueda que el usuario utiliza cuando tiene bastante claro qué está buscado (y sabe expresar sus necesidades de información mediante una consulta). El browsing (exploración o navegación), en cambio, es una estrategia para búsquedas de propósito general, en las que el usuario prefiere reconocer qué está buscando.
La indización por términos más específicos ofrece mayor precisión en los resultados, proporcionando al usuario pocos resultados pero relevantes, y satisfaciendo necesidades de información concretas.
En cambio, la indización por términos genéricos ofrece mayor exhaustividad, proporcionando mayor cantidad de resultados relevantes, pero también de no relevantes.

Naturaleza y utilidad de los tags

El tagging se encuentra en un término medio entre la descripción y la categorización. Si bien la indización social resulta más exhaustiva que la indización humana (individual), y por tanto genera un índice de términos más específicos, el tagging es un proceso mucho menos exhaustivo que la indización automática. Esto es así porque en la indización automática, a priori, todos los términos que aparecen en el cuerpo textual del documento son candidatos para formar parte de su descripción.

Esto significa que la indización social no resultará más pertinente que la automática para la recuperación de información por consulta mediante buscador (siempre y cuando estemos tratando recursos o documentos de naturaleza textual o con alguna descripción textual, y por tanto indizables automatizadamente). De hecho, la mayoría de sistemas basados en tagging ofrecen como opción primaria de búsqueda la basada en indización automática a texto completo, y no por tags.

Aún así, un buscador podría enriquecerse con el conocimiento subyacente en las folksonomías: relaciones semánticas entre tags (análisis de co-ocurrencias) y grados de relevancia, autoridad, o interés potencial de los recursos.

Debido a la naturaleza más genérica que específica de los tags, la indización social sería más apropiada para ofrecer sistemas de navegación. Por el momento la propuesta de sistemas de navegación más extendida son los denominados Tag-Clouds o nubes de etiquetas. Sin embargo pese a su popularidad, estas interfaces actualmente presentan serios problemas que merman su utilidad real como interfaces de recuperación de información (Hassan; 2006a) (Hassan, Herrero; 2006).

Otro sistema de navegación basado en tags es el que permite realizar una navegación transversal, a través de enlaces del tipo “Tags relacionados” (Blat; 2006). Estos sistemas también son mejorables, ya que si no se pondera la importancia descriptiva de cada tag más allá de su número de co-ocurrencias, se premiará excesivamente a los tags más frecuentes y de significación más ambigua, que son los que tienen más probabilidades de co-ocurrir con otros.

Conclusión

A modo de resumen, podemos concluir:

Sólo podemos hablar de un nuevo modelo en aquellos sistemas que permiten la indización social agregada, es decir, donde varios usuarios indizan un mismo recurso. El tagging de autor, donde son los creadores de los recursos los que asignan los tags (fotos en flickr, tags en blogs…) no representa un modelo innovador.
De cara a la recuperación de información, es esta dimensión social del tagging la que ofrece mayores expectativas: descripción intersubjetiva, mayor exhaustividad y consistencia en la indización, y posibilidad de extraer relaciones de semántica subyacente.
Ya que los tags se asignan de forma completamente libre y con diversas motivaciones, resulta necesario el empleo de algoritmos de ponderación y de eliminación de tags vacíos de significación colectiva.
Los tags tienen una naturaleza genérica, por lo que los índices de tags son más apropiados para ofrecer sistemas de navegación que sistemas de búsqueda. Esto no significa que los sistemas de búsqueda no puedan enriquecerse con el conocimiento latente de las folksonomías, pero sí que un sistema de búsqueda basado exclusivamente en los términos asignados por tagging ofrecerá unos ratios de precisión muy bajos, además de silencio en la recuperación (para muchas búsquedas no habrá resultados, o ninguno será relevante).
Los actuales sistemas de navegación basados en tagging tienen una utilidad y usabilidad bastante limitada. Tal es el caso de los Tag-Clouds o nubes de etiquetas.

Agradecimientos

Al grupo de interés “Sociedad Folksonomista”, por sus aportaciones a este trabajo.

Bibliografía

Abadal, E.; Codina, L. (2005). Recuperación de Información. En: Bases de Datos Documentales: Características, funciones y método. Capítulo 2. p. 29-92. Madrid: Síntesis, 2005. Disponible en:
http://www.lluiscodina.com/riv2.doc

Anderson, J.D.; Pérez-Carballo, J. (2001). The nature of indexing: how humans and machines analyze messages and texts for retrieval. Information Processing and Management, 37, 2001, pp. 231-254.

Baeza-Yates, R.; Ribeiro-Neto, B. (1999). Modern Information Retrieval. Addison-Wesley, Wokingham, UK, 1999.

Barrero, V.; Seoane, C. (2005-2006). Anotaciones publicadas sobre folksonomías y tagging. Deakialli DocuMental. Disponible en:
http://www.deakialli.com/category/folksonomia-y-tagging/

Blat, F. (2006). Tag relacionados: aproximaciones. In web we trust. Disponible en:
http://www.inwebwetrust.net/inwebwetrust/post/2006/09/09/tags-relacionados-aproximaciones

Cañada, J. (2006). Tipologías y estilos en el etiquetado social. Terremoto.net: Diseño de interacción desde el año 2000. Disponible en:
http://www.terremoto.net/tipologias-y-estlos-en-el-etiquetado-social/

Hassan, Y. (2006a). Visualización y Recuperación de Información. II Encontro de Ciências e Tecnologias da Documentação e Informação. 27 Abril, 2006. Disponible en: http://www.nosolousabilidad.com/hassan/visualizacion_y_recuperacion_de_informacion.pdf

Hassan, Y. (2006b). Consistencia inter-tagging. VéaseAdemás. Disponible en:
http://www.veaseademas.com/archivos/2006/07/consistencia_in.html

Hassan, Y.; Herrero, V. (2006). Improving Tag-Clouds as Visual Information Retrieval Interfaces. InSciT2006: Mérida, Spain. 25-28 de Octubre, 2006. Disponible en:
http://www.nosolousabilidad.com/hassan/improving_tagclouds.pdf

Hassan, Y.; Núñez-Peña, A. (2005). Diseño de Arquitecturas de Información: Descripción y Clasificación. No Solo Usabilidad Magazine. 14 de Enero de 2005. Disponible en: http://www.nosolousabilidad.com/articulos/descripcion_y_clasificacion.htm

Mathes, A. (2004). Folksonomies - Cooperative Classification and Communication Through Shared Metadata. Unpublished paper. Disponible en:
http://www.adammathes.com/academic/computer-mediated-communication/folksonomies.html

Quintarelli, E. (2005). Folksonomies: power to the people. ISKO Italy-UniMIB meeting: Milan. June 24, 2005. Disponible en:
http://www-dimat.unipv.it/biblio/isko/doc/folksonomies.htm

Rijsbergen, C.J. (1975). Information retrieval. London: Butterworths, 1975. Disponible en: http://www.dcs.gla.ac.uk/Keith/Preface.html

Sinha, R. (2005). A cognitive analysis of tagging. Rashmi Sinha Blog. Disponible en: http://www.rashmisinha.com/archives/05_09/tagging-cognitive.html

Spärck Jones, K. (1972). A statistical interpretation of term specificity and its application in retrieval. Journal of Documentation, 28 (1), 1972, 11-21.

Acerca del autor/a:

Yusef Hassan Montero

Consultor sobre Experiencia de Usuario y Visualización de Información. Diseñador de interacción en Scimago Lab, Doctor en Documentación (2010) por la Universidad de Granada y editor de la revista No Solo Usabilidad. Escribe habitualmente en su blog sobre diseño de información.

Más información: yusef.es

Citación recomendada:

Hassan Montero, Yusef (2006). Indización Social y Recuperación de Información. En: No Solo Usabilidad, nº 5, 2006. <nosolousabilidad.com>. ISSN 1886-8592