Indización automática

La indización automática es la selección de un conjunto de términos que representen íntegramente un documento (texto, imagen, sonido) por medio de un programa informático. Hasta finales de la década de 1950, la indización se venía realizando en las Bibliotecas y Centros de Documentación de manera intelectual. Desde entonces se viene trabajando en automatizar esta tarea.

Contexto

Los antecedentes más remotos de la indización se encuentran en la antigua Mesopotamia cuando, en el exterior de las cestas de mimbre en las que guardaban las tablillas de barro, colocaban una frase que servía para conocer de qué trataban las tabillas allí depositadas sin necesidad de abrir dichas cestas. Con este sistema tan simple, se conseguía almacenar de manera más o menos organizada las tablillas (almacenamiento de datos) y además, ese sistema ayudaba, posteriormente, a localizar información (recuperación de información). La indización es por tanto, un proceso intelectual o automático, llevado a cabo generalmente por profesionales de la Información y Documentación (bibliotecarios, documentalistas y archiveros) por el cual se analiza el contenido de un documento para seleccionar un conjunto de conceptos que representan el contenido íntegro de dicho documento, y normalmente, dichas palabras seleccionadas del documento en lenguaje natural (esto es, palabras clave), se convierten en lenguaje controlado (descriptores y encabezamientos de materia) una vez que se buscan y encuentran sus equivalentes en los lenguajes de indización (tesauro, listas de encabezamientos de materia o listado alfabético de descriptores). De este modo, esos descriptores o encabezamientos de materia sirven para el almacenamiento de esos documentos en bases de datos o catálogos y recuperación también para su posterior recuperación. Por tanto, el objetivo general de la indización es el almacenamiento y recuperación de información.

Los primeros pasos para la automatización de la indización se dieron a finales de 1950 en la disciplina de Ciencias de la Información (Biblioteconomía y Documentación), y dentro de ésta, en el área de Procesos técnicos. Después de la Segunda Guerra Mundial se produjo un crecimiento exponencial de la información. Debido a este incremento fue preciso ir incorporando a las unidades documentales (bibliotecas y centros de documentación) formas de trabajo más ágiles, es decir, intentar automatizar algunos de las tareas que tradicionalmente se venían realizando intelectualmente y que requieren mucho esfuerzo y tiempo.

El pionero en trabajar en esto fue Hans Peter Luhn (1957) toma la Ley de Zipf para aplicarla en automatizar esta tarea. Desde entonces en la numerosa literatura científica producida sobre este asunto se le ha denominado de diferentes maneras. Así, podemos encontrar denominaciones como 'Indización asistida por computador', 'Indización automatizada', 'Indización computerizada', 'Indización por computador', 'Indización mecanizada', 'Indización semiautomática' o la misma Indización automática, entre otras [Gil Leiva, 2008]. Según este autor, estas distintas denominaciones hacen referencia a tres conceptos diferentes:

  1. Indización asistida por ordenador durante el almacenamiento: Programas informáticos que asisten en el proceso de almacenamiento de los términos de indización, una vez obtenidos de modo intelectual.
  2. Indización semiautomática: Programas informáticos que analizan los documentos y seleccionan los términos de indización, pero un profesional debe validar, editar (si fuera necesario) y asignar definitivamente dichos términos a los documentos.
  3. Indización automática: Programas informáticos que analizan, seleccionan y asignan a los documentos términos de indización sin ninguna intervención humana.

Herramientas

Algunas de las herramientas que vienen utilizando los programas informáticos para conseguir una indización automática son las siguientes (Gil Leiva, 2008):

  • Listas de palabras vacías: Fichero compuesto por artículos, conjunciones, preposiciones, adverbios como por ejemplo (el, la, por, para, con, sin, etc.). Es decir, palabras que por sí solas no transmiten carga temática.
  • Ponderación de términos: Uso de la frecuencia para dar valores a las palabras que aparecen en los documentos.
  • Analizadores lingüísticos: Analizadores o etiquetadores morfológicos, sintácticos o semánticos para realizar un procesamiento de lenguajes naturales.
  • Algoritmo: Listado definido y ordenado de operaciones para solucionar un problema.
  • Vocabulario controlado: Listado alfabético y/o sistemático de terminología especializada.
  • Reconocedores de nombres propios y siglas.

Sistemas de indización automática

Los avances en la indización automática se han ido utilizando en determinadas unidades documentales que manejan gran cantidad de información. De este modo, han surgido prototipos como Shapire desarrollado por la Biblioteca Nacional de Medicina de los Estados Unidos;[1]​ en el centro de documentación de la NASA;[2]​ en el Laboratorio Europeo de Física de Partículas (CERN) de Ginebra[3]​ o SISA,[4]​ entre otros.

Referencias

  1. Hersh y Greenes, 1990
  2. Silvestre, Genuardi y Klingbiel, 1994
  3. Montejo Ráez, 2001
  4. Gil Leiva, 2003

Bibliografía

  • HERSH, W.R. y GREENES, R.A. SAPHIRE, an information retrieval system featuring concept matching automatic indexing, probabilistic retrieval, and hierarchical relationships. Computers and Biomedical Research, 1990, vol. 23, p. 410-425. ISSN 0010-4809
  • LUHN, H.P. A statistical approach to mechanized enconding and searching of literary information. IBM Journal of Resarch and Development, 1957, vol. 1, n.º 4, p.309-317. ISSN 0018-8646
  • MONTEJO RÁEZ, Arturo. Proyecto de indexado automático para documentos en el campo de la física de altas energías. Boletín de Sociedad Española para el Procesamiento del Lenguaje Natural, 2001, n.º 27, septiembre, p. 295-296. ISSN 84-8454-163-0

Véase también