Recuperación de información multimediaLa Recuperación de Información Multimedia (Multimedia Information Retrieval, MMIR o MIR, por sus siglas en inglés) es una disciplina de investigación de la Ciencia de la Computación que tiene como objetivo extraer información semántica de fuentes de datos multimedia.[1] Las fuentes de datos incluyen medios directamente perceptibles como audio, imagen y video, y fuentes perceptibles indirectamente tales como texto, bioseñales y fuentes no perceptibles como bioinformación, precios de acciones, etc. La metodología de la recuperación de información multimedia se puede organizar en tres grupos:
Métodos de extracción de característicasLa extracción de características está motivada por el tamaño de los objetos multimedia, así como por su redundancia y, posiblemente, ruido.[1] En general, se pueden lograr dos objetivos posibles mediante la extracción de características:
Mezcla y métodos de filtradoLa recuperación de información multimedia implica que se emplean múltiples canales para comprender el contenido multimedia.[4] Cada uno de estos canales se describe mediante transformaciones de características específicas de los medios. Las descripciones resultantes deben combinarse con una descripción por objeto multimedia. La mezcla se puede realizar por concatenación simple si las descripciones son de tamaño fijo. Las descripciones de tamaño variable, como suelen ocurrir en la descripción de movimiento, primero deben normalizarse a una longitud fija. Los métodos usados frecuentemente para el filtrado de descripciones incluyen análisis de factores (por ejemplo, por PCA), descomposición de valores singulares (por ejemplo, como indexación semántica latente en la recuperación de texto) y la extracción y prueba de momentos estadísticos. Conceptos avanzados como el filtro de Kalman se utilizan para la mezcla de descripciones. Métodos de categorizaciónEn general, todas las formas de aprendizaje automático se pueden emplear para la categorización de descripciones multimedia[1] aunque algunos métodos se usan con más frecuencia en un área que en otra. Por ejemplo, los modelos ocultos de Markov son el state-of-the-art en reconocimiento de voz, mientras que la técnica dynamic time-warping, un método semánticamente relacionado, es el state-of-the-art en alineamiento de secuencias genéticas. La lista de clasificadores aplicables incluye lo siguiente:
La selección del mejor clasificador para un problema determinado (conjunto de pruebas con descripciones y etiquetas de clase, denominada ground-truth) se puede realizar automáticamente, por ejemplo, usando Weka Data Miner. Problemas abiertosLa calidad de los sistemas de recuperación multimedia[5] depende en gran medida de la calidad de los datos de entrenamiento. Las descripciones discriminatorias se pueden extraer de las fuentes de los medios en diversas formas. El aprendizaje automático proporciona métodos de categorización para todo tipo de datos. Sin embargo, el clasificador solo puede ser tan bueno como los datos de entrenamiento dados. Por otro lado, se requiere un esfuerzo considerable para proporcionar etiquetas de clase para grandes bases de datos. El éxito futuro de los MMIR dependerá de la provisión de tales datos.[6] La competencia anual de TRECVID es actualmente una de las fuentes más relevantes de verdad de terreno de alta calidad. Áreas relacionadasLa Recuperación de Información Multimedia proporciona una visión general de los métodos empleados en las áreas de recuperación de información.[7][8] Los métodos de un área se adaptan y emplean en otros tipos de medios. El contenido multimedia se fusiona antes de que se realice la clasificación. Los métodos de recuperación de información multimedia son, por lo tanto, usualmente reutilizados de otras áreas tales como:
El Journal of Multimedia Information Retrieval[9] documenta el desarrollo de la Recuperación de Información Multimedia como una disciplina de investigación que es independiente de estas áreas. Consultetambién el Handbook of Multimedia Information Retrieval[10] para obtener una descripción completa de esta disciplina de investigación. Referencias
|