Minería de secuenciasEn el campo de la minería de datos y extracción de conocimiento, la minería de secuencias es un caso particular de la minería de datos estructurados. Consiste en encontrar patrones estadísticamente relevantes en colecciones de datos que están representados de forma secuencial.[1] Debido a la frecuencia con que aparecen este tipo de datos en escenarios de aplicaciones reales, esta técnica constituye uno de los métodos más populares de descubrimiento de patrones. Los patrones frecuentes obtenidos durante el minado de secuencias, se usan en tareas de detección de dependencias funcionales, predicción de tendencias, interpretación de fenómenos y como soporte de decisiones en estrategias de producción. SecuenciasLas secuencias son un importante tipo de datos, que representa una clase especial de estructura donde importa el orden que ocupan los elementos (conjunto de ítems del inglés itemset). Este orden, puede o no estar relacionado con el factor tiempo. El tamaño de una secuencia va a estar dado por la cantidad de itemsets que contenga, mientras que su longitud por la cantidad de ítems. Ejemplos típicos de secuencias, son las secuencias genéticas como las de ADN y ARN. Un caso menos trivial es la representación de los registros de compras a partir de secuencias. Este patrón secuencial relacionaría las transacciones de un grupo de clientes a lo largo del tiempo y las asociaciones que se obtendrían al minar estos datos, mostrarían las dependencias entre los productos en el intervalo de tiempo analizado. Técnicas de minería de secuenciasDesde que Agrawal y Srikant[2] presentaron su enfoque de minería de patrones secuenciales, esta se ha convertido en una de las tareas más investigadas de la minería de datos, ya que muchos problemas dentro de este campo pueden ser abordados con el minado de secuencias. Clasificación de datos secuenciales. (Aprendizaje supervisado)La tarea de clasificación de secuencias consiste en inducir una función de selección, que genere clasificaciones para secuencias de datos a partir de secuencias de entrenamiento. Usualmente esto se obtiene mediante la composición de alguna técnica general de clasificación, con los criterios de selección adecuados. La idea es que secuencias de datos con clasificaciones similares estén estrechamente relacionadas. Esta técnica tiene una gran aplicación en muchos escenarios como pronósticos de cambios climáticos y reconocimiento de patrones; donde se necesitan realizar predicciones de comportamientos, basándose en registros de datos históricos. Agrupamiento de patrones secuenciales. (Aprendizaje no supervisado)El agrupamiento de secuencias se define como la tarea de separar en grupos a las secuencias de datos, de manera que las pertenecientes a un mismo grupo sean muy similares entre sí, y al mismo tiempo sean diferentes a las de otros grupos. Se usa en muchos escenarios donde no se cuenta con registros de información confiable o donde se deben realizar asociaciones a partir de la similitud entre las secuencias que se analizan. Un ejemplo típico de aplicación de esta técnica, es en las transacciones comerciales donde sirve para identificar diferentes grupos de clientes con registros de compra similares. También tienen un variado uso en la formación de grupos de secuencias de proteínas similares, para analizar a profundidad cada uno de ellos atendiendo a sus características particulares. Reglas de asociación con datos secuenciales.Obtener reglas de asociación a partir de secuencias, se basa principalmente en el descubrimiento de patrones secuenciales frecuentes. Un ejemplo de uso de esta técnica es la representación de operaciones de distribución y marketing, a partir de secuencias, y las asociaciones obtenidas, ayudarían a identificar los productos de mayor promoción, de acuerdo con los patrones de compra. Por ejemplo, si una pareja adquiere una nueva vivienda, en el 70% de los casos se comprarán una cama en menos de un mes. Algoritmos de minería de secuencias frecuentesLa mayoría de los algoritmos implementados para el minado de secuencias frecuentes, utilizan tres tipos diferentes de enfoques de acuerdo a la forma de realizar el conteo de frecuencia a los patrones secuenciales candidatos.
AplicacionesLa minería de secuencias frecuentes posee una amplia gama de aplicaciones, en distintas líneas de investigación y entornos de producción, como por ejemplo:
Véase también
Referencias
|