Comprensión de datos

En la metodología CRISP-DM aplicada en la minería de datos existen diferentes fases, una de ellas y de las más importantes es la comprensión de datos, la cual es la segunda fase después de la comprensión del negocio y justo antes de la preparación de los datos. La comprensión de datos tiene como objetivo el inicio de la recolección de datos así como familiarizarse con ellos. Estudiar de cerca los datos es indispensable para seguir con la siguiente fase, evitar algún problema más adelante y tener una idea de lo que nos dice los datos. Esto conlleva a diferentes tareas que existen para poder completar esta fase por completo, estas son: la recopilación inicial de los datos, descripción de los datos, exploración de datos y verificación de calidad de los datos.

Tareas

Recopilación de datos iniciales

Adquirir los datos necesarios para la minería de datos. Esta recopilación de datos inicial se refiere a la carga de datos, ya sea descargarlo directamente de una página web o la extracción desde una base de datos. Algo que tomar en cuenta es que si los datos vienen de diferentes fuentes en este paso se puede incluir la integración de los mismos.[1]​ Al finalizar esta tarea es necesario realizar un reporte sobre lo ocurrido en esta etapa, ya sea las fuentes de donde se obtuvieron los datos, problemas que hubo durante la recolección o integración (si es que se hizo).

Descripción de los datos

Dos aspectos son importantes de realizar en esta tarea, las cuales son el volumen y la calidad de los datos, centrándonos en la cantidad de datos (si se llega a tener una cantidad muy grande de datos, la proposición de usar una muestra puede ser considerada ) y el estado de los mismos. Así como entender las variables, que tipo de variables son (numérico, categórico o booleano) y si llega a existir una codificación, identificar la clave.[2]​ Como en la anterior tarea, la creación de un informe al terminar la tarea es útil y necesaria. Escribir y explicar todo lo descubierto así como los problemas ocurridos.

Exploración de datos

Después de la descripción de los datos, sigue la exploración de ellos, entender que nos dicen, como se comportan, la relación que tienen, etc. Para esto es usualmente utilizado y recomendado la Visualización de datos, ya que esta nos ayuda a entender visualmente todo lo mencionado, también se utiliza querying y técnicas de reporte. Esta tarea es muy importante ya que puede determinar los objetivos y el camino que llevará la minería de datos debido a que podemos descubrir cosas que nos ayuden o perjudiquen más adelante. Como ya comentado, esta tarea define mucho el futuro del proyecto por lo tal, el reporte de la exploración de datos debe ser detallada y fácil de entender, incluso si es posible incluir las visualizaciones hechas para poder escribir, posiblemente, la hipótesis del proyecto.

Verificación de calidad de datos

Es más común de lo que se gustaría que los datos no estén del todo perfectos, ya sea error de formato, valores faltantes, valores que se salen de lo estimado según el conjunto de datos (Valor atípico), error de medición, entre otros. Es necesario identificar todos estos puntos y analizar el porqué de su existencia así como empezar a cuestionar que se hará con ellos. El informe de la verificación de calidad de los datos nos servirá para decidir el impacto que tendrá sobre nuestro proyecto, ya sea positiva o negativamente.

Referencias

  1. Chapman, P. Clinton, J. Kerber, R. Khabaza, T. Reinartz, T. Shearer, C. Wirth, R., "CRISP-DM 1.0" Archivado el 12 de septiembre de 2020 en Wayback Machine., SPSS, 2000
  2. IBM, "Manual CRISP-DM de IBM", SPSS Modeler, 2012