MacrodatosLos macrodatos,[1][2] también llamados datos masivos, inteligencia de datos, datos a gran escala (del inglés big data) es un término que hace referencia a conjuntos de datos tan grandes y complejos que precisan de aplicaciones informáticas no tradicionales de procesamiento de datos para tratarlos adecuadamente. Los datos son la reproducción simbólica de un atributo o variable cuantitativa o cualitativa; según la RAE «Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho».[3] Por ende, los procedimientos usados para encontrar patrones repetitivos dentro de esos datos son más sofisticados y requieren un software especializado. En textos científicos en español, con frecuencia se usa directamente el término en inglés big data, tal como aparece en el ensayo de Viktor Schönberger La revolución de los datos masivos.[4][5] El uso moderno del término macrodatos tiende a referirse al análisis del comportamiento del usuario, extrayendo valor de los datos almacenados, y formulando predicciones a través de los patrones observados. La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estos grandes volúmenes de datos se centran en la recolección y el almacenamiento de los mismos,[6] en las búsquedas, las comparticiones, y los análisis,[7] y en las visualizaciones y representaciones. La tendencia a manipular enormes volúmenes de datos se debe en muchos casos a la necesidad de incluir dicha información para la creación de informes estadísticos y modelos predictivos utilizados en diversas materias, como los análisis sobre negocios, sobre publicidad, sobre enfermedades infecciosas, sobre el espionaje y el seguimiento a la población, o sobre la lucha contra el crimen organizado.[8] El límite superior de procesamiento ha ido creciendo a lo largo de los años.[9] Se estima que el mundo almacenó unos 5 zettabytes en 2014. Si se pone esta información en libros, convirtiendo las imágenes y todo eso a su equivalente en letras, se podría hacer 4500 pilas de libros que lleguen hasta el sol.[10] Los científicos con cierta regularidad encuentran límites en el análisis debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica,[11] la conectómica (una aproximación al estudio del cerebro; en inglés:Connectomics; en francés: Conectomique), las complejas simulaciones de procesos físicos[12] y las investigaciones relacionadas con los procesos biológicos y ambientales.[13] Los data sets crecen en volumen debido en parte a la recolección masiva de información procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las VANET), el constante crecimiento de los históricos de aplicaciones (por ejemplo de los registros), las cámaras (sistemas de teledetección), los micrófonos, los lectores de identificación por radiofrecuencia.[14][15] La capacidad tecnológica per cápita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los años 1980.[16] Se estima que en 2012 cada día fueron creados cerca de 2.5 trillones de bytes de datos.[17] Los sistemas de gestión de bases de datos relacionales y los paquetes de software utilizados para visualizar datos, a menudo tienen dificultades para manejar los macrodatos. Este trabajo puede requerir "un software masivamente paralelo que se ejecute en decenas, cientos o incluso miles de servidores".[18] Lo que se califica como macrodatos varía según las capacidades de los usuarios y sus herramientas, y las capacidades de expansión hacen que los macrodatos sean un objetivo en movimiento. "Para algunas organizaciones, enfrentar cientos de gigabytes de datos por primera vez puede provocar la necesidad de reconsiderar las opciones de administración de datos. Para otros, puede tomar decenas o cientos de terabytes antes de que el tamaño de los datos se convierta en una consideración importante".[19] DefiniciónEl término ha estado en uso desde la década de 1990, y algunos otorgan crédito a John Mashey[20] por popularizarlo. Macrodatos es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software convencional para ser capturados, administrados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente. En el 2012, se estimaba su tamaño de entre una docena de terabytes hasta varios petabyte de datos en un único conjunto de datos. En la metodología MIKE2.0, dedicada a investigar temas relacionados con la gestión de información, definen macrodatos[21] en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales. Se ha definido también como datos lo suficientemente masivos como para poner de relieve cuestiones y preocupaciones en torno a la efectividad del anonimato desde una perspectiva más práctica que teórica.[22] En el 2001, en un informe de investigación que se fundamentaba en congresos y presentaciones relacionadas,[23] la META Group (ahora Gartner) definía el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad. Gartner' continúa usando datos masivos como referencia.[24] Además, grandes proveedores del mercado de datos masivos están desarrollando soluciones para atender las demandas más críticas sobre cómo procesar tal cantidad de datos, como MapR y Cloudera. Una definición de 2016 establece que los macrodatos representan los activos de información caracterizados por un volumen, velocidad y variedad tan altos que requieren una tecnología específica y métodos analíticos para su transformación en valor".[25] Además, algunas organizaciones agregan una nueva V, veracidad para describirlo,[26] revisionismo cuestionado por algunas autoridades de la industria.[27] Las tres V (volumen, variedad y velocidad) se han ampliado a otras características complementarias de los macrodatos:
Una definición de 2018 establece que con los macrodatos se necesitan herramientas informáticas paralelas para manejar los datos", y señala: "Esto representa un cambio distinto y claramente definido en la informática utilizada a través de teorías de programación paralelas y pérdidas de algunas de las garantías y capacidades hechas por el modelo relacional de Codd".[29] La creciente madurez del concepto describe de manera clara y bien nítida, la diferencia entre macrodatos (datos a gran escala) e inteligencia empresarial:
CaracterísticasLos macrodatos se pueden describir por las siguientes características:[32]
ArquitecturaLos repositorios de macrodatos han existido en muchas formas, a menudo creadas por corporaciones con una necesidad especial. Históricamente, los proveedores comerciales ofrecían sistemas de administración de bases de datos paralelos para macrodatos a partir de la década de 1990. Durante muchos años, WinterCorp publicó un informe de base de datos más grande.[34] Teradata Corporation en 1984, comercializó el sistema de procesamiento paralelo DBC 1012. Los sistemas Teradata fueron los primeros en almacenar y analizar 1 terabyte de datos en 1992. Los discos duros eran de 2,5 GB en 1991, por lo que la definición de macrodatos evoluciona continuamente según la Ley de Kryder. Teradata instaló el primer sistema basado en RDBMS de clase petabyte en 2007. A partir de 2017, hay unas pocas docenas de bases de datos relacionales de Teradata de clase Petabyte instaladas, la mayor de las cuales excede de 50 PB. Los sistemas hasta 2008 eran datos relacionales estructurados al 100 %. Desde entonces, Teradata ha agregado tipos de datos no estructurados, incluidos XML, JSON y Avro. En 2000, Seisint Inc. (ahora LexisNexis Group) desarrolló un marco de intercambio de archivos distribuido basado en C++ para el almacenamiento y consultas de datos. El sistema almacena y distribuye datos estructurados, semiestructurados y no estructurados en varios servidores. Los usuarios pueden crear consultas en un dialecto de C++ llamado ECL. ECL utiliza un método de "aplicar esquema en lectura" para inferir la estructura de los datos almacenados cuando se consulta, en lugar de cuando se almacena. En 2004, LexisNexis adquirió Seisint Inc.[35] y en 2008 adquirió ChoicePoint, Inc.[36] y su plataforma de procesamiento paralelo de alta velocidad. Las dos plataformas se fusionaron en sistemas HPCC (o clúster de computación de alto rendimiento) y en 2011, HPCC fue de código abierto bajo la licencia Apache v2.0. Quantcast File System estuvo disponible aproximadamente al mismo tiempo.[37] El CERN y otros experimentos de física han recopilado grandes conjuntos de datos durante muchas décadas, generalmente analizados a través de computadoras de alto rendimiento (supercomputadores) en lugar de las arquitecturas de mapas reducidos de productos, que generalmente se refieren al movimiento de los macrodatos. En 2004, Google publicó un documento sobre un proceso llamado MapReduce que utiliza una arquitectura similar. El concepto MapReduce proporciona un modelo de procesamiento en paralelo, y se lanzó una implementación asociada para procesar grandes cantidades de datos. Con MapReduce, las consultas se dividen y distribuyen a través de nodos paralelos y se procesan en paralelo (el paso del Mapa). Los resultados se recopilan y se entregan (el paso Reducir). El marco fue muy exitoso, por lo que otros quisieron replicar el algoritmo. Por lo tanto, una implementación del marco MapReduce fue adoptada por un proyecto de código abierto Apache llamado Hadoop.[38] Apache Spark se desarrolló en 2012 en respuesta a las limitaciones del paradigma MapReduce, ya que agrega la capacidad de configurar muchas operaciones (no solo el mapa seguido de la reducción). MIKE2.0 es un enfoque abierto para la administración de la información que reconoce la necesidad de revisiones debido a las implicaciones de macrodatos identificadas en un artículo titulado "Oferta de soluciones de macrodatos".[39] La metodología aborda el manejo de macrodatos en términos de permutaciones útiles de fuentes de datos, complejidad en interrelaciones y dificultad para eliminar (o modificar) registros individuales.[40] Los estudios de 2012 mostraron que una arquitectura de capas múltiples es una opción para abordar los problemas que presentan los macrodatos. Una arquitectura paralela distribuida distribuye datos entre múltiples servidores; estos entornos de ejecución paralela pueden mejorar drásticamente las velocidades de procesamiento de datos. Este tipo de arquitectura inserta datos en un DBMS paralelo, que implementa el uso de los marcos MapReduce y Hadoop. Este tipo de marco busca hacer que el poder de procesamiento sea transparente para el usuario final mediante el uso de un servidor de aplicaciones para el usuario.[41] El análisis de macrodatos para aplicaciones de fabricación se comercializa como una arquitectura 5C (conexión, conversión, cibernética, cognición y configuración).[42] El lago de datos permite que una organización cambie su enfoque del control centralizado a un modelo compartido para responder a la dinámica cambiante de la administración de la información. Esto permite una segregación rápida de datos en el lago de datos, lo que reduce el tiempo de sobrecarga.[43][44] TecnologíaExisten muchísimas herramientas para el manejo de los macrodatos. Algunos ejemplos incluyen Apache_Hadoop, NoSQL, Apache_Cassandra, inteligencia empresarial, aprendizaje automático y MapReduce. Estas herramientas tratan con algunos de los tres tipos de macrodatos:[45]
Un informe de 2011 del McKinsey Global Institute caracteriza los componentes principales y el ecosistema de macrodatos de la siguiente manera:[47]
Los macrodatos multidimensionales también se pueden representar como cubos de datos o, matemáticamente, tensores. Los sistemas de bases de datos Array se han propuesto proporcionar almacenamiento y soporte de consultas de alto nivel en este tipo de datos. Las tecnologías adicionales que se aplican a los macrodatos incluyen un cálculo basado en tensor eficiente,[48] como el aprendizaje de subespacio multilineal,[49] bases de datos de procesamiento paralelo masivo (MPP), aplicaciones basadas en búsqueda, extracción de datos,[50] sistemas de archivos distribuidos, bases de datos distribuidas, nube e infraestructura basada en HPC(aplicaciones, almacenamiento y recursos informáticos)[51] e Internet. A pesar de que se han desarrollado muchos enfoques y tecnologías, sigue siendo difícil llevar a cabo el aprendizaje automático con grandes datos.[52] Algunas bases de datos relacionales de MPP tienen la capacidad de almacenar y administrar petabytes de datos. Implícita es la capacidad de cargar, supervisar, realizar copias de seguridad y optimizar el uso de las tablas de datos de gran tamaño en el RDBMS.[53] El programa de Análisis Topológico de Datos de DARPA busca la estructura fundamental de los conjuntos de datos masivos y en 2008 la tecnología se hizo pública con el lanzamiento de una compañía llamada Ayasdi.[54] Los profesionales de los procesos de análisis de macrodatos generalmente son hostiles al almacenamiento compartido más lento,[55] prefieren el almacenamiento de conexión directa (DAS) en sus diversas formas, desde unidad de estado sólido (SSD) hasta disco SATA de gran capacidad enterrado dentro de nodos de procesamiento paralelo. La percepción de las arquitecturas de almacenamiento compartidas, la red de área de almacenamiento (SAN) y el almacenamiento conectado a la red (NAS), es que son relativamente lentas, complejas y costosas. Estas cualidades no son consistentes con los sistemas de análisis de datos grandes que prosperan en el rendimiento del sistema, infraestructura de productos básicos y bajo costo. La entrega de información real o casi en tiempo real es una de las características definitorias del análisis de macrodatos. Por lo tanto, se evita la latencia siempre que sea posible. Los datos en la memoria son buenos; los datos en el disco giratorio en el otro extremo de una conexión FC SAN no lo son. El costo de una SAN en la escala necesaria para las aplicaciones analíticas es mucho mayor que otras técnicas de almacenamiento. Hay ventajas y desventajas para el almacenamiento compartido en el análisis de macrodatos, pero los practicantes de análisis de macrodatos a partir de 2011 no lo favorecieron. Captura¿De dónde provienen todos estos datos? Los fabricamos directa e indirectamente segundo tras segundo. Un iPhone hoy en día tiene más capacidad de cómputo que la NASA cuando el ser humano llegó a la Luna,[56] por lo que la cantidad de datos generados por persona y en unidad de tiempo es muy grande. Catalogamos la procedencia de los datos según las siguientes categorías:[57]
TransformaciónUna vez encontradas las fuentes de los datos necesarios, muy posiblemente dispongamos de un sinfín de tablas de origen que no estarán relacionadas. El siguiente objetivo es hacer que los datos se recojan en un mismo lugar y darles un formato adecuado. Aquí entran en juego las plataformas extraer, transformar y cargar (ETL). Su propósito es extraer los datos de las diferentes fuentes y sistemas, para después hacer transformaciones (conversiones de datos, limpieza de datos sucios, cambios de formato, etc.) y finalmente cargar los datos en la base de datos o almacén de datos especificada.[62] Un ejemplo de plataforma ETL es el Pentaho Data Integration, más concretamente su aplicación Spoon. Almacenamiento NoSQLEl término NoSQL se refiere a Not Only SQL (no solo SQL) y son sistemas de almacenamiento que no cumplen con el esquema entidad-relación.[63] Proveen un sistema de almacenamiento mucho más flexible y concurrente y permiten manipular grandes cantidades de información de manera mucho más rápida que las bases de datos relacionales. Distinguimos cuatro grandes grupos de bases de datos NoSQL:
Son útiles para operaciones simples basadas en las claves. Un ejemplo es el aumento de velocidad de carga de un sitio web que puede utilizar diferentes perfiles de usuario, teniendo mapeados los archivos que hay que incluir según el id de usuario y que han sido calculados con anterioridad. Apache Cassandra es la tecnología de almacenamiento clave-valor más reconocida por los usuarios.[66]
CouchDB o MongoDB[66] son quizá las más conocidas. Hay que hacer mención especial a MapReduce, una tecnología de Google inicialmente diseñada para su algoritmo PageRank, que permite seleccionar un subconjunto de datos, agruparlos o reducirlos y cargarlos en otra colección, y a Hadoop que es una tecnología de Apache diseñada para almacenar y procesar grandes cantidades de datos.
Análisis de datosEl análisis permite mirar los datos y explicar lo que está pasando. Teniendo los datos necesarios almacenados según diferentes tecnologías de almacenamiento, nos daremos cuenta que necesitaremos diferentes técnicas de análisis de datos como las siguientes:
Visualización de datosTal y como el Instituto Nacional de Estadística dice en sus tutoriales, «una imagen vale más que mil palabras o que mil datos».[73] La mente agradece mucho más una presentación bien estructurada de resultados estadísticos en gráficos o mapas en vez de en tablas con números y conclusiones. En los macrodatos se llega un paso más allá: parafraseando a Edward Tufte, uno de los expertos en visualización de datos más reconocidos a nivel mundial «el mundo es complejo, dinámico, multidimensional, el papel es estático y plano. ¿Cómo vamos a representar la rica experiencia visual del mundo en la mera planicie?». Mondrian[74] es una plataforma que permite visualizar la información a través de los análisis llevados a cabo sobre los datos que disponemos. Con esta plataforma se intenta llegar a un público más concreto, y una utilidad más acotada como un cuadro de mando integral de una organización. En los últimos años se han generalizado otras plataformas como Tableau, Power BI y Qlik.[75] Por otro lado, las infografías se han vuelto un fenómeno viral, donde se recogen los resultados de los diferentes análisis sobre nuestros datos, y son un material atractivo, entretenido y simplificado para audiencias masivas.[76] AplicacionesLos macrodatos han sido utilizados por la industria de los medios, las empresas y los gobiernos para dirigirse con mayor precisión a su público y aumentar la eficiencia de sus mensajes. Los macrodatos han aumentado la demanda de especialistas en administración de la información tanto que Software AG, Oracle Corporation, IBM, Microsoft, SAP, EMC, HP y Dell han gastado más de $ 15 mil millones en firmas de software especializadas en administración y análisis de datos. En 2010, esta industria valía más de $ 100 mil millones y crecía a casi un 10 por ciento anual: aproximadamente el doble de rápido que el negocio del software en general.[77] Las economías desarrolladas usan cada vez más tecnologías intensivas en datos. Hay 4600 millones de suscripciones de teléfonos móviles en todo el mundo, y entre 1000 y 2000 millones de personas que acceden a Internet. Entre 1990 y 2005, más de mil millones de personas en todo el mundo ingresaron a la clase media, lo que significa que más personas se volvieron más alfabetizadas, lo que a su vez llevó al crecimiento de la información. La capacidad efectiva mundial para intercambiar información a través de redes de telecomunicaciones era de 281 petabytes en 1986, 471 petabytes en 1993, 2.2 exabytes en 2000, 65 exabytes en 2007[78] y las predicciones cifran el tráfico de internet en 667 exabytes anualmente para 2014. Según una estimación, un tercio de la información almacenada en todo el mundo está en forma de texto alfanumérico e imágenes fijas,[79] que es el formato más útil para la mayoría de las aplicaciones de macrodatos. Esto también muestra el potencial de los datos aún no utilizados (es decir, en forma de contenido de video y audio). Si bien muchos proveedores ofrecen soluciones estándar para los macrodatos, los expertos recomiendan el desarrollo de soluciones internas personalizadas para resolver el problema de la compañía si la empresa cuenta con capacidades técnicas suficientes.[80] GobiernoEl uso y la adopción de los macrodatos dentro de los procesos gubernamentales permite eficiencias en términos de costo, productividad e innovación, pero no viene sin sus defectos.[81] El análisis de datos a menudo requiere que varias partes del gobierno (central y local) trabajen en colaboración y creen procesos nuevos para lograr el resultado deseado. Los datos masivos se usan habitualmente para influenciar el proceso democrático. Los representantes del pueblo pueden ver todo lo que hacen los ciudadanos, y los ciudadanos pueden dictar la vida pública de los representantes mediante tuits y otros métodos de extender ideas en la sociedad. Las campañas presidenciales de Obama y Trump los usaron de manera generalizada[82] y hay expertos que advierten de que hay que «reinventar la democracia representativa. Si no, es posible que se convierta en una dictadura de la información».[83] El Banco Interamericano de Desarrollo (BID) ha desarrollado estudios en América Latina en los que presenta distintos casos del uso de los macrodatos en el diseño e implementación de políticas públicas. Destacando intervenciones en temas de movilidad urbana, ciudades inteligentes y seguridad, entre otras temáticas. Las recomendaciones de los mismos han girado en torno a cómo construir instituciones públicas que logren, mediante el uso de datos masivos, a ser más transparentes y ayuden a tomar mejores decisiones.[84] Desarrollo internacionalLa investigación sobre el uso efectivo de las tecnologías de información y comunicación para el desarrollo (también conocido como ICT4D) sugiere que la tecnología de los macrodatos puede hacer contribuciones importantes pero también presentar desafíos únicos para el desarrollo internacional.[85][86] Los avances en el análisis de macrodatos ofrecen oportunidades rentables para mejorar la toma de decisiones en áreas de desarrollo críticas como la atención médica, el empleo, la productividad económica, la delincuencia, la seguridad y el manejo de recursos y desastres naturales.[87] Además, los datos generados por el usuario ofrecen nuevas oportunidades para ofrecer una voz inaudita. Sin embargo, los desafíos de larga data para las regiones en desarrollo, como la infraestructura tecnológica inadecuada y la escasez de recursos económicos y humanos exacerban las preocupaciones existentes con los grandes datos, como la privacidad, la metodología imperfecta y los problemas de interoperabilidad.[87] IndustriaLos macrodatos proporcionan una infraestructura para la transparencia en la industria manufacturera, que es la capacidad de desentrañar incertidumbres como el rendimiento y la disponibilidad de componentes inconsistentes. La fabricación predictiva como un enfoque aplicable para el tiempo de inactividad y la transparencia cercanos a cero requiere una gran cantidad de datos y herramientas de predicción avanzadas para un proceso sistemático de datos en información útil.[88] Un marco conceptual de fabricación predictiva comienza con la adquisición de datos donde se encuentran disponibles diferentes tipos de datos sensoriales, tales como acústica, vibración, presión, corriente, voltaje y datos de controlador. Una gran cantidad de datos sensoriales, además de los datos históricos, construyen los grandes datos en la fabricación. Los macrodatos generados actúan como la entrada en herramientas predictivas y estrategias preventivas como Pronósticos y Gestión de Salud (PHM).[89] MediosLos profesionales en medios y publicidad abordan los grandes datos como muchos puntos de información procesables sobre millones de personas. La industria parece alejarse del enfoque tradicional de utilizar entornos de medios específicos, como periódicos, revistas o programas de televisión, y en su lugar aprovecha a los consumidores con tecnologías que llegan a las personas objetivo en momentos óptimos en ubicaciones óptimas. El objetivo final es servir o transmitir, un mensaje o contenido que (estadísticamente hablando) esté en línea con la mentalidad del consumidor. Por ejemplo, los entornos de publicación adaptan cada vez más los mensajes (anuncios publicitarios) y el contenido (artículos) para atraer a los consumidores que han sido recolectados exclusivamente a través de diversas actividades de extracción de datos.[90]
MúsicaEl reconocimiento de emociones musicales (REM) (Music Emotion Recognition MER) es un campo de investigación científica reciente y en plena evolución. A grandes rasgos se puede decir que el REM gira en torno a varias ideas respecto a la comprensión psicológica de la relación entre el afecto humano y la música. Una de las ideas centrales del REM radica en la capacidad de poder determinar mediante sistemas automáticos ingresando diversos datos (señales musicales) y variables (parámetros computacionales), cuáles y qué tipo de emociones son percibidas desde las composiciones musicales, e intentan percibir cómo cada una de las formas de sus rasgos estructurales pueden producir cierto tipo de reacciones características en los oyentes.[92] SegurosLos proveedores de seguro médico recopilan datos sobre "determinantes sociales", como el consumo de alimentos y televisión, el estado civil, el tamaño de la vestimenta y los hábitos de compra, desde los cuales hacen predicciones sobre los costos de salud para detectar problemas de salud en sus clientes. Es controvertido si estas predicciones se están utilizando actualmente para fijar precios.[93] DeportesEn un ámbito donde se mueve tanto dinero, suelen utilizar las nuevas tecnologías antes que los usuarios de base. Nos encontramos por ejemplo que el análisis de los partidos constituye una parte fundamental en el entrenamiento de los profesionales, y la toma de decisiones de los entrenadores. Amisco[94] es un sistema aplicado por equipos de algunas de las ligas más importantes de Europa desde el 2001. Consta de 8 cámaras y diversos ordenadores instalados en los estadios, que registran los movimientos de los jugadores a razón de 25 registros por segundo, y luego envían los datos a una central donde hacen un análisis masivo de los datos. La información que se devuelve como resultado incluye una reproducción del partido en dos dimensiones, los datos técnicos y estadísticas, y un resumen de los datos físicos de cada jugador, permitiendo seleccionar varias dimensiones y visualizaciones diferentes de datos.[94] FinanzasEl crecimiento de datos en el mundo financiero obliga al uso de los macrodatos para el procesamiento rápido de datos, segmentación avanzada de clientes, creación de estrategias de precios dinámicos, gestión de riesgos, prevención de fraudes, apoyo en la toma de decisiones, detectar tendencias de consumo, definir nuevas formas de hacer mejor las cosas, detectar alertas y otro tipo de eventos complejos, hacer un seguimiento avanzado de la competencia.[95] Mercadotecnia y ventasLos macrodatos cada vez se utilizan más para segmentación avanzada de los consumidores, automatizar la personalización de los productos, adaptar las comunicaciones al momento del ciclo de venta, captar nuevas oportunidades de venta, apoyo en la toma de decisiones a tiempo real, gestión de crisis.[96][97] InvestigaciónLa búsqueda encriptada y la formación de grupos de macrodatos se demostraron en marzo de 2014 en la Sociedad Estadounidense de Educación en Ingeniería. Gautam Siwach participó en abordar los desafíos de macrodatos por el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y Amir Esmailpour, en el Grupo de Investigación de UNH, investigó las características clave de macrodatos como la formación de clusters y sus interconexiones. Se centraron en la seguridad de los macrodatos y la orientación del término hacia la presencia de diferentes tipos de datos en forma cifrada en la interfaz de la nube al proporcionar las definiciones sin procesar y los ejemplos de tiempo real dentro de la tecnología. Además, propusieron un enfoque para identificar la técnica de codificación para avanzar hacia una búsqueda acelerada sobre texto encriptado que conduzca a las mejoras de seguridad en macrodatos.[98] En marzo de 2012, la Casa Blanca anunció una "Iniciativa de macrodatos" nacional que consistía en seis departamentos y agencias federales comprometiendo más de $ 200 millones para proyectos de investigación de macrodatos. La iniciativa incluyó una subvención de la National Science Foundation "Expeditions in Computing" de $ 10 millones durante 5 años para el AMPLab[99] en la Universidad de California, Berkeley.[100] El AMPLab también recibió fondos de DARPA, y más de una docena de patrocinadores industriales y utiliza macrodatos para atacar una amplia gama de problemas, desde predecir la congestión del tráfico[101] hasta combatir el cáncer.[102] La Iniciativa de macrodatos de la Casa Blanca también incluyó un compromiso del Departamento de Energía de proporcionar $ 25 millones en financiamiento durante 5 años para establecer el Instituto de Administración, Análisis y Visualización de Datos Escalables (SDAV),[103] dirigido por Lawrence Berkeley National Laboratory del Departamento de Energía. Laboratorio. El Instituto SDAV tiene como objetivo reunir la experiencia de seis laboratorios nacionales y siete universidades para desarrollar nuevas herramientas que ayuden a los científicos a gestionar y visualizar datos en las supercomputadoras del Departamento. El estado de Massachusetts anunció la Iniciativa de macrodatos de Massachusetts en mayo de 2012, que proporciona fondos del gobierno estatal y de empresas privadas a una variedad de instituciones de investigación. El Instituto de Tecnología de Massachusetts alberga el Centro de Ciencia y Tecnología de Intel para los macrodatos en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, que combina fondos y esfuerzos de investigación gubernamentales, corporativos e institucionales.[104] La Comisión Europea está financiando el Foro público privado de macrodatos, que duró dos años, a través de su Séptimo Programa de Framework para involucrar a empresas, académicos y otras partes interesadas en la discusión de problemas de macrodatos. El proyecto tiene como objetivo definir una estrategia en términos de investigación e innovación para guiar las acciones de apoyo de la Comisión Europea en la implementación exitosa de la economía de macrodatos. Los resultados de este proyecto se utilizarán como aportación para Horizonte 2020, su próximo programa. El gobierno británico anunció en marzo de 2014 la fundación del Instituto Alan Turing, que lleva el nombre del pionero de la informática y el descifrador de códigos, que se centrará en nuevas formas de recopilar y analizar grandes conjuntos de datos.[105] En el Día de la Inspiración del Canadian Open Data Experience (CODE) de la Universidad de Waterloo Stratford Campus, los participantes demostraron cómo el uso de la visualización de datos puede aumentar la comprensión y el atractivo de los grandes conjuntos de datos y comunicar su historia al mundo.[106] Para que la fabricación sea más competitiva en los Estados Unidos (y en el mundo), es necesario integrar más ingenio e innovación estadounidenses en la fabricación; Por lo tanto, la National Science Foundation ha otorgado al centro de investigación cooperativa Industry Industry para Intelligent Maintenance Systems (IMS) en la Universidad de Cincinnati para que se concentre en el desarrollo de herramientas y técnicas predictivas avanzadas aplicables en un entorno de macrodatos.[107] En mayo de 2013, el IMS Center celebró una reunión de la junta asesora de la industria centrada en los macrodatos, donde presentadores de varias compañías industriales discutieron sus preocupaciones, problemas y objetivos futuros en el entorno de macrodatos. Ciencias sociales computacionales: cualquier persona puede usar Interfaces de programación de aplicaciones (API) proporcionadas por grandes titulares de datos, como Google y Twitter, para realizar investigaciones en las ciencias sociales y del comportamiento.[108] A menudo, estas API se proporcionan de forma gratuita. Tobias Preis usó los datos de Tendencias de Google para demostrar que los usuarios de Internet de países con un producto interno bruto (PIB) per cápita más alto tienen más probabilidades de buscar información sobre el futuro que la información sobre el pasado. Los hallazgos sugieren que puede haber un vínculo entre el comportamiento en línea y los indicadores económicos del mundo real.[109][110][111] Los autores del estudio examinaron los registros de consultas de Google realizados por la relación del volumen de búsquedas para el año siguiente ('2011') con el volumen de búsquedas del año anterior ('2009'), al que denominaron 'índice de orientación futura'.[112] Compararon el índice de orientación futura con el PIB per cápita de cada país y encontraron una fuerte tendencia en los países donde los usuarios de Google informan más sobre el futuro para tener un PIB más alto. Los resultados sugieren que potencialmente puede haber una relación entre el éxito económico de un país y el comportamiento de búsqueda de información de sus ciudadanos capturado en macrodatos. Tobias Preis y sus colegas Helen Susannah Moat y H. Eugene Stanley introdujeron un método para identificar los precursores en línea de los movimientos bursátiles, utilizando estrategias de negociación basadas en los datos del volumen de búsquedas provistos por Google Trends.[113] Su análisis del volumen de búsqueda de Google para 98 términos de relevancia financiera variable, publicado en Scientific Reports,[114] sugiere que los aumentos en el volumen de búsqueda para términos de búsqueda relevantes financieramente tienden a preceder grandes pérdidas en los mercados financieros.[115][116][113][117][118][119] Los grandes conjuntos de datos vienen con desafíos algorítmicos que anteriormente no existían. Por lo tanto, existe una necesidad de cambiar fundamentalmente las formas de procesamiento. Los talleres sobre algoritmos para conjuntos de datos masivos modernos (MMDS) reúnen a científicos informáticos, estadísticos, matemáticos y profesionales del análisis de datos para analizar los desafíos algorítmicos de macrodatos.[120] Muestreo de datos masivosUna pregunta de investigación importante que se puede hacer sobre los conjuntos de datos grandes es si necesita ver los datos completos para sacar ciertas conclusiones sobre las propiedades de los datos o si una muestra es lo suficientemente buena. El nombre macrodatos contiene un término relacionado con el tamaño, y esta es una característica importante de los macrodatos. Pero el muestreo (estadísticas) permite la selección de puntos de datos correctos dentro del conjunto de datos más grande para estimar las características de toda la población. Por ejemplo, hay alrededor de 600 millones de tuits producidos todos los días. ¿Es necesario mirarlos a todos para determinar los temas que se discuten durante el día? ¿Es necesario mirar todos los tuits para determinar el sentimiento sobre cada uno de los temas? En la fabricación de diferentes tipos de datos sensoriales, como acústica, vibración, presión, corriente, voltaje y datos del controlador están disponibles en intervalos de tiempo cortos. Para predecir el tiempo de inactividad, puede que no sea necesario examinar todos los datos, pero una muestra puede ser suficiente. los macrodatos se pueden desglosar por varias categorías de puntos de datos, como datos demográficos, psicográficos, de comportamiento y transaccionales. Con grandes conjuntos de puntos de datos, los especialistas en marketing pueden crear y utilizar segmentos de consumidores más personalizados para una orientación más estratégica. Se han realizado algunos trabajos en algoritmos de muestreo para los macrodatos. Se ha desarrollado una formulación teórica para el muestreo de datos de Twitter.[121] Salud y medicinaHacia mediados del 2009, el mundo experimentó una pandemia de gripe A, llamada gripe porcina o H1N1. La web Google Flu Trends[122] intentó predecirla a partir de los resultados de las búsquedas. Google Flu Trends usaba los datos de las búsquedas de los usuarios que contenían síntomas parecidos a la enfermedad de la gripe y los agrupó según ubicación y fecha, y pretendía predecir la actividad de la gripe hasta con dos semanas de antelación más que los sistemas tradicionales. Sin embargo, en el 2013 se descubrió que predijo el doble de visitas al médico de las que hubo en realidad. Sus creadores cometieron dos errores: a) la nueva herramienta había generado muchísimo interés en el público, que la consultaba más por curiosidad que por necesidad, lo que generó ruido en la información, y b) los algoritmos de predicción de los buscadores. En un artículo en la revista Science en el 2014, se analizaron los errores cometidos por Google Flu Trends: "querer sustituir con técnicas de datos masivos los métodos más tradicionales y probados de recolección y análisis de datos, en vez de sólo aplicar dichas técnicas como complemento, como hizo Brittany Wenger con Cloud4cancer". Google Flu Trends dejó de funcionar.[123] Más concretamente, en Nueva Zelanda[124] cruzaron los datos de las tendencias de gripe de Google con datos existentes de los sistemas de salud nacionales, y comprobaron que estaban alineados. Los gráficos mostraron una correlación con las búsquedas de síntomas relacionados con la gripe y la extensión de la pandemia en el país. Los países con sistemas de predicción poco desarrollados pueden beneficiarse de una predicción fiable y pública para abastecer a su población de las medidas de seguridad oportunas. Entre 1853 y 1854, en Londres, una epidemia de cólera mató a miles de personas. El médico John Snow estudió los registros de defunciones, y descubrió que la mayor parte de los casos se presentaron en un barrio específico: las personas habían bebido agua de un mismo pozo. Cuando lo clausuraron, el número de casos comenzó a disminuir.[123] En el 2012, en la Feria de Ciencias de Google, Brittany Wenger, estudiante de 18 años, presentó el proyecto de diseño de un software para ayudar al diagnóstico temprano del cáncer de mama. Denominó a la plataforma Cloud4cancer, que utiliza una red de inteligencia artificial y las bases de datos de los hospitales para diferenciar una muestra de un tejido benigno de una de un tumor maligno. El sistema inteligente diseñado por Wenger distingue en segundos los dos tipo de tumores, ingresando a la plataforma las características observadas. Es posible que este sistema se aplique más adelante a otros padecimientos, como la leucemia.[123] Defensa y seguridadPara incrementar la seguridad frente a los ataques de las propias organizaciones, ya sean empresas en el entorno económico o los propios ministerios de defensa en el entorno de ciberataques, se contempla la utilidad de las tecnologías de macrodatos en escenarios como la vigilancia y seguridad de fronteras, lucha contra el terrorismo y crimen organizado, contra el fraude, planes de seguridad ciudadana o planeamiento táctico de misiones e inteligencia militar.[125] Caso específico del proyecto AlojaEl proyecto Aloja[126] ha sido iniciado por una apuesta en común del Barcelona Supercomputing Center (BSC) y Microsoft Research. El objetivo de este proyecto de macrodatos quiere «conseguir una optimización automática en despliegues de Hadoop en diferentes infraestructuras». Caso específico de sostenibilidadConservation International es una organización con el propósito de concienciar a la sociedad de cuidar el entorno de una manera responsable y sostenible. Con la ayuda de la plataforma Vertica Analytics de HP, han situado 1000 cámaras a lo largo de dieciséis bosques en cuatro continentes. Estas cámaras incorporan unos sensores, y a modo de cámara oculta graban el comportamiento de la fauna. Con estas imágenes y los datos de los sensores (precipitaciones, temperatura, humedad, solar…) consiguen información sobre cómo el cambio climático o el desgaste de la tierra afecta en su comportamiento y desarrollo.[127] CríticasLas críticas al paradigma de los macrodatos vienen en dos formas, aquellas que cuestionan las implicaciones del enfoque en sí mismo, y las que cuestionan la forma en que se realiza actualmente.[128] Un enfoque de esta crítica es el campo de los estudios de datos críticos. Críticas al paradigma de los grandes datos"Un problema crucial es que no sabemos mucho sobre los microprocesos empíricos subyacentes que conducen a la aparición de las [se] características de red típicas de los macrodatos".[129] En su crítica, Snijders, Matzat y Reips señalan que a menudo se hacen suposiciones muy fuertes sobre las propiedades matemáticas que pueden no reflejar en absoluto lo que realmente está sucediendo a nivel de los microprocesos. Mark Graham ha criticado ampliamente la afirmación de Chris Anderson de que los macrodatos marcarán el final de la teoría:[130] centrándose en particular en la noción de que los macrodatos siempre deben contextualizarse en sus contextos sociales, económicos y políticos.[131] Incluso cuando las empresas invierten sumas de ocho y nueve cifras para obtener información de la transmisión de información de proveedores y clientes, menos del 40 % de los empleados tienen procesos y habilidades suficientemente maduros para hacerlo. Para superar este déficit de perspicacia, los grandes datos, sin importar cuán exhaustivos o bien analizados, se complementen con un "gran juicio", según un artículo de Harvard Business Review.[132] En la misma línea, se ha señalado que las decisiones basadas en el análisis de los macrodatos inevitablemente "están informadas por el mundo como lo fueron en el pasado o, en el mejor de los casos, como lo es actualmente". Alimentados por una gran cantidad de datos sobre experiencias pasadas, los algoritmos pueden predecir el desarrollo futuro si el futuro es similar al pasado.[133] Si la dinámica de sistemas del futuro cambia (si no es un proceso estacionario), el pasado puede decir poco sobre el futuro. Para hacer predicciones en entornos cambiantes, sería necesario tener un conocimiento profundo de la dinámica de los sistemas, que requiere teoría. Como respuesta a esta crítica, Alemany Oliver y Vayre sugirieron usar el "razonamiento abductivo como un primer paso en el proceso de investigación para traer contexto a las huellas digitales de los consumidores y hacer que emerjan nuevas teorías".[134] Además, se ha sugerido combinar enfoques de macrodatos con simulaciones por computadora, tales como modelos basados en agentes y Sistemas Complejos. Los modelos basados en agentes son cada vez mejores para predecir el resultado de las complejidades sociales de escenarios futuros incluso desconocidos a través de simulaciones por computadora que se basan en una colección de algoritmos mutuamente interdependientes.[135][136] Finalmente, el uso de métodos multivariantes que exploran la estructura latente de los datos, como el análisis factorial y el análisis de conglomerados, han demostrado ser útiles como enfoques analíticos que van más allá de los enfoques bi-variados (tablas cruzadas) típicamente empleados con conjuntos de datos más pequeños. En salud y biología, los enfoques científicos convencionales se basan en la experimentación. Para estos enfoques, el factor limitante es la información relevante que puede confirmar o refutar la hipótesis inicial.[137] Ahora se acepta un nuevo postulado en ciencias biológicas: la información provista por los datos en grandes volúmenes (ómicas) sin hipótesis previas es complementaria y a veces necesaria para los enfoques convencionales basados en la experimentación.[138] En los enfoques masivos, la formulación de una hipótesis relevante para explicar los datos es el factor limitante.[139] La lógica de búsqueda se invierte y se deben considerar los límites de la inducción ("Gloria de la ciencia y el escándalo de la filosofía", C. D. Broad, 1926). Los defensores de la privacidad están preocupados por la amenaza a la privacidad que representa el aumento del almacenamiento y la integración de la información de identificación personal; los paneles de expertos han publicado varias recomendaciones de políticas para adaptar la práctica a las expectativas de privacidad.[140][141][142] El uso indebido de los macrodatos en varios casos por los medios, las empresas e incluso el gobierno ha permitido la abolición de la confianza en casi todas las instituciones fundamentales que sostienen a la sociedad.[143] Nayef Al-Rodhan sostiene que se necesitará un nuevo tipo de contrato social para proteger las libertades individuales en un contexto de macrodatos y corporaciones gigantes que poseen grandes cantidades de información. El uso de los macrodatos debería supervisarse y regularse mejor a nivel nacional e internacional.[144] Barocas y Nissenbaum argumentan que una forma de proteger a los usuarios individuales es informando sobre los tipos de información que se recopila, con quién se comparte, bajo qué limitaciones y con qué fines.[145] El peligro de los macrodatos se puede ver también en el impacto que tiene en el sistema educativo. Los estudiantes pueden verse afectados negativamente por el miedo a ser supervisados, lo que afecta a su bienestar y genera estrés relacionado con su desempeño. Por lo tanto, la privacidad es esencial para garantizar que los estudiantes estén protegidos.[146] Críticas del modelo 'V'El modelo 'V' de macrodatos es concertante ya que se centra en la escalabilidad computacional y carece de una pérdida en torno a la perceptibilidad y la comprensibilidad de la información. Esto llevó a los macrodatos cognitivos, que caracterizan la aplicación macrodatos de acuerdo con:[147]
Crítica de la novedadGrandes conjuntos de datos han sido analizados por máquinas de computación durante más de un siglo, incluida la analítica del censo estadounidense realizada en 1890 por las máquinas de tarjetas perforadas de IBM que computaron estadísticas que incluían medias y variaciones de poblaciones en todo el continente. En décadas más recientes, experimentos científicos como el CERN han producido datos en escalas similares a los "grandes datos" comerciales actuales. Sin embargo, los experimentos científicos han tendido a analizar sus datos utilizando clusters y grids especializados de computación de alto rendimiento (supercomputación), en lugar de nubes de computadoras básicas baratas como en la ola comercial actual, lo que implica una diferencia en la cultura y la tecnología. Críticas de la ejecución de los macrodatosUlf-Dietrich Reips y Uwe Matzat escribieron en 2014 que los macrodatos se habían convertido en una "moda" en la investigación científica. La investigadora danah boyd ha expresado su preocupación sobre el uso de los macrodatos en la ciencia, descuidando principios como elegir una muestra representativa por estar demasiado preocupado por manejar grandes cantidades de datos.[148] Este enfoque puede generar sesgos en los resultados de una forma u otra. La integración a través de recursos de datos heterogéneos -algunos que pueden considerarse grandes datos y otros no- presenta desafíos logísticos y analíticos formidables, pero muchos investigadores sostienen que tales integraciones probablemente representen las nuevas fronteras más prometedoras en la ciencia.[149] En el provocativo artículo "Preguntas críticas para macrodatos",[150] los autores titulan macrodatos como parte de la mitología: "los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento [...], con el aura de la verdad, la objetividad y precisión". Los usuarios de macrodatos a menudo "se pierden en el gran volumen de números", y "trabajar con macrodatos sigue siendo subjetivo, y lo que cuantifica no necesariamente tiene un reclamo más cercano sobre la verdad objetiva". Los desarrollos recientes en el dominio de BI, como los informes proactivos, apuntan especialmente a mejoras en la usabilidad de macrodatos, a través del filtrado automatizado de datos y correlaciones no útiles.[151] El análisis de macrodatos suele ser poco profundo en comparación con el análisis de conjuntos de datos más pequeños. [194] En muchos proyectos de macrodatos, no hay grandes análisis de datos, pero el desafío es extraer, transformar y cargar parte del preprocesamiento de datos.[152] Macrodatos es una palabra de moda y un "término vago",[153][139] pero al mismo tiempo una "obsesión" con empresarios, consultores, científicos y medios de comunicación. Las muestras de datos grandes como Google Flu Trends no generaron buenas predicciones en los últimos años, lo que exageró los brotes de gripe en un factor de dos. Del mismo modo, los premios de la Academia y las predicciones electorales basadas únicamente en Twitter fueron más a menudo fuera del objetivo. Los grandes datos a menudo presentan los mismos desafíos que los datos pequeños; agregar más datos no resuelve los problemas de sesgo, pero puede enfatizar otros problemas. En particular, las fuentes de datos como Twitter no son representativas de la población en general, y los resultados extraídos de dichas fuentes pueden dar lugar a conclusiones erróneas. Google Translate, que se basa en el análisis estadístico de los macrodatos de textos, hace un buen trabajo al traducir páginas web. Sin embargo, los resultados de dominios especializados pueden ser dramáticamente sesgados. Por otro lado, los macrodatos también pueden introducir nuevos problemas, como el problema de las comparaciones múltiples: la prueba simultánea de un gran conjunto de hipótesis probablemente produzca muchos resultados falsos que erróneamente parecen significativos. Ioannidis argumentó que "la mayoría de los resultados de investigación publicados son falsos"[154] debido esencialmente al mismo efecto: cuando muchos equipos científicos e investigadores realizan cada uno experimentos (es decir, procesan una gran cantidad de datos científicos, aunque no con macrodatos), la probabilidad de que un resultado "significativo" sea falso crece rápidamente, incluso más cuando se publican resultados positivos. Además, los resultados del análisis de macrodatos son tan buenos como el modelo en el que se basan. En un ejemplo, macrodatos participó en el intento de predecir los resultados de las elecciones presidenciales de EE. UU. en 2016[155] con diversos grados de éxito. Forbes predijo: "Si usted cree en el análisis de macrodatos, es hora de comenzar a planificar para la presidencia de Hillary Clinton y todo lo que eso implica".[156] Criminalística algorítmicaLos algoritmos analizan grandes cantidades de datos para predecir comportamientos delictivos. Sin embargo, esta práctica plantea serias interrogantes éticas sobre la privacidad y el potencial sesgo en las decisiones basadas en datos, lo que subraya la necesidad de un debate informado y políticas regulatorias que salvaguarden los derechos individuales en la era de los macrodatos.[157] Virtualización de los macrodatosLa virtualización de los macrodatos es una forma de recopilar información de múltiples fuentes en el mismo lugar. El ensamblaje es virtual: a diferencia de otros métodos, la mayoría de los datos permanecen en su lugar y se toman bajo demanda directamente desde el sistema de origen.[158] Véase tambiénReferencias
Enlaces externos
|