Datos sintéticos

Los datos sintéticos (en inglés: "Synthetic data") son datos generados artificialmente en lugar de producidos por eventos del mundo real. Los datos sintéticos, que suelen crearse mediante algoritmos, se pueden utilizar para validar modelos matemáticos y entrenar modelos de aprendizaje automático.[1]

Los datos generados por una simulación por ordenador pueden considerarse datos sintéticos. Esto abarca la mayoría de las aplicaciones de modelado físico, como los sintetizadores musicales o los simuladores de vuelo. El resultado de estos sistemas se aproxima al real, pero se genera completamente mediante algoritmos.

Los datos sintéticos se utilizan en diversos campos como filtro de información que, de otro modo, comprometería la confidencialidad de determinados aspectos de los datos. En muchas aplicaciones sensibles, los conjuntos de datos existen teóricamente, pero no pueden divulgarse al público en general;[2]​ los datos sintéticos evitan los problemas de privacidad que surgen del uso de información real de los consumidores sin permiso ni compensación.

Utilidad

Los datos sintéticos se generan para satisfacer necesidades específicas o ciertas condiciones que pueden no encontrarse en los datos reales originales. Uno de los obstáculos en la aplicación de enfoques de aprendizaje automático actualizados para tareas científicas complejas es la escasez de datos etiquetados, una brecha que se supera de manera eficaz mediante el uso de datos sintéticos, que replican de manera cercana los datos experimentales reales.[3]​ Esto puede ser útil al diseñar muchos sistemas, desde simulaciones basadas en valores teóricos hasta procesadores de bases de datos, etc. Esto ayuda a detectar y resolver problemas inesperados, como limitaciones en el procesamiento de la información. Los datos sintéticos a menudo se generan para representar los datos auténticos y permiten establecer una línea de base.[4]​ Otro beneficio de los datos sintéticos es proteger la privacidad y confidencialidad de los datos auténticos, al tiempo que permiten su uso en sistemas de prueba.

El resumen de un artículo científico, citado a continuación, describe un software que genera datos sintéticos para probar sistemas de detección de fraudes. "Esto nos permite crear perfiles de comportamiento realistas para usuarios y atacantes. Los datos se utilizan para entrenar al propio sistema de detección de fraudes, creando así la adaptación necesaria del sistema a un entorno específico".[4]​ En contextos militares y de defensa, los datos sintéticos se consideran una herramienta potencialmente valiosa para desarrollar y mejorar sistemas de IA complejos, particularmente en contextos donde los datos del mundo real de alta calidad son escasos.[5]​ Al mismo tiempo, los datos sintéticos junto con el enfoque de prueba pueden brindar la capacidad de modelar

Historia

El modelado científico de sistemas físicos, que permite ejecutar simulaciones en las que se pueden estimar, calcular y generar puntos de datos que no se han observado en la realidad real, tiene una larga historia que transcurre simultáneamente con la historia de la física misma. Por ejemplo, la investigación sobre la síntesis de audio (síntesis por modelado físico) y voz (síntesis de habla) se remonta a la década de 1930 y antes, impulsada por los avances, por ejemplo, del teléfono y la grabación de audio. La digitalización dio lugar a los sintetizadores de software a partir de la década de 1970.

En el contexto del análisis estadístico que preserva la privacidad, en 1993, Donald Rubin creó la idea de los datos originales totalmente sintéticos.[6]​ Rubin diseñó originalmente esto para sintetizar las respuestas del formulario largo del Censo Decenal para los hogares con formulario corto. Luego publicó muestras que no incluían ningún registro real del formulario largo; con esto preservó el anonimato del hogar.[7]​ Más tarde ese año, Little creó la idea de los datos originales parcialmente sintéticos. Little utilizó esta idea para sintetizar los valores sensibles en el archivo de uso público.[8]

Un trabajo de 1993 ajustó un modelo estadístico a 60.000 dígitos de la base de datos MNIST y luego lo utilizó para generar más de un millón de ejemplos.[9]​ Estos se utilizaron para entrenar un LeNet-4 para alcanzar un rendimiento de última generación.[10]

En 1994, Fienberg propuso la idea del refinamiento crítico, en el que utilizó una distribución predictiva posterior paramétrica (en lugar de un bootstrap de Bayes) para realizar el muestreo.[7]​ Más tarde, otros contribuyentes importantes al desarrollo de la generación de datos sintéticos fueron Trivellore Raghunathan, Jerry Reiter, Donald Rubin, John M. Abowd y Jim Woodcock. En conjunto, propusieron una solución para tratar los datos parcialmente sintéticos con datos faltantes. De manera similar, propusieron la técnica de imputación multivariante de regresión secuencial.[7]

Cálculos

Los investigadores prueban el marco en datos sintéticos, que son "la única fuente de verdad fundamental con la que pueden evaluar objetivamente el rendimiento de sus algoritmos".[11]

Los datos sintéticos se pueden generar mediante el uso de líneas aleatorias, con diferentes orientaciones y posiciones iniciales.[12]​ Los conjuntos de datos pueden volverse bastante complicados. Se puede generar un conjunto de datos más complicado mediante el uso de una construcción de sintetizador. Para crear una construcción de sintetizador, primero use los datos originales para crear un modelo o ecuación que se ajuste mejor a los datos. Este modelo o ecuación se llamará construcción de sintetizador. Esta construcción se puede utilizar para generar más datos.[13]

La construcción de un sintetizador implica la construcción de un modelo estadístico. En un ejemplo de línea de regresión lineal, se pueden representar gráficamente los datos originales y se puede crear una línea lineal de mejor ajuste a partir de los datos. Esta línea es un sintetizador creado a partir de los datos originales. El siguiente paso será generar más datos sintéticos a partir de la construcción del sintetizador o de esta ecuación de línea lineal. De esta manera, los nuevos datos se pueden utilizar para estudios e investigaciones, y se protege la confidencialidad de los datos originales.[13]

David Jensen, del Knowledge Discovery Laboratory, explica cómo generar datos sintéticos: "Los investigadores necesitan con frecuencia explorar los efectos de ciertas características de los datos en su modelo de datos".[13]​ Para ayudar a construir conjuntos de datos que exhiban propiedades específicas, como autocorrelación o disparidad de grados, la proximidad puede generar datos sintéticos que tengan uno de varios tipos de estructura gráfica: gráficos aleatorios que se generan mediante algún proceso aleatorio; gráficos reticulares que tienen una estructura de anillo; gráficos reticulares que tienen una estructura de cuadrícula, etc.[13]​ En todos los casos, el proceso de generación de datos sigue el mismo proceso:

  • Generar la estructura gráfica vacía.
  • Generar valores de atributos basados en probabilidades previas proporcionadas por el usuario.

Dado que los valores de los atributos de un objeto pueden depender de los valores de los atributos de objetos relacionados, el proceso de generación de atributos asigna valores colectivamente.[13]

Aplicaciones

Sistemas de detección de fraude y confidencialidad

Los sistemas de detección de fraudes y de confidencialidad se prueban y entrenan utilizando datos sintéticos. Se diseñan algoritmos y generadores específicos para crear datos realistas,[14]​ que luego ayudan a enseñarle al sistema cómo reaccionar ante determinadas situaciones o criterios. Por ejemplo, el software de detección de intrusiones se prueba utilizando datos sintéticos. Estos datos son una representación de los datos auténticos y pueden incluir instancias de intrusión que no se encuentran en los datos auténticos. Los datos sintéticos permiten que el software reconozca estas situaciones y reaccione en consecuencia. Si no se utilizaran datos sintéticos, el software solo se entrenaría para reaccionar ante las situaciones proporcionadas por los datos auténticos y podría no reconocer otro tipo de intrusión.[4]

Investigación científica

Los investigadores que realizan ensayos clínicos o cualquier otra investigación pueden generar datos sintéticos para ayudar a crear una base para estudios y pruebas futuros.

Los datos reales pueden contener información que los investigadores no quieren que se divulgue,[15]​ por lo que a veces se utilizan datos sintéticos para proteger la privacidad y confidencialidad de un conjunto de datos. El uso de datos sintéticos reduce los problemas de confidencialidad y privacidad, ya que no contienen información personal y no se puede rastrear a ningún individuo.

Aprendizaje automático

Los datos sintéticos se utilizan cada vez más para aplicaciones de aprendizaje automático: se entrena un modelo en un conjunto de datos generados sintéticamente con la intención de transferir el aprendizaje a datos reales. Se han hecho esfuerzos para permitir más experimentos de ciencia de datos mediante la construcción de generadores de datos sintéticos de propósito general, como Synthetic Data Vault.[16]​ En general, los datos sintéticos tienen varias ventajas naturales:

  • Una vez que el entorno sintético está listo, es rápido y barato producir tantos datos como se necesiten;
  • Los datos sintéticos pueden tener etiquetas perfectamente precisas, incluso etiquetas que pueden ser muy costosas o imposibles de obtener a mano;
  • El entorno sintético se puede modificar para mejorar el modelo y el entrenamiento;
  • Los datos sintéticos pueden utilizarse como sustituto de ciertos segmentos de datos reales que contienen, por ejemplo, información confidencial.

Este uso de datos sintéticos se ha propuesto para aplicaciones de visión por computadora, en particular la detección de objetos, donde el entorno sintético es un modelo 3D del objeto,[17]​ y el aprendizaje para navegar en entornos mediante información visual.

Al mismo tiempo, el aprendizaje por transferencia sigue siendo un problema no trivial y los datos sintéticos aún no se han vuelto omnipresentes. Los resultados de las investigaciones indican que agregar una pequeña cantidad de datos reales mejora significativamente el aprendizaje por transferencia con datos sintéticos. Los avances en las redes generativas antagónicas (GAN) conducen a la idea natural de que uno puede producir datos y luego usarlos para entrenamiento. Desde al menos 2016, este entrenamiento antagónico se ha utilizado con éxito para producir datos sintéticos de calidad suficiente para producir resultados de vanguardia en algunos dominios, sin siquiera tener que volver a mezclar datos reales con los datos sintéticos generados.[18]

Ejemplos

En 1987, un vehículo autónomo Navlab utilizó 1200 imágenes sintéticas de carreteras como método de entrenamiento.[19]

En 2021, Microsoft publicó una base de datos de 100.000 rostros sintéticos basados en (500 rostros reales) que afirma "coincidir con los datos reales en precisión".[19][20]

En 2023, la revista Nature publicó una portada de su serie Nature's 10 diseñada por Kim Albrecht del proyecto "Artificial Worldviews".[21]​ La portada presenta un mapeo de más de 18.000 puntos de datos generados sintéticamente a partir de ChatGPT sobre las categorías de conocimiento.

Véase también

Referencias

  1. «What is synthetic data? - Definition from WhatIs.com». SearchCIO (en inglés). Consultado el 8 de septiembre de 2022. 
  2. Nikolenko, Sergey I. (2021). Synthetic Data for Deep Learning. Springer Optimization and Its Applications (en inglés) 174. ISBN 978-3-030-75177-7. S2CID 202750227. doi:10.1007/978-3-030-75178-4. 
  3. Zivenko, Oleksii; Walton, Noah A. W.; Fritsch, William; Forbes, Jacob; Lewis, Amanda M.; Clark, Aaron; Brown, Jesse M.; Sobes, Vladimir (2024-06-03). «Validating Automated Resonance Evaluation with Synthetic Data». arXiv:2406.01754  [physics.comp-ph]. 
  4. a b c Barse, E.L.; Kvarnström, H.; Jonsson, E. (2003). Synthesizing test data for fraud detection systems. Proceedings of the 19th Annual Computer Security Applications Conference. IEEE. doi:10.1109/CSAC.2003.1254343. 
  5. Deng, Harry (30 November 2023). «Exploring Synthetic Data for Artificial Intelligence and Autonomous Systems: A Primer». United Nations Institute for Disarmament Research. 
  6. «Discussion: Statistical Disclosure Limitation». Journal of Official Statistics 9: 461-468. 1993. 
  7. a b c Abowd, John M. «Confidentiality Protection of Social Science Micro Data: Synthetic Data and Related Methods. [Powerpoint slides]». Consultado el 17 February 2011. 
  8. «Statistical Analysis of Masked Data». Journal of Official Statistics 9: 407-426. 1993. 
  9. Drucker, Harris; Schapire, Robert; Simard, Patrice (August 1993). «Boosting Performance in Neural Networks». International Journal of Pattern Recognition and Artificial Intelligence (en inglés) 07 (4): 705-719. ISSN 0218-0014. doi:10.1142/S0218001493000352. 
  10. Vapnik, Vladimir (2008). The nature of statistical learning theory. Statistics for engineering and information science (2. ed., 6. print edición). New York: Springer. ISBN 978-0-387-98780-4. 
  11. Jackson, Charles; Murphy, Robert F.; Kovačević, Jelena (September 2009). «Intelligent Acquisition and Learning of Fluorescence Microscope Data Models». IEEE Transactions on Image Processing 18 (9): 2071-84. Bibcode:2009ITIP...18.2071J. PMID 19502128. S2CID 3718670. doi:10.1109/TIP.2009.2024580. 
  12. Wang, Aiqi; Qiu, Tianshuang; Shao, Longtan (July 2009). «A Simple Method of Radial Distortion Correction with Centre of Distortion Estimation». Journal of Mathematical Imaging and Vision 35 (3): 165-172. Bibcode:2009JMIV...35..165W. S2CID 207175690. doi:10.1007/s10851-009-0162-1. 
  13. a b c d e David Jensen (2004). «6. Using Scripts». Proximity 4.3 Tutorial. 
  14. Deng, Robert H.; Bao, Feng; Zhou, Jianying (December 2002). Information and Communications Security. Proceedings of the 4th International Conference, ICICS 2002 Singapore. ISBN 9783540361596. 
  15. Abowd, John M.; Lane, Julia (June 9–11, 2004). New Approaches to Confidentiality Protection: Synthetic Data, Remote Access and Research Data Centers. Privacy in Statistical Databases: CASC Project Final Conference, Proceedings. Barcelona, Spain. doi:10.1007/978-3-540-25955-8_22. 
  16. Patki, Neha; Wedge, Roy; Veeramachaneni, Kalyan. The Synthetic Data Vault. Data Science and Advanced Analytics (DSAA) 2016. IEEE. doi:10.1109/DSAA.2016.49. 
  17. Peng, Xingchao; Sun, Baochen; Ali, Karim; Saenko, Kate (2015). «Learning Deep Object Detectors from 3D Models». arXiv:1412.7122  [cs.CV]. 
  18. Shrivastava, Ashish; Pfister, Tomas; Tuzel, Oncel; Susskind, Josh; Wang, Wenda; Webb, Russ (2016). «Learning from Simulated and Unsupervised Images through Adversarial Training». arXiv:1612.07828  [cs.CV]. 
  19. a b «Neural Networks Need Data to Learn. Even If It's Fake.». June 2023. Consultado el 17 June 2023. 
  20. Wood, Erroll; Baltrušaitis, Tadas; Hewitt, Charlie; Dziadzio, Sebastian; Cashman, Thomas J.; Shotton, Jamie (2021). «Fake It Till You Make It: Face Analysis in the Wild Using Synthetic Data Alone». Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) (en inglés): 3681-3691. arXiv:2109.15102. 
  21. Albrecht, Kim. «Artificial Worldviews». artificial-worldviews.kimalbrecht.com (en inglés). Consultado el 18 de noviembre de 2024. 

Bibliografía

Enlaces externos

 

Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9

Portal di Ensiklopedia Dunia