Inteligencia artificial explicable

La inteligencia artificial explicable (en inglés: explainable artificial intelligence, habitualmente abreviado XAI) se refiere a métodos y técnicas en la aplicación de tecnología de inteligencia artificial (IA) por los que el ser humano es capaz de comprender las decisiones y predicciones realizadas por la inteligencia artificial. Contrasta con el concepto de la "caja negra" en aprendizaje automático (en inglés: machine learning), donde ni siquiera sus diseñadores pueden explicar por qué la IA ha realizado una decisión concreta.[1]​ XAI es una implementación del derecho social a la explicación.[2]

El reto técnico de explicar las decisiones de IA se conoce como el problema de interpretabilidad.[3]​ Otra consideración es la sobrecarga informativa, así, la transparencia total no puede ser siempre posible o incluso requerida. Aun así, la simplificación a costo de engañar usuarios para aumentar la confianza o esconder los atributos indeseables del sistema tendrían que ser evitados permitiendo un equilibrio entre la interpretabilidad y la integridad de una explicación .[4]

Los sistemas de IA optimizan el comportamiento para satisfacer un sistema de objetivos matemáticamente especificado elegido por los diseñadores del sistema, como el comando "maximizar la precisión en la evaluación de las críticas de películas en el conjunto de datos de prueba". La IA puede aprender reglas generales útiles del conjunto de pruebas, como "las revisiones que contienen la palabra 'horrible'" probablemente sean negativas ". Sin embargo, también puede aprender reglas inapropiadas, como "las revisiones que contienen 'Daniel Day-Lewis' suelen ser positivas"; tales reglas pueden ser indeseables si se considera que es probable que no se generalicen fuera del conjunto de pruebas, o si las personas consideran que la regla es "trampa" o "injusta".Un humano puede auditar las reglas en un XAI para tener una idea de la probabilidad de que el sistema se generalice a datos futuros del mundo real fuera del conjunto de pruebas.[3]

Objetivos

La cooperación entre agentes, en este caso algoritmos y humanos, depende de la confianza. Si los humanos van a aceptar prescripciones algorítmicas, necesitan confiar en ellas. La falta de completitud en la formalización de criterios de confianza es una barrera a aproximaciones de optimización sincera. Por esa razón, la interpretabilidad y la explicabilidad se postulan como objetivos intermedios para verificar otros criterios.[5]

Los sistemas de inteligencia artificial a veces aprenden trucos indeseables que hacen un trabajo óptimo para satisfacer objetivos preprogramados explícitos en los datos de entrenamiento, pero que no reflejan los deseos implícitos complicados de los diseñadores de sistemas humanos. Por ejemplo, un sistema de 2017 encargado con el reconocimiento de imagen aprendió a "hacer trampa" al buscar una etiqueta de copyright que estaba asociada con imágenes de caballos, en lugar de aprender a saber si un caballo fue realmente fotografiado.[1]​ En otro sistema de 2017, una IA de aprendizaje supervisado encargada de captar los elementos en un mundo virtual aprendió a hacer trampa al colocar su manipulador entre el objeto y el espectador de tal manera que parecía falsamente estar captando el objeto.[6][7]

Un proyecto de transparencia, el programa DARPA XAI, tiene como objetivo producir modelos de "caja de vidrio" que sean explicables a un "humano en el circuito", sin sacrificar el rendimiento IA. Los usuarios humanos deberían ser capaces de entender la cognición de la IA (tanto en tiempo real como después del hecho), y deberían poder determinar cuándo confiar en la IA y cuando se debe desconfiar de la IA.[8][9]​ Otras aplicaciones de XAI es extracción de conocimiento de modelos de cajas negras y comparaciones de modelos.[10]​ El término "caja de vidrio" también se ha usado para sistemas que monitorean las entradas y salidas de un sistema, con el propósito de verificar la adherencia del sistema a valores éticos y socio-legales y, por lo tanto, producir explicaciones basadas en valores. Además, el mismo término se ha utilizado para nombrar a un asistente de voz que produce declaraciones contrafactuales como explicaciones.[11]

Historia y métodos

Durante las décadas de 1970 y 1990, sistemas de razonamiento simbólico, como MYCIN,[12]​ GUIDON, SOPHIE, y PROTOS fueron explorados para representar, razonar y explicar su razonamiento con fines de diagnóstico, instrucción o aprendizaje automático (aprendizaje basado en explicaciones).[13][14][15][16]​ MYCIN, desarrollado a principios de la década de 1970 como un prototipo de investigación para diagnosticar infecciones bacterianas del torrente sanguíneo, podría explicar cuál de sus reglas codificadas a mano contribuyó a un diagnóstico en un caso específico.[17]​ La investigación en sistemas inteligentes de tutoría desarrolló sistemas como SOPHIE que podrían actuar como un "experto articulado", explicando la estrategia de resolución de problemas a un nivel que el estudiante pudiera entender, para que supieran qué acción tomar a continuación. Por ejemplo, SOPHIE podría explicar el razonamiento cualitativo detrás de su solución de problemas electrónicos, aunque finalmente se basó en el simulador de circuito SPICE. Del mismo modo, GUIDON agregó reglas tutoriales para complementar las reglas de nivel de dominio de MYCIN para que pueda explicar la estrategia para el diagnóstico médico. Los enfoques simbólicos para el aprendizaje automático, especialmente aquellos que dependen del aprendizaje basado en explicaciones, como PROTOS, se basaron explícitamente en representaciones de explicaciones, tanto para explicar sus acciones como para adquirir nuevos conocimientos.

Desde la década de 1980 hasta principios de la década de 1990, se desarrollaron sistemas de mantenimiento de la verdad (TMS) para ampliar las capacidades de los sistemas de inferencia basados en el razonamiento causal, basados en reglas y en la lógica.[18]: 360–362  Un TMS actúa para rastrear explícitamente líneas alternativas de razonamiento, justificaciones de conclusiones y líneas de razonamiento que conducen a contradicciones, permitiendo que el razonamiento futuro evite estos callejones sin salida. Para proporcionar una explicación, rastrean el razonamiento desde conclusiones hasta suposiciones a través de operaciones de reglas o inferencias lógicas, permitiendo que se generen explicaciones a partir de los rastros de razonamiento. Como ejemplo, considere un solucionador de problemas basado en reglas con solo unas pocas reglas sobre Sócrates que concluye que ha muerto por veneno:

Al rastrear la estructura de dependencia, el solucionador de problemas puede construir la siguiente explicación: "Sócrates murió porque era mortal y bebió veneno, y todos los mortales mueren cuando beben veneno. Sócrates fue mortal porque era un hombre y todos los hombres son mortales". Sócrates bebió veneno porque tenía creencias disidentes, el gobierno era conservador y los que tenían creencias disidentes conservadoras bajo gobiernos conservadores deben ingerir veneno".[19]: 164–165 

En la década de 1990, los investigadores también comenzaron a estudiar si es posible extraer de manera significativa las reglas no codificadas a mano generadas por redes neuronales opacas entrenadas.[20]​ Los investigadores en sistemas de expertos clínicos que crean apoyo de decisión basado en redes neuronales para los médicos han tratado de desarrollar explicaciones dinámicas que permitan que estas tecnologías sean más confiables en la práctica.[2]​ En el 2010, las preocupaciones públicas sobre el sesgo racial y de otro tipo en el uso de la IA para las decisiones de sentencias penales y los hallazgos de solvencia crediticia pueden haber llevado a una mayor demanda de inteligencia artificial transparente.[1]​ Como resultado, muchos académicos y organizaciones están desarrollando herramientas para ayudar a detectar sesgos en sus sistemas.[21]

Marvin Minsky et al. plantearon la cuestión de que la IA puede funcionar como una forma de vigilancia, con los sesgos inherentes a la vigilancia, lo que apunta a la inteligencia humanista como una forma de crear una IA de "humano en el circuito" más justa y equilibrada.[22]

Las modernas técnicas complejas de IA, como el aprendizaje profundo y los algoritmos genéticos, son naturalmente opacas.[23]​ Para abordar este problema, se han desarrollado muchos métodos nuevos para hacer que los nuevos modelos sean más explicables e interpretables.[24][25][26][27]​ Esto incluye muchos métodos, como la propagación de relevancia en capas (LRP), una técnica para determinar qué características en un vector de entrada particular contribuyen más fuertemente a la salida de una red neuronal.[28][29][30]​ Se han desarrollado otras técnicas para explicar una predicción particular realizada por un modelo de caja negra (no lineal), un objetivo denominado "interpretabilidad local".[31][32][33][34][35][36]​ Además, se ha trabajado en árboles de decisión y redes bayesianas, que son más transparentes para la inspección.[37]​ En 2018, se estableció una conferencia interdisciplinaria llamada FAT* (en inglés: Fairness, Accountability, and Transparency, «Equidad, responsabilidad y transparencia») para estudiar la transparencia y la explicabilidad en el contexto de los sistemas socio-técnicos, muchos de los cuales incluyen inteligencia artificial.[38][39]

Regulación

Como reguladores, los organismos oficiales y los usuarios en general dependen de los sistemas dinámicos basados en IA, se requerirá una responsabilidad más clara para los procesos de toma de decisiones para garantizar la confianza y la transparencia. La presentación de la primera conferencia mundial dedicada exclusivamente a esta disciplina emergente, la Conferencia Conjunta Internacional sobre Inteligencia Artificial: Taller sobre Inteligencia Artificial Explicable, es una muestra de que este requisito está ganando más impulso.[40]

La Unión Europea introdujo un derecho de explicación en el Reglamento General de Protección de Datos (GDPR) como un intento de abordar los posibles problemas derivados de la creciente importancia de los algoritmos. La implementación del control empezó en 2018. Sin embargo, el derecho de explicación en GDPR cubre solo el aspecto local de la interpretabilidad. En los Estados Unidos, las compañías de seguros deben poder explicar sus decisiones sobre las tasas y cobertura.[41]

Críticas

Algunos académicos han sugerido que la explicabilidad en la IA debería considerarse un objetivo secundario frente a la efectividad de la IA y que fomentar exclusivamente el desarrollo de la IA explicable (XAI, por sus siglas en inglés) podría limitar la funcionalidad más amplia de la IA [42][43]​. Las críticas a la XAI se basan en conceptos desarrollados de razonamiento mecanicista y empírico provenientes de la medicina basada en la evidencia, sugiriendo que las tecnologías de IA pueden ser validadas clínicamente incluso cuando sus operadores no entienden cómo funcionan.

Algunos investigadores abogan por el uso de modelos de aprendizaje automático intrínsecamente interpretables, en lugar de emplear explicaciones post-hoc, en las que se crea un segundo modelo para explicar el primero. Esto se debe, en parte, a que los modelos post-hoc aumentan la complejidad en la vía de decisión, y también porque a menudo no está claro cuán fielmente una explicación post-hoc puede replicar los cálculos de un modelo completamente independiente [44]​. Sin embargo, otra perspectiva sostiene que lo importante es que la explicación cumpla con la tarea asignada y que, ya sea pre o post-hoc, es irrelevante. Si un método de explicación post-hoc ayuda a un médico a diagnosticar cáncer de manera más efectiva, es de importancia secundaria si la explicación es correcta o incorrecta.

Los objetivos de la XAI equivalen a una forma de compresión con pérdida que será menos efectiva a medida que los modelos de IA aumenten su número de parámetros. Junto con otros factores, esto conduce a un límite teórico para la explicabilidad [45]​.

Sectores

XAI ha sido investigado en muchos sectores, incluyendo:

Referencias

  1. a b c Sample, Ian (5 de noviembre de 2017). «Computer says no: why making AIs fair, accountable and transparent is crucial» (en inglés). Consultado el 30 de enero de 2018. 
  2. a b Edwards, Lilian; Veale, Michael (2017). «Slave to the Algorithm? Why a 'Right to an Explanation' Is Probably Not the Remedy You Are Looking For». Duke Law and Technology Review 16: 18. 
  3. a b «How AI detectives are cracking open the black box of deep learning». Science (en inglés). 5 de julio de 2017. Consultado el 30 de enero de 2018. .
  4. Gilpin, Leilani H.; Bau, David; Yuan, Ben Z.; Bajwa, Ayesha; Specter, Michael; Kagal, Lalana (2018-05-31). "Explaining Explanations: An Overview of Interpretability of Machine Learning". arXiv:1806.00069 [stat.AI].
  5. . MIPRO 2018. 25 de mayo de 2018. pp. 210-215. doi:10.23919/MIPRO.2018.8400040. 
  6. «DeepMind Has Simple Tests That Might Prevent Elon Musk's AI Apocalypse» (en inglés). 11 de diciembre de 2017. Consultado el 30 de enero de 2018. 
  7. «Learning from Human Preferences». 13 de junio de 2017. Archivado desde el original el 28 de marzo de 2023. Consultado el 30 de enero de 2018. 
  8. «Explainable Artificial Intelligence (XAI)». DARPA. DARPA. Consultado el 17 de julio de 2017. 
  9. Holzinger, Andreas; Plass, Markus; Holzinger, Katharina; Crisan, Gloria Cerasela; Pintea, Camelia-M.; Palade, Vasile (2017-08-03). "A glass-box interactive machine learning approach for solving NP-hard problems with the human-in-the-loop"
  10. Biecek, Przemyslaw (23 de junio de 2018). «DALEX: explainers for complex predictive models». Journal of Machine Learning Research 19: 1-5. Bibcode:2018arXiv180608915B. arXiv:1806.08915. 
  11. Sokol, Kacper; Flach, Peter (2018). «Glass-Box: Explaining AI Decisions With Counterfactual Statements Through Conversation With a Voice-enabled Virtual Assistant». Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. pp. 5868-5870. ISBN 9780999241127. doi:10.24963/ijcai.2018/865. 
  12. Fagan, L. M.; Shortliffe, E. H.; Buchanan, B. G. (1980). «Computer-based medical decision making: from MYCIN to VM». Automedica 3 (2): 97-108. 
  13. Clancey, William (1987). Knowledge-Based Tutoring: The GUIDON Program. Cambridge, Massachusetts: The MIT Press. 
  14. Brown, John S.; Burton, R. R.; De Kleer, Johan (1982). «Pedagogical, natural language, and knowledge engineering techniques in SOPHIE I, II, and III». Intelligent Tutoring Systems. Academic Press. ISBN 0-12-648680-8. 
  15. Bareiss, Ray; Porter, Bruce; Weir, Craig; Holte, Robert (1990). «Protos: An Exemplar-Based Learning Apprentice». Machine Learning 3. Morgan Kaufmann Publishers Inc. pp. 112-139. ISBN 1-55860-119-8. 
  16. Bareiss, Ray. Exemplar-Based Knowledge Acquisition: A Unified Approach to Concept Representation, Classification, and Learning. Perspectives in Artificial Intelligence. 
  17. Van Lent, M.; Fisher, W.; Mancuso, M. (July 2004). «An explainable artificial intelligence system for small-unit tactical behavior». Proceedings of the National Conference on Artificial Intelligence. San Jose, CA: AAAI Press. pp. 900-907. ISBN 0262511835. 
  18. Russell, Stuart; Norvig, Peter (2003). Artificial Intelligence: A Modern Approach. Prentice Hall Series in Artificial Intelligence (Second edición). Upper Saddle River, New Jersey: Prentice Hall, Pearson Education. ISBN 0-13-790395-2. 
  19. Forbus, Kenneth; De Kleer, Johan (1993). Building Problem Solvers. Cambridge, Massachusetts: The MIT Press. ISBN 0-262-06157-0. 
  20. Tickle, A. B.; Andrews, R.; Golea, M.; Diederich, J. (November 1998). «The truth will come to light: directions and challenges in extracting the knowledge embedded within trained artificial neural networks». IEEE Transactions on Neural Networks 9 (6): 1057-1068. ISSN 1045-9227. PMID 18255792. doi:10.1109/72.728352. 
  21. «Accenture Unveils Tool to Help Companies Insure Their AI Is Fair» (en inglés). June 2018. Consultado el 5 de agosto de 2018. 
  22. Minsky, et al., "The Society of Intelligent Veillance" IEEE ISTAS2013, pages 13-17.
  23. Mukherjee, Siddhartha (27 de marzo de 2017). «A.I. Versus M.D.». Consultado el 30 de enero de 2018. 
  24. Mukherjee, Siddhartha (27 March 2017). "A.I. Versus M.D." The New Yorker. Retrieved 30 January 2018.
  25. Murdoch, W. James; Singh, Chandan; Kumbier, Karl; Abbasi-Asl, Reza; Yu, Bin (14 de enero de 2019). «Interpretable machine learning: definitions, methods, and applications». Proceedings of the National Academy of Sciences of the United States of America 116 (44): 22071-22080. Bibcode:2019arXiv190104592M. PMC 6825274. PMID 31619572. arXiv:1901.04592. doi:10.1073/pnas.1900654116. 
  26. Murdoch, W. James; Singh, Chandan; Kumbier, Karl; Abbasi-Asl, Reza; Yu, Bin (2019-01-14). "Interpretable machine learning: definitions, methods, and applications". Proceedings of the National Academy of Sciences of the United States of America. 116 (44): 22071–22080.
  27. Doshi-Velez, Finale; Kim, Been (2017-02-27). "Towards A Rigorous Science of Interpretable Machine Learning".
  28. Shiebler, Dan (16 de abril de 2017). «Understanding Neural Networks with Layerwise Relevance Propagation and Deep Taylor Series». Dan Shiebler. Consultado el 3 de noviembre de 2017. 
  29. Bach, Sebastian; Binder, Alexander; Montavon, Grégoire; Klauschen, Frederick; Müller, Klaus-Robert; Samek, Wojciech (10 de julio de 2015). «On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation». En Suarez, Oscar Deniz, ed. PLOS One 10 (7): e0130140. Bibcode:2015PLoSO..1030140B. ISSN 1932-6203. PMC 4498753. PMID 26161953. doi:10.1371/journal.pone.0130140. 
  30. Sample, Ian (5 de noviembre de 2017). «Computer says no: why making AIs fair, accountable and transparent is crucial» (en inglés). Consultado el 5 de agosto de 2018. 
  31. Martens, David; Provost, Foster. «Explaining data-driven document classifications». MIS Quarterly 38: 73-99. 
  32. "Why Should I Trust You?" | Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (en inglés). doi:10.1145/2939672.2939778. 
  33. Lundberg, Scott M; Lee, Su-In (2017), «A Unified Approach to Interpreting Model Predictions», en Guyon, I.; Luxburg, U. V.; Bengio et al., eds., Advances in Neural Information Processing Systems 30 (Curran Associates, Inc.): 4765-4774, Bibcode:2017arXiv170507874L, consultado el 13 de marzo de 2020  .
  34. Carter, Brandon; Mueller, Jonas; Jain, Siddhartha; Gifford, David (11 de abril de 2019). «What made you do this? Understanding black-box decisions with sufficient input subsets». The 22nd International Conference on Artificial Intelligence and Statistics (en inglés): 567-576. 
  35. Shrikumar, Avanti; Greenside, Peyton; Kundaje, Anshul (17 de julio de 2017). «Learning Important Features Through Propagating Activation Differences». International Conference on Machine Learning (en inglés): 3145-3153. 
  36. «Axiomatic attribution for deep networks | Proceedings of the 34th International Conference on Machine Learning - Volume 70». dl.acm.org (en inglés). Consultado el 13 de marzo de 2020. 
  37. Bostrom, N., & Yudkowsky, E. (2014). The ethics of artificial intelligence. The Cambridge Handbook of Artificial Intelligence, 316-334.
  38. «FAT* Conference». 
  39. «Computer programs recognise white men better than black women» (en inglés). 2018. Consultado el 5 de agosto de 2018. 
  40. «IJCAI 2017 Workshop on Explainable Artificial Intelligence (XAI)». Earthlink. IJCAI. Archivado desde el original el 4 de abril de 2019. Consultado el 17 de julio de 2017. 
  41. Kahn, Jeremy (12 de diciembre de 2018). «Artificial Intelligence Has Some Explaining to Do». Consultado el 17 de diciembre de 2018. 
  42. McCoy, Liam G.; Brenna, Connor T. A.; Chen, Stacy S.; Vold, Karina; Das, Sunit (5 de noviembre de 2021). «Believing in black boxes: machine learning for healthcare does not need explainability to be evidence-based». *Journal of Clinical Epidemiology*. Vol. 142 (Online ahead of print), pp. 252–257. doi:10.1016/j.jclinepi.2021.11.001. ISSN 0895-4356. PMID 34748907. S2CID 243810442.
  43. Ghassemi, Marzyeh; Oakden-Rayner, Luke; Beam, Andrew L. (1 de noviembre de 2021). «The false hope of current approaches to explainable artificial intelligence in health care». *The Lancet Digital Health*. Vol. 3, n.º 11, pp. e745–e750. doi:10.1016/S2589-7500(21)00208-9. ISSN 2589-7500. PMID 34711379. S2CID 239963176.
  44. Rudin, Cynthia (2019). «Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead». *Nature Machine Intelligence*. Vol. 1, n.º 5, pp. 206–215. arXiv:1811.10154. doi:10.1038/s42256-019-0048-x. ISSN 2522-5839. PMC 9122117. PMID 35603010.
  45. Sarkar, Advait (2022). «Is explainable AI a race against model complexity?» (PDF). *Workshop on Transparency and Explanations in Smart Systems (TeXSS)*, en conjunto con *ACM Intelligent User Interfaces (IUI 2022)*. pp. 192–199. arXiv:2205.10119 – vía CEUR Workshop Proceedings.
  46. «Neil Fraser: Writing: Neural Network Follies». neil.fraser.name. Consultado el 22 de agosto de 2019. 
  47. «NASA 'Evolutionary' software automatically designs antenna». NASA. NASA. Archivado desde el original el 8 de agosto de 2017. Consultado el 17 de julio de 2017. 
  48. «The Flash Crash: The Impact of High Frequency Trading on an Electronic Market». CFTC. CFTC. Consultado el 17 de julio de 2017. 
  49. Weng, Stephen F; Reps, Jenna; Kai, Joe; Garibaldi, Jonathan M; Qureshi, Nadeem (2017). «Can machine-learning improve cardiovascular risk prediction using routine clinical data?». PLOS One 12 (4): e0174944. Bibcode:2017PLoSO..1274944W. PMC 5380334. PMID 28376093. doi:10.1371/journal.pone.0174944. 
  50. Weng, Stephen F; Reps, Jenna; Kai, Joe; Garibaldi, Jonathan M; Qureshi, Nadeem (2017). "Can machine-learning improve cardiovascular risk prediction using routine clinical data?". PLOS One. 12 (4): e0174944.
  51. «Tesla says it has 'no way of knowing' if autopilot was used in fatal Chinese crash». Guardian. 14 de septiembre de 2016. Consultado el 17 de julio de 2017. 
  52. Abrams, Rachel (July 2016). «Joshua Brown, Who Died in Self-Driving Accident, Tested Limits of His Tesla». New York Times. Consultado el 17 de julio de 2017. 
  53. Olague, Gustavo (2011). «Evolutionary-computer-assisted design of image operators that detect interest points using genetic programming☆». Image and Vision Computing (Elsevier) 29 (7): 484-498. doi:10.1016/j.imavis.2011.03.004. 
  54. Qureshi, M. Atif; Greene, Derek (4 de junio de 2018). «EVE: explainable vector based embedding technique using Wikipedia». Journal of Intelligent Information Systems (en inglés) 53: 137-165. ISSN 0925-9902. arXiv:1702.06891. doi:10.1007/s10844-018-0511-x. 

Enlaces externos

 [cs.CV]. 

 [cs.LG]. 

  • «Similarity Cracks the Code Of Explainable AI». simMachines. 12 de octubre de 2017. Consultado el 2 de febrero de 2018. 
  • Bojarski, Mariusz; Yeres, Philip; Choromanska, Anna; Choromanski, Krzysztof; Firner, Bernhard; Jackel, Lawrence; Muller, Urs (25 de abril de 2017). «Explaining How a Deep Neural Network Trained with End-to-End Learning Steers a Car». arXiv:1704.07911

 [cs.CV].