È co-fondatore[3] e ricercatore presso il Machine Intelligence Research Institute (MIRI), un'organizzazione di ricerca privata senza scopo di lucro con sede a Berkeley, in California.[4] Il suo lavoro sulla prospettiva di un'esplosione di intelligenza incontrollata ha avuto un'influenza su Superintelligence: Paths, Dangers, Strategies diNick Bostrom.[5]
Lavoro sulla sicurezza dell'intelligenza artificiale
Apprendimento degli obiettivi e incentivi nei sistemi software
Il punto di vista di Yudkowsky sulle sfide alla sicurezza poste dalle future generazioni di sistemi di IA è discusso nel libro di testo universitario di Stuart Russell e Peter Norvig, Artificial Intelligence: A Modern Approach. Notando la difficoltà di specificare formalmente gli obiettivi generali a mano, Russell e Norvig citano la proposta di Yudkowsky che i sistemi autonomi e adattivi siano progettati per imparare un comportamento corretto nel tempo:
«Yudkowsky (2008) entra più in dettaglio su come progettare una IA amichevole. Egli afferma che la gentilezza (un desiderio di non nuocere agli umani) dovrebbe essere progettata fin dall'inizio, ma che i progettisti dovrebbero riconoscere sia che i loro progetti possono essere difettosi, sia che il robot imparerà ed evolverà nel tempo. Quindi la sfida è quella della progettazione dei meccanismi: progettare un meccanismo per l'evoluzione dell'IA sotto un sistema di controlli ed equilibri, e dare ai sistemi funzioni di utilità che rimarranno amichevoli di fronte a tali cambiamenti.
In risposta alla preoccupazione della convergenza strumentale, in cui i sistemi decisionali autonomi con obiettivi mal progettati avrebbero incentivi predefiniti a maltrattare gli esseri umani, Yudkowsky e altri ricercatori MIRI hanno raccomandato di lavorare per specificare gli agenti software che convergono su comportamenti predefiniti sicuri anche quando i loro obiettivi sono mal specificati.[2][6]»
Previsione delle capacità
Nello scenario di esplosione dell'intelligenza ipotizzato da I.J. Good, i sistemi di IA che si auto-migliorano ricorsivamente passano rapidamente da un'intelligenza generale subumana a una superintelligente. Il libro di Nick Bostrom del 2014, Superintelligence: Paths, Dangers, Strategies, delinea in dettaglio l'argomento di Good, mentre cita gli scritti di Yudkowsky sul rischio che l'antropomorfizzazione dei sistemi avanzati di IA porti le persone a fraintendere la natura di un'esplosione di intelligenza: ''IA potrebbe fare un salto apparentemente brusco nell'intelligenza puramente come risultato dell'antropomorfismo, la tendenza umana a pensare allo 'scemo del villaggio' e a 'Einstein' come gli estremi della scala dell'intelligenza, invece di punti quasi indistinguibili sulla scala delle menti in generale".[1][3][7]
In Artificial Intelligence: A Modern Approach, gli autori Stuart Russell e Peter Norvig sollevano l'obiezione che esistono limiti noti alla risoluzione intelligente dei problemi dalla teoria della complessità computazionale; se ci sono forti limiti all'efficienza con cui gli algoritmi possono risolvere vari compiti di informatica, allora l'esplosione dell'intelligenza potrebbe non essere possibile.[1]
Scrittura razionale
Tra il 2006 e il 2009, Yudkowsky e Robin Hanson sono stati i principali collaboratori di Overcoming Bias, un blog di scienze cognitive e sociali sponsorizzato dal Future of Humanity Institute dell'Università di Oxford. Nel febbraio 2009 Yudkowsky ha fondato LessWrong, un "blog comunitario dedicato a perfezionare l'arte della razionalità umana".[8][9]Overcoming Bias funziona da allora come blog personale di Hanson.
Oltre 300 articoli di blog di Yudkowsky sulla filosofia e la scienza (originariamente scritti su LessWrong e Overcoming Bias) sono stati pubblicati come un ebook intitolato Rationality: From AI to Zombies dal Machine Intelligence Research Institute (MIRI) nel 2015.[10] MIRI ha anche pubblicato Inadequate Equilibria, l'ebook di Yudkowsky del 2017 sul tema delle inefficienze sociali.[11]
Yudkowsky ha anche scritto diverse opere di narrativa. Il suo romanzo di fanfiction, Harry Potter e i metodi della razionalità, utilizza elementi della trama della serie Harry Potter di JK Rowling per illustrare argomenti scientifici.[8][12]The New Yorker ha descritto Harry Potter e i metodi della razionalità come una rivisitazione dell'originale di Rowling "nel tentativo di spiegare la magia di Harry attraverso il metodo scientifico".[13]
Eliezer Yudkowsky, Complex Value Systems in Friendly AI (PDF), in Artificial General Intelligence: 4th International Conference, AGI 2011, Mountain View, CA, USA, August 3–6, 2011, Berlin, Springer, 2011.
Nick Bostrom e Eliezer Yudkowsky, The Ethics of Artificial Intelligence (PDF), in Keith Frankish e William Ramsey (a cura di), The Cambridge Handbook of Artificial Intelligence, New York, Cambridge University Press, 2014, ISBN978-0-521-87142-6.
Patrick LaVictoire, Benja Fallenstein, Eliezer Yudkowsky, Mihály Bárász, Paul Christiano e Marcello Herreshoff, Program Equilibrium in the Prisoner's Dilemma via Löb's Theorem, in Multiagent Interaction without Prior Coordination: Papers from the AAAI-14 Workshop, AAAI Publications, 2014. URL consultato il 14 ottobre 2021 (archiviato dall'url originale il 15 aprile 2021).
Nate Soares, Benja Fallenstein e Eliezer Yudkowsky, Corrigibility (PDF), in AAAI Workshops: Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence, Austin, TX, January 25–26, 2015, AAAI Publications, 2015.