Aprendizagem de metas e incentivos em sistemas de software
As opiniões de Yudkowsky sobre os desafios de segurança que as futuras gerações de sistemas de IA representam são discutidas no livro de graduação de Stuart Russell e Peter Norvig, Artificial Intelligence: A Modern Approach. Observando a dificuldade de especificar formalmente objetivos de uso geral manualmente, Russell e Norvig citam a proposta de Yudkowsky de que os sistemas autônomos e adaptativos sejam projetados para aprender o comportamento correto ao longo do tempo:
Yudkowsky (2008)[10] entra em mais detalhes sobre como projetar uma IA amigável. Ele afirma que a simpatia (o desejo de não prejudicar os seres humanos) deve ser projetada desde o início, mas que os projetistas devem reconhecer que seus próprios projetos podem ter falhas e que o robô aprenderá e evoluirá com o tempo. Assim, o desafio é um projeto de mecanismo - projetar um mecanismo para a evolução da IA sob um sistema de verificações e equilíbrios e dar aos sistemas funções de utilidade que permanecerão amigáveis em face de tais mudanças.[6]
Em resposta à preocupação com a convergência instrumental, de que os sistemas autônomos de tomada de decisão com metas mal projetadas teriam incentivos padrão para maltratar os seres humanos, Yudkowsky e outros pesquisadores do MIRI recomendaram que se trabalhasse para especificar agentes de software que convergissem para comportamentos padrão seguros, mesmo quando suas metas fossem mal especificadas.[11][7]
Previsão de capacidades
No cenário de explosão da inteligência, hipotetizado por I. J. Good, os sistemas de IA com autoaperfeiçoamento recursivo passam rapidamente da inteligência geral subumana para a superinteligência. O livro de 2014 de Nick Bostrom, Superintelligence: Paths, Dangers, Strategies, descreve detalhadamente o argumento de Good, ao mesmo tempo em que cita Yudkowsky sobre o risco de que a antropomorfização de sistemas avançados de IA faça com que as pessoas não compreendam a natureza de uma explosão de inteligência. “A IA pode dar um salto aparentemente acentuado na inteligência puramente como resultado do antropomorfismo, a tendência humana de pensar no ‘idiota da aldeia’ e em ‘Einstein’ como os extremos da escala de inteligência, em vez de pontos quase indistinguíveis na escala das mentes em geral.”[6][10][12]
Em Artificial Intelligence: A Modern Approach, Russell e Norvig levantam a objeção de que existem limites conhecidos para a resolução inteligente de problemas a partir da teoria da complexidade computacional; se houver fortes limites na eficiência com que os algoritmos podem resolver várias tarefas, uma explosão de inteligência pode não ser possível.[6]
Artigo de opinião na revista Time
Em um artigo de opinião publicado em 2023 na revista Time, Yudkowsky discutiu o risco da inteligência artificial e propôs medidas que poderiam ser tomadas para limitá-lo, incluindo a interrupção total do desenvolvimento da IA,[13][14] ou até mesmo a “destruição de um centro de dados desonesto por meio de um ataque aéreo”.[5] O artigo ajudou a introduzir o debate sobre o alinhamento da IA na mídia, levando um repórter a fazer uma pergunta ao presidente Joe Biden sobre a segurança da IA em uma coletiva de imprensa.[2]
Escrita racional
Entre 2006 e 2009, Yudkowsky e Robin Hanson foram os principais colaboradores do Overcoming Bias, um blog de ciências cognitivas e sociais patrocinado pelo Future of Humanity Institute da Universidade de Oxford. Em fevereiro de 2009, Yudkowsky fundou o LessWrong, um “blog comunitário dedicado a refinar a arte da racionalidade humana”.[15][16] Desde então, o Overcoming Bias tem funcionado como o blog pessoal de Hanson.
Mais de 300 publicações do blog de Yudkowsky sobre filosofia e ciência (originalmente escritas no LessWrong e no Overcoming Bias) foram lançadas como um livro digital pelo MIRI em 2015, intitulado Rationality: From AI to Zombies.[17] O MIRI também publicou Inadequate Equilibria, um livro digital de 2017 de Yudkowsky sobre ineficiências sociais.[18]
Yudkowsky também escreveu várias obras de ficção. Sua fanficHarry Potter and the Methods of Rationality usa elementos do enredo de Harry Potter, de J. K. Rowling, para ilustrar tópicos científicos.[15][19] O The New Yorker descreveu Harry Potter and the Methods of Rationality como uma recontagem do original de Rowling “em uma tentativa de explicar a magia de Harry por meio do método científico”.[20]
Yudkowsky, Eliezer (2011). «Complex Value Systems in Friendly AI»(PDF). Artificial General Intelligence: 4th International Conference, AGI 2011, Mountain View, CA, USA, August 3–6, 2011. Berlin: Springer
↑Soares, Nate; Fallenstein, Benja; Yudkowsky, Eliezer (2015). «Corrigibility». AAAI Workshops: Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence, Austin, TX, January 25–26, 2015. AAAI Publications. Consultado em 16 de outubro de 2015. Cópia arquivada em 15 de janeiro de 2016