A segurança da inteligência artificial (do termo em inglêsAI Safety) é um campo interdisciplinar que se preocupa com a prevenção de acidentes, uso indevido ou outras consequências prejudiciais que possam resultar de sistemas de inteligência artificial (IA). Ela engloba a ética de máquinas e o alinhamento da IA ("AI alignment"), que visam tornar os sistemas de IA morais e benéficos. Também engloba questões técnicas, incluindo o monitoramento dos sistemas quanto a riscos e a sua alta confiabilidade. Além da pesquisa em inteligência artificial, ela envolve o desenvolvimento de normas e políticas que promovam a segurança.
Motivações
Os pesquisadores de IA divergem quanto à gravidade e as principais fontes de risco provenientes da tecnologia de IA,[1][2][3] embora as pesquisas indiquem que os especialistas levam a sério os riscos de alta consequência. Em duas pesquisas, os entrevistados estavam otimistas em relação à inteligência artificial em geral, mas estimaram uma probabilidade de 5% de um resultado "extremamente ruim da inteligência artificial avançada" (por exemplo, extinção humana).[1] Em uma pesquisa de 2022 da comunidade de Processamento de Linguagem Natural (NLP em inglês), 37% concordaram ou concordaram levemente que é plausível que as decisões de IA possam levar a uma catástrofe "pelo menos tão ruim quanto uma guerra nuclear total".[4]
Os estudiosos discutem os riscos atuais de falhas em sistemas críticos,[5] parcialidade ("bias"),[6] vigilância habilitada por IA ("AI-enabled surveillance");[7] riscos emergentes do desemprego tecnológico, manipulação digital,[8] armamento[9] e riscos especulativos de perda de controle de futuros agentes da inteligência artificial geral (AGI em inglês).[10]
Alguns criticam as preocupações com a AGI, como o professor adjunto da Universidade de Stanford, Andrew Ng, que as comparou à "preocupação com a superpopulação em Marte quando ainda nem pisamos no planeta".[11] Outros, como o professor da Universidade da Califórnia em Berkeley, Stuart J. Russell, pedem cautela, argumentando que "é melhor antecipar a engenhosidade humana do que subestimá-la".[12]
Precedentes
Os riscos da inteligência artificial começaram a ser seriamente discutidos no início da era da informática:
"Além disso, se avançarmos no sentido de criar máquinas que aprendam e cujo comportamento seja modificado pela experiência, teremos de encarar o fato de que cada grau de independência que concedemos à máquina é um grau de possível desafio aos nossos desejos." -Norbert Wiener (1949)[13]
De 2008 a 2009, a Associação para o Avanço da Inteligência Artificial (AAAI em inglês) encomendou um estudo para explorar e abordar as possíveis influências sociais de longo prazo da pesquisa e do desenvolvimento da IA. Em geral, o painel foi cético em relação às visões radicais expressas pelos autores de ficção científica, mas concordou que "pesquisas adicionais sobre métodos para compreender e verificar a variedade de comportamentos de sistemas computacionais complexos para minimizar resultados inesperados seriam valiosas".[14]
Em 2011, Roman Yampolskiy introduziu o termo "engenharia de segurança de IA" ("AI safety engineering")[15] na Conferência de Filosofia e Teoria da Inteligência Artificial ("Philosophy and Theory of Artificial Intelligence Conference"),[16] listando falhas anteriores de sistemas de IA e argumentando que "a frequência e a gravidade de tais eventos aumentarão constantemente à medida que as inteligências artificiais se tornam mais poderosas".[17]
Em 2015, dezenas de especialistas em inteligência artificial assinaram uma Carta Aberta Sobre Inteligência Artificial ("Open letter on artificial intelligence") pedindo pesquisas sobre os impactos sociais da IA e delineando diretrizes concretas.[21] A carta já foi assinada por mais de 8.000 pessoas, incluindo Yann LeCun, Shane Legg, Yoshua Bengio e Stuart J. Russell.
No mesmo ano, um grupo de acadêmicos liderado pelo professor Russell fundou o Centro de Inteligência Artificial Compatível com Humanos ("Center for Human-Compatible AI") na UC Berkeley e o Instituto Future of Life concedeu US$ 6,5 milhões em subsídios para pesquisas destinadas a "garantir que a inteligência artificial permaneça segura, ética e benéfica".[22]
Em 2016, o Escritório de Políticas de Ciência e Tecnologia da Casa Branca ("White House Office of Science and Technology Policy") e a Universidade Carnegie Mellon anunciaram o Workshop Público sobre Segurança e Controle para Inteligência Artificial,[23] que foi um de uma sequência de quatro workshops da Casa Branca com o objetivo de investigar "as vantagens e desvantagens" da IA.[24] No mesmo ano, foi publicado o Problemas Concretos na Segurança da IA ("Concrete Problems in AI Safety"), uma das primeiras e mais influentes agendas técnicas de segurança da IA.[25]
Em 2017, o Instituto Future of Life patrocinou a Conferência Asilomar sobre IA benéfica ("Asilomar Conference on Beneficial AI"), na qual mais de 100 líderes formularam princípios para a inteligência artificial benéfica, incluindo "Evitar corridas: as equipes que desenvolvem sistemas de IA devem cooperar ativamente para evitar cortes nos padrões de segurança."[nota 1][26]
Em 2018, a equipe de segurança da DeepMind delineou problemas de segurança de IA em especificação, robustez e segurança.[27] No ano seguinte, os pesquisadores organizaram um workshop na Conferência Internacional sobre Representações de Aprendizagem (ICLR em inglês) que se concentrou nessas áreas problemáticas.[28]
Focos de pesquisa
As áreas de pesquisa de segurança da IA incluem robustez ("robustness"), monitoramento ("monitoring") e alinhamento ("alignment").[29][30] A robustez se preocupa em tornar os sistemas altamente confiáveis, o monitoramento trata da antecipação de falhas ou da detecção de uso indevido, e o alinhamento se concentra em garantir que ela tenha objetivos benéficos.
Robustez
A pesquisa de robustez se concentra em garantir que os sistemas de IA se comportem como pretendido em uma ampla gama de situações diferentes, o que inclui os seguintes subproblemas:
Robustez do cisne preto ("black swan"): criação de sistemas que se comportam como pretendido em situações raras.
Robustez adversária ("adversarial machine learning"): projetar sistemas para serem resilientes a entradas que são intencionalmente selecionadas para fazê-los falhar.
Robustez do cisne preto ("black swan robustness")
Entradas ("inputs") raras podem fazer com que os sistemas de inteligência artificial falhem de forma catastrófica. Por exemplo, no Flash Crash de 2010, os sistemas de negociação automatizados reagiram inesperadamente de forma exagerada às flutuações do mercado, destruindo um trilhão de dólares do valor das ações em minutos.[31] Não é necessário que ocorra nenhuma mudança na distribuição ("distribution shift"; quando conjuntos de treinamento e teste não são provenientes da mesma distribuição) para que isso aconteça. Falhas do tipo cisne preto podem ocorrer como consequência de os dados de entrada serem de cauda longa, o que geralmente acontece em ambientes do mundo real.[32] Os veículos autônomos continuam a ter dificuldades com "casos extremos" que podem não ter surgido durante o treinamento; por exemplo, um veículo pode ignorar um sinal de parada que está iluminado como uma grade de LED.[33] Embora problemas como esses possam ser resolvidos à medida que os sistemas de aprendizado de máquina ("machine learning") desenvolvem uma melhor compreensão do mundo, alguns pesquisadores apontam que até mesmo os seres humanos muitas vezes não conseguem responder adequadamente a eventos sem precedentes, como a pandemia da COVID-19, argumentando que a robustez do cisne preto será um problema de segurança persistente.[30]
Robustez adversária ("adversarial robustness")
Os sistemas de IA geralmente são vulneráveis a exemplos adversários ou "entradas para modelos de aprendizado de máquina que um invasor tenha intencionalmente projetado para fazer com que o modelo cometa um erro".[34] Por exemplo, em 2013, Szegedy et al. descobriram que adicionar perturbações imperceptíveis específicas a uma imagem poderia fazer com que ela fosse classificada incorretamente com alta confiança.[35] Isso continua a ser um problema com as redes neurais ("ANNs" em inglês), embora em trabalhos recentes as perturbações geralmente sejam grandes o suficiente para serem perceptíveis.[36][37][38]
Todas as imagens ao lado são previstas como sendo de um avestruz após a aplicação da perturbação. A da esquerda é uma amostra prevista corretamente, a do centro possui perturbação aplicada ampliada em 10x, e a da direita um exemplo contraditório.[35]
A robustez adversária é frequentemente associada à segurança.[39] Pesquisadores demonstraram que um sinal de áudio pode ser imperceptivelmente modificado para que os sistemas de fala para texto o transcrevam para qualquer mensagem que o invasor escolher.[40] Os sistemas de detecção de intrusão de rede[41] e de malware[42] também precisam ser robustos em termos de adversariedade, pois os invasores podem projetar seus ataques para enganar os detectores.
Os modelos que representam objetivos (aprendizado por reforço) também devem ser robustos nesse sentido. Por exemplo, um modelo de aprendizado por reforço pode estimar o quanto uma resposta de texto é útil e se um modelo de linguagem pode ser treinado para maximizar essa pontuação.[43] Pesquisadores demonstraram que, se um modelo de linguagem for treinado por tempo suficiente, ele aproveitará as vulnerabilidades do modelo de aprendizado para obter uma pontuação melhor e ter um desempenho pior na tarefa pretendida.[44] Esse problema pode ser resolvido melhorando a robustez adversária do modelo.[45] De modo mais geral, qualquer sistema de IA usado para avaliar outro sistema de IA deve possuir robustez adversária. Isso deve incluir ferramentas de monitoramento, uma vez que elas também podem ser adulteradas para produzir uma recompensa maior.[46]
Monitoramento
O monitoramento se concentra em antecipar as falhas do sistema de IA para que elas possam ser evitadas ou gerenciadas. Os subproblemas do monitoramento incluem sinalizar quando os sistemas são incertos, detectar o uso mal-intencionado, compreender o funcionamento interno dos sistemas de inteligência artificial de caixa preta ("black-box") e identificar a funcionalidade oculta plantada por um agente mal-intencionado.[47]
Estimativa de incerteza
É importante que os operadores humanos avaliem o quanto devem confiar em um sistema de IA, principalmente em cenários de alto risco, como o diagnóstico médico.[48] Os modelos de machine learning (ML em inglês) geralmente expressam confiança por meio da emissão de probabilidades; no entanto, eles costumam apresentar excesso de confiança,[49] principalmente em situações diferentes daquelas para as quais foram treinados.[50] A pesquisa de calibração tem como objetivo fazer com que as probabilidades do modelo se aproximem o máximo possível da verdadeira proporção, na qual o modelo está correto.
Da mesma forma, a detecção de anomalias ou a detecção fora da distribuição (OOD em inglês) visa identificar quando um sistema de inteligência artificial está em uma situação incomum. Por exemplo, se um sensor em um veículo autônomo estiver com defeito ou se ele encontrar um terreno desafiador, ele deve alertar o motorista para que assuma o controle ou encoste.[51] A detecção de anomalias foi implementada treinando um classificador para distinguir entradas anômalas e não anômalas,[52] embora várias outras técnicas estejam em uso.[53][54]
Detecção de uso malicioso
Estudiosos[9] e agências governamentais expressam preocupações de que os sistemas de IA possam ser usados para ajudar agentes mal-intencionados a construir armas,[55] manipular a opinião pública[56][57] ou automatizar ataques cibernéticos.[58] Essas preocupações são algo prático para empresas como a OpenAI, que hospedam poderosas ferramentas de inteligência artificial on-line.[59] Para evitar o uso indevido, a OpenAI criou sistemas de detecção que sinalizam ou restringem os usuários com base em suas atividades.[60]
Transparência
As redes neurais têm sido frequentemente descritas como caixas pretas, o que significa que é difícil entender por que elas tomam as decisões que tomam, como resultado do grande número de cálculos que realizam.[61] Isso torna difícil prever falhas. Em 2018, um carro autônomo matou um pedestre depois de não conseguir identificá-lo. Devido à natureza de caixa preta do software de IA, o motivo da falha ainda não está claro.[62]
Um dos benefícios da transparência é a explicabilidade.[63] Por vezes é um requisito legal fornecer uma explicação sobre o motivo pelo qual uma decisão foi tomada para garantir a justiça, por exemplo, para filtrar automaticamente os pedidos de emprego ou a pontuação de crédito.[63]
Outro benefício é revelar a causa das falhas.[64] No início da pandemia de COVID-19 em 2020, os pesquisadores usaram ferramentas de transparência para mostrar que os classificadores de imagens médicas estavam "prestando atenção" a rótulos irrelevantes de hospitais.[65]
As técnicas de transparência também podem ser usadas para corrigir erros. Por exemplo, no artigo Locating and Editing Factual Associations in GPT ("Localizando e Editando as Associações Factuais no GPT"), os autores conseguiram identificar os parâmetros do modelo que influenciavam a forma como ele respondia às perguntas sobre a localização da Torre Eiffel. Em seguida, eles conseguiram "editar" esse conhecimento para fazer com que o modelo respondesse às perguntas como se a torre estivesse em Roma e não em Paris.[66] Embora nesse caso os autores tenham induzido um erro, esses métodos poderiam ser usados para corrigi-los com eficiência. Também existem técnicas de edição de modelos na visão computacional.[67]
Por fim, alguns argumentam que a opacidade dos sistemas de IA é uma fonte significativa de risco e que uma melhor compreensão de como eles funcionam poderia evitar falhas de alta consequência no futuro.[68] A pesquisa de interpretabilidade "interna" visa tornar os modelos de machine learning menos opacos. Um dos objetivos dessa pesquisa é identificar o que as ativações dos neurônios internos representam.[69][70] Por exemplo, os pesquisadores identificaram um neurônio no CLIP[nota 2] que responde a imagens de pessoas em trajes do homem-aranha, esboços do homem-aranha e a palavra "aranha".[71] Ele também envolve a explicação das conexões entre esses neurônios ou "circuitos".[72][73] Os pesquisadores identificaram mecanismos de correspondência de padrões na atenção transformadora ("transformer attention mechanism") que podem desempenhar um papel na forma como os modelos de linguagem aprendem com seu contexto.[74] A "interpretabilidade interna" foi comparada à neurociência. Em ambos os casos, o objetivo é entender o que está acontecendo em um sistema complexo, embora os pesquisadores de ML tenham a vantagem de poder fazer medições perfeitas e realizar ablações arbitrárias.[75]
Detecção de cavalos de troia
Os modelos de machine learning podem conter "cavalos de troia" ou "backdoors": vulnerabilidades que os agentes mal-intencionados criam maliciosamente em um sistema de IA. Por exemplo, um sistema de reconhecimento facial com cavalo de troia poderia conceder acesso quando uma peça específica de joalheria estiver à vista;[30] ou um veículo autônomo com o vírus pode funcionar normalmente até que um gatilho específico esteja visível.[76] É importante ressaltar que um invasor deve ter acesso aos dados de treinamento do sistema para plantar um cavalo de troia. Isso pode não ser difícil de fazer com alguns modelos grandes, como o CLIP ou o GPT-3, pois eles são treinados com dados da internet disponíveis publicamente.[77] Os pesquisadores conseguiram instalar um cavalo de troia em um classificador de imagens alterando apenas 3 de 3 milhões de imagens de treinamento.[78] Além de representar um risco à segurança, os pesquisadores argumentam que esses vírus fornecem um cenário concreto para testar e desenvolver melhores ferramentas de monitoramento.[46]
No campo da inteligência artificial, a pesquisa de alinhamento tem como objetivo direcionar os sistemas de IA para as metas, preferências ou princípios éticos pretendidos pelos seres humanos. Um sistema de inteligência artificial é considerado alinhado se ele alcança os objetivos pretendidos. Um sistema de IA desalinhado é competente em promover alguns objetivos, mas não os pretendidos.[79][nota 3][nota 4]
Pode ser um desafio para os desenvolvedores de IA alinhar um sistema de inteligência artificial, porque pode ser difícil especificar toda a gama de comportamentos desejados e indesejados. Para evitar essa dificuldade, eles geralmente usam metas substitutas mais simples, como obter aprovação humana. No entanto, essa abordagem pode criar brechas, ignorar as restrições necessárias ou recompensar o sistema de IA por parecer alinhado.[79][81]
Sistemas de IA desalinhados podem funcionar mal ou causar danos. Eles podem encontrar brechas que lhes permitam atingir suas metas de proxy de forma eficiente, mas de maneiras não intencionais e, às vezes, prejudiciais ("reward hacking").[79][82][83] Os sistemas de inteligência artificial também podem desenvolver estratégias instrumentais ("instrumental strategies") indesejadas, como a busca de poder ou sobrevivência, porque essas estratégias os ajudam a atingir seus objetivos explícitos.[84][85][79] Além disso, eles podem desenvolver objetivos emergentes indesejáveis que podem ser difíceis de detectar antes de o sistema ser implementado, situação na qual este enfrenta novas situações e distribuições de dados ("domain adaptation").[86][87]
Atualmente, esses problemas afetam os sistemas comerciais, como modelos de linguagem,[88][89][90] robôs,[91] veículos autônomos[92] e mecanismos de recomendação de mídia social.[85][85][93] Alguns pesquisadores de IA argumentam que os sistemas futuros mais capazes serão afetados de forma mais grave, pois esses problemas resultam parcialmente do fato de os sistemas serem altamente capazes.[81][82][94]
Cientistas da computação relevantes, como Geoffrey Hinton e Stuart Russell, argumentam que a inteligência artificial está se aproximando de capacidades sobre-humanas e pode colocar em risco a civilização humana se estiver desalinhada.[85][95][nota 5]
A comunidade de pesquisa de inteligência artificial e as Nações Unidas pediram soluções de pesquisa técnica e políticas para garantir que os sistemas de IA estejam alinhados com os valores humanos.[91]
O alinhamento da IA é, portanto, um subcampo da segurança da inteligência artificial.[97] Outros subcampos da segurança da IA incluem robustez, monitoramento e controle de capacidade ("capability control").[98] Os desafios de pesquisa em alinhamento incluem incutir valores complexos na inteligência artificial, desenvolver IA honesta, supervisão escalável, auditoria e interpretação de modelos de IA e evitar comportamentos emergentes da inteligência artificial, como a busca de poder.[27] A pesquisa de alinhamento possui conexões com a pesquisa de interpretabilidade,[99][100] robustez (adversária),[27]detecção de anomalias, incerteza calibrada ("uncertainty quantification"),[27]verificação formal,[101] aprendizagem de preferências ("preference learning"),[102][103][104] engenharia de segurança crítica (SCS em inglês),[105]teoria dos jogos,[106] justiça algorítmica,[nota 6][27][107] ciências sociais,[108] entre outros.
Segurança sistêmica e fatores sociotécnicos
É comum que os riscos da inteligência artificial (e os riscos tecnológicos em geral) sejam categorizados como uso indevido ou acidentes.[109] Alguns estudiosos sugerem que essa estrutura é insuficiente.[109] Por exemplo, a Crise dos Mísseis de Cuba não foi um acidente ou um uso indevido de tecnologia.[109] Os analistas de políticas Zwetsloot e Dafoe escreveram: "as perspectivas de uso indevido e acidente tendem a se concentrar apenas na última etapa de uma cadeia causal que leva a um dano: ou seja, a pessoa que usou indevidamente a tecnologia ou o sistema que se comportou de maneira não intencional... Muitas vezes, porém, a cadeia causal relevante é muito mais longa". Os riscos geralmente surgem de fatores "estruturais" ou "sistêmicos", como pressões competitivas, difusão de danos, desenvolvimento acelerado, altos níveis de incerteza e cultura de segurança inadequada.[109] No contexto mais amplo da engenharia de segurança, fatores estruturais como "cultura de segurança organizacional" desempenham um papel central na popular estrutura de análise de risco STAMP (em inglês).[110]
Inspirados pela perspectiva estrutural, alguns pesquisadores enfatizam a importância de usar o ML para melhorar os fatores de segurança sociotécnica, por exemplo, usar o machine learning para defesa cibernética, melhorando a tomada de decisões institucionais e facilitando a cooperação.[30]
Defesa cibernética
Alguns estudiosos estão preocupados com o fato de a IA exacerbar o jogo já desequilibrado entre os atacantes e os defensores cibernéticos[110], o que incentivaria o "primeiro ataque" e poderia levar a ataques mais agressivos e desestabilizadores. Para mitigar esse risco, alguns defendem uma maior ênfase na defesa cibernética. Além disso, a segurança do software é essencial para evitar que modelos poderosos de inteligência artificial sejam roubados e usados indevidamente.[9]
Melhorando a tomada de decisões institucionais
O avanço da IA nos domínios econômico e militar pode precipitar desafios políticos sem precedentes.[111] Alguns estudiosos comparam a dinâmica da corrida da inteligência artificial à da Guerra Fria, na qual o julgamento cuidadoso de um pequeno número de tomadores de decisão muitas vezes fazia a diferença entre a estabilidade e a catástrofe.[112] Os pesquisadores de inteligência artificial argumentam que essas tecnologias também poderiam ser usadas para auxiliar na tomada de decisões.[30] Por exemplo, estão começando a ser desenvolvidos sistemas de previsão[113] e de consultoria de inteligência artificial.[114]
Facilitando a cooperação
Muitas das maiores ameaças globais (guerra nuclear,[115] mudança climática,[116] etc.) foram enquadradas como desafios de cooperação. Como no conhecido cenário do dilema do prisioneiro, algumas dinâmicas podem levar a resultados ruins para todos os participantes, mesmo quando eles estão agindo de forma ideal. Por exemplo, nenhum ator isolado tem fortes incentivos para lidar com as mudanças climáticas, embora as consequências possam ser significativas se ninguém intervir.[117]
Um desafio importante da cooperação em IA é evitar uma "corrida para o fundo do poço" ("race to the bottom").[118] Nesse cenário, países ou empresas correm para construir sistemas de inteligência artificial mais capazes e negligenciam a segurança, levando a um acidente catastrófico que prejudica todos os envolvidos. As preocupações com cenários como esse inspiraram esforços políticos[119] e técnicos[120] para facilitar a cooperação entre humanos e, possivelmente, também entre sistemas de IA. A maioria das pesquisas sobre inteligência artificial concentra-se na criação de agentes individuais para atender a funções isoladas (geralmente em jogos para um jogador).[121] Os especialistas sugerem que, à medida que os sistemas de IA se tornam mais autônomos, pode ser essencial estudar e moldar a maneira como eles interagem.[122]
Na governança
A governança da inteligência artificial lida com a criação de normas, padrões e regulamentações para orientar o uso e o desenvolvimento de sistemas de IA[123], o que envolve a formulação e a implementação de recomendações concretas, bem como a realização de pesquisas mais fundamentais para informar quais devem ser essas recomendações. Esta seção se concentra nos aspectos da governança da inteligência artificial que estão especificamente relacionados a garantir que os sistemas de inteligência artificial sejam seguros e benéficos.
Pesquisa
A pesquisa de governança da segurança da inteligência artificial abrange desde investigações fundamentais sobre os possíveis impactos da IA até aplicações específicas. No aspecto fundamental, os pesquisadores argumentam que a IA poderia transformar muitos aspectos da sociedade devido à sua ampla aplicabilidade, comparando-a à eletricidade e o motor a vapor.[124] Alguns trabalhos se concentraram em antecipar riscos específicos que podem surgir desses impactos - por exemplo, riscos de desemprego em massa,[125] armamento,[126] desinformação,[127] vigilância[128] e concentração de poder.[129] Outros trabalhos exploram os fatores de risco subjacentes, como a dificuldade de monitorar o setor de inteligência artificial em rápida evolução,[130] a disponibilidade de modelos de IA,[131] e a dinâmica de "corrida para o fundo do poço".[118][132] Allan Dafoe, chefe de governança e estratégia de longo prazo da DeepMind, enfatizou os perigos da corrida e a possível necessidade de cooperação: "pode ser quase uma condição necessária e suficiente para a segurança e o alinhamento da IA que haja um alto grau de cautela antes da implementação de sistemas avançados e poderosos; no entanto, se os atores estiverem competindo em um domínio com grandes retornos para os pioneiros ou vantagem relativa, eles serão pressionados a escolher um nível de cautela abaixo do ideal".[119]
Ação governamental
Alguns especialistas argumentam que é muito cedo para regulamentar a IA, expressando preocupações de que as regulamentações dificultem a inovação e que não faria sentido "apressar a regulamentação por ignorância".[133][134] Outros, como o magnata dos negócios Elon Musk, pedem uma ação preventiva para mitigar riscos catastróficos.[135] Até o momento, pouca regulamentação de segurança da inteligência artificial foi aprovada ao redor do mundo, embora muitos projetos de lei tenham sido apresentados. Um exemplo importante é a Lei de Inteligência Artificial da União Europeia ("AI Act"), que regulamenta determinados aplicativos de IA de "alto risco" e restringe usos potencialmente prejudiciais, como reconhecimento facial, manipulação subliminar e pontuação de crédito social.[136]
Fora da legislação formal, agências governamentais de determinados países apresentaram recomendações éticas e de segurança. Em março de 2021, a Comissão de Segurança Nacional dos EUA sobre Inteligência Artificial ("US National Security Commission on Artificial Intelligence") relatou que os avanços na IA podem tornar cada vez mais importante "garantir que os sistemas estejam alinhados com metas e valores, incluindo segurança, robustez e confiabilidade".[137] Posteriormente, o Instituto Nacional de Padrões e Tecnologia ("National Institute of Standards and Technology") elaborou uma estrutura para gerenciar o risco de IA, que aconselha que, quando "riscos catastróficos estiverem presentes, o desenvolvimento e a implantação devem ser interrompidos de maneira segura até que os riscos possam ser suficientemente gerenciados".[138]
Em setembro de 2021, a República Popular da China publicou diretrizes éticas para o uso de IA no país, enfatizando que as decisões sobre inteligência artificial devem permanecer sob controle humano e exigindo mecanismos de responsabilidade. No mesmo mês, o Reino Unido publicou sua Estratégia Nacional de IA de 10 anos,[139] que afirma que o governo britânico "leva a sério o risco de longo prazo da Inteligência Artificial Geral não alinhada e as mudanças imprevisíveis que isso significaria para o mundo."[140] A estratégia descreve ações para avaliar os riscos de IA de longo prazo, incluindo riscos catastróficos.[140]
As organizações governamentais, principalmente nos Estados Unidos, também incentivaram o desenvolvimento de pesquisas técnicas de segurança de inteligência artificial. A Atividade de Projetos de Pesquisa Avançada de Inteligência ("The Intelligence Advanced Research Projects Activity") iniciou o projeto TrojAI para identificar e proteger contra ataques de cavalos de troia em sistemas de IA.[141] A Agência de Projetos de Pesquisa Avançada de Defesa ("Defense Advanced Research Projects Agency") está envolvida em pesquisas sobre inteligência artificial explicável e melhoria da robustez contra ataques adversários,[142][143] e a Fundação Nacional de Ciências apoia o Centro para Machine Learning Confiável ("Center for Trustworthy Machine Learning") e está fornecendo milhões em financiamento para pesquisas empíricas de segurança de inteligência artificial.[144]
Autorregulamentação corporativa
Os laboratórios e as empresas de inteligência artificial geralmente seguem práticas e normas de segurança que não se enquadram na legislação formal.[145] Um dos objetivos dos pesquisadores de governança é moldar essas normas. Exemplos de recomendações de segurança encontradas na literatura incluem a realização de auditorias por terceiros,[146] a oferta de recompensas por falhas encontradas,[146] o compartilhamento de incidentes de IA[146] (um banco de dados de incidentes de IA sendo criado para esse fim),[147] o cumprimento de diretrizes para determinar se a pesquisa ou os modelos devem ser publicados,[131] e a melhoria das informações e da segurança cibernética nos laboratórios de inteligência artificial.[148]
As empresas também assumem compromissos concretos. A Cohere, a OpenAI e a AI21 propuseram e concordaram com as "práticas recomendadas para a implementação de modelos de linguagem", com foco na redução do uso indevido.[149] Para evitar contribuir com a dinâmica de corrida, a OpenAI também declarou em seu estatuto que "se um projeto alinhado a valores e consciente da segurança se aproximar da construção de inteligência artificial geral (AGI) antes de nós, nos comprometemos a parar de competir e começar a ajudar esse projeto."[150] Além disso, líderes do setor, como o CEO da DeepMind Demis Hassabis e o diretor de IA do Facebook Yann LeCun, assinaram cartas abertas, como os Princípios de Asilomar[26] e a Carta Aberta sobre Armas Autônomas.[151]
↑"AI Race" em inglês: conceito no qual a corrida pelo avanço da IA poderia minar a questão da segurança.
↑Uma rede neural que aprende com eficiência conceitos visuais a partir da supervisão de linguagem natural.
↑A distinção entre IA desalinhada e IA incompetente foi formalizada em determinados contextos.[30]
↑Essa seção é um excerto do artigo [80] "AI alignment" da Wikipédia em inglês.
↑Por exemplo, em uma entrevista de TV em 2016, Geoffrey Hinton, vencedor do prêmio Turing, observou[96]:
Hinton
Obviamente, ter outros seres superinteligentes que são mais inteligentes do que nós é algo que nos deixa nervosos [...].
Entrevistador
Que aspecto disso o deixa nervoso?
Hinton
Bem, será que eles serão legais conosco?
Entrevistador
É como nos filmes. Você está preocupado com aquele cenário dos filmes...
Hinton
Em um prazo muito longo, sim. Acho que nos próximos 5 a 10 anos [2021 a 2026] não precisaremos nos preocupar com isso. Além disso, os filmes sempre a retratam como uma inteligência individual. Acho que pode ser que ela vá em uma direção diferente, em que nós meio que nos desenvolvemos em conjunto com essas coisas. Portanto, as coisas não são totalmente autônomas; elas são desenvolvidas para nos ajudar; são como assistentes pessoais. E nós nos desenvolveremos com eles. E será mais uma simbiose do que uma rivalidade. Mas não sabemos.
Entrevistador
Isso é uma expectativa ou uma esperança?
Hinton
É uma esperança.
↑As decisões tomadas por computadores após um processo de ML podem ser consideradas injustas se forem baseadas em variáveis consideradas sensíveis. Exemplos desses tipos de variáveis incluem gênero, etnia, orientação sexual, deficiência e outros.
↑Zhang, Baobao; Anderljung, Markus; Kahn, Lauren; Dreksler, Noemi; Horowitz, Michael C.; Dafoe, Allan (5 de maio de 2021). «Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers» (em inglês). arXiv:2105.02117
↑Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe; Phang, Jason; Bowman, Samuel R. (26 de agosto de 2022). «What Do NLP Researchers Believe? Results of the NLP Community Metasurvey» (em inglês). arXiv:2208.12852
↑De-Arteaga, Maria (13 de maio de 2020). Machine Learning in High-Stakes Settings: Risks and Opportunities (PhD) (em inglês). Carnegie Mellon University
↑Yampolskiy, Roman V.; Spellchecker, M. S. (25 de outubro de 2016). «Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures» (em inglês). arXiv:1610.07997
↑Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (25 de julho de 2016). «Concrete Problems in AI Safety» (em inglês). arXiv:1606.06565
↑ abcdefHendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (16 de junho de 2022). «Unsolved Problems in ML Safety» (em inglês). arXiv:2109.13916
↑ abSzegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 de fevereiro de 2014). «Intriguing properties of neural networks» (em inglês). arXiv:1312.6199
↑Kurakin, Alexey; Goodfellow, Ian; Bengio, Samy (10 de fevereiro de 2017). «Adversarial examples in the physical world» (em inglês). arXiv:1607.02533
↑Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 de setembro de 2019). «Towards Deep Learning Models Resistant to Adversarial Attacks» (em inglês). arXiv:1706.06083
↑Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 de março de 2018). «Adversarial Logit Pairing» (em inglês). arXiv:1803.06373
↑Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 de julho de 2018). «Motivating the Rules of the Game for Adversarial Example Research» (em inglês). arXiv:1807.06732
↑Carlini, Nicholas; Wagner, David (29 de março de 2018). «Audio Adversarial Examples: Targeted Attacks on Speech-to-Text» (em inglês). arXiv:1801.01944
↑Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 de setembro de 2022). «Adversarial Examples in Constrained Domains» (em inglês). arXiv:2011.01183
↑Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 de abril de 2019). «Exploring Adversarial Examples in Malware Detection» (em inglês). arXiv:1810.08280
↑Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie (4 de março de 2022). «Training language models to follow instructions with human feedback» (em inglês). arXiv:2203.02155
↑Gao, Leo; Schulman, John; Hilton, Jacob (19 de outubro de 2022). «Scaling Laws for Reward Model Overoptimization» (em inglês). arXiv:2210.10760
↑Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 de outubro de 2021). «RoMA: Robust Model Adaptation for Offline Model-based Optimization» (em inglês). arXiv:2110.14188
↑ abHendrycks, Dan; Mazeika, Mantas (20 de setembro de 2022). «X-Risk Analysis for AI Research» (em inglês). arXiv:2206.05862
↑Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (6 de agosto de 2017). «On calibration of modern neural networks». Proceedings of the 34th international conference on machine learning. Proceedings of machine learning research (em inglês). 70. PMLR. pp. 1321–1330
↑Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji; Snoek, Jasper (17 de dezembro de 2019). «Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift» (em inglês). arXiv:1906.02530
↑Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zöllner, J. Marius (2021). «Description of Corner Cases in Automated Driving: Goals and Challenges». 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW) (em inglês): 1023–1028. ISBN978-1-6654-0191-3. arXiv:2109.09607. doi:10.1109/ICCVW54120.2021.00119
↑Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 de janeiro de 2019). «Deep Anomaly Detection with Outlier Exposure» (em inglês). arXiv:1812.04606
↑Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 de março de 2022). «ViM: Out-Of-Distribution with Virtual-logit Matching» (em inglês). arXiv:2203.10807
↑Hendrycks, Dan; Gimpel, Kevin (3 de outubro de 2018). «A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks» (em inglês). arXiv:1610.02136
↑ abDoshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James; Weinberger, David; Weller, Adrian; Wood, Alexandra (20 de dezembro de 2019). «Accountability of AI Under the Law: The Role of Explanation» (em inglês). arXiv:1711.01134
↑Fong, Ruth; Vedaldi, Andrea (2017). «Interpretable Explanations of Black Boxes by Meaningful Perturbation». 2017 IEEE International Conference on Computer Vision (ICCV) (em inglês): 3449–3457. ISBN978-1-5386-1032-9. arXiv:1704.03296. doi:10.1109/ICCV.2017.371
↑Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). «Locating and editing factual associations in GPT». Advances in Neural Information Processing Systems (em inglês). 35. arXiv:2202.05262
↑Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30 de julho de 2020). «Rewriting a Deep Generative Model» (em inglês). arXiv:2007.15646
↑Räuker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 de setembro de 2022). «Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks» (em inglês). arXiv:2207.13243
↑Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 de abril de 2017). «Network Dissection: Quantifying Interpretability of Deep Visual Representations» (em inglês). arXiv:1704.05796
↑Goh, Gabriel; Cammarata, Nick; Voss, Chelsea; Carter, Shan; Petrov, Michael; Schubert, Ludwig; Radford, Alec; Olah, Chris (2021). «Multimodal neurons in artificial neural networks». Distill (em inglês). 6 (3). doi:10.23915/distill.00030
↑Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). «Zoom in: An introduction to circuits». Distill (em inglês). 5 (3). doi:10.23915/distill.00024.001
↑Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). «Curve circuits». Distill (em inglês). 6 (1). doi:10.23915/distill.00024.006 (inativo 31 de dezembro de 2022). Consultado em 5 de dezembro de 2022. Cópia arquivada em 5 de dezembro de 2022
↑Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 de março de 2019). «BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain» (em inglês). arXiv:1708.06733
↑Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 de dezembro de 2017). «Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning» (em inglês). arXiv:1712.05526
↑Carlini, Nicholas; Terzis, Andreas (28 de março de 2022). «Poisoning and Backdooring Contrastive Learning» (em inglês). arXiv:2106.09667
↑ abNgo, Richard; Chan, Lawrence; Mindermann, Sören (22 de fevereiro de 2023). «The alignment problem from a deep learning perspective» (em inglês). arXiv:2209.00626 [cs.AI]
↑Zhuang, Simon; Hadfield-Menell, Dylan (2020). «Consequences of Misaligned AI». Advances in Neural Information Processing Systems. 33. Curran Associates, Inc. pp. 15763–15773. Consultado em 11 de março de 2023
↑Carlsmith, Joseph (16 de junho de 2022). «Is Power-Seeking AI an Existential Risk?» (em inglês). arXiv:2206.13353 [cs.CY]
↑Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (28 de junho de 2022). «Goal Misgeneralization in Deep Reinforcement Learning». Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning (em inglês). PMLR. pp. 12004–12019. Consultado em 11 de março de 2023
↑Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (12 de julho de 2022). «On the Opportunities and Risks of Foundation Models». Stanford CRFM. arXiv:2108.07258
↑Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). «Training language models to follow instructions with human feedback». arXiv:2203.02155 [cs.CL]
↑Geoffrey Hinton (3 de março de 2016). The Code That Runs Our Lives. The Agenda. Em cena em 10:00. Consultado em 13 de março de 2023
↑Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (21 de junho de 2016). «Concrete Problems in AI Safety» (em inglês). arXiv:1606.06565 [cs.AI]
↑Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). «A survey of preference-based reinforcement learning methods». Journal of Machine Learning Research. 18 (136): 1–46
↑Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). «Deep reinforcement learning from human preferences». Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN978-1-5108-6096-4
↑Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (7 de março de 2022). «Taxonomy of Machine Learning Safety: A Survey and Primer». arXiv:2106.04823 [cs.LG]
↑Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob; Evans, Owain; Hendrycks, Dan (9 de outubro de 2022). «Forecasting Future World Events with Neural Networks» (em inglês). arXiv:2206.15474
↑Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Çağatay (8 de fevereiro de 2022). «Augmenting Decision Making via Interactive What-If Analysis» (em inglês). arXiv:2109.06160
↑ abArmstrong, Stuart; Bostrom, Nick; Shulman, Carl. Racing to the Precipice: a Model of Artificial Intelligence Development (Relatório) (em inglês). Future of Humanity Institute, Oxford University
↑ abDafoe, Allan. AI Governance: A Research Agenda (Relatório) (em inglês). Centre for the Governance of AI, Future of Humanity Institute, University of Oxford
↑Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (15 de dezembro de 2020). «Open Problems in Cooperative AI» (em inglês). arXiv:2012.08630
↑葉俶禎; 黃子君; 張媁雯; 賴志樫 (1 de dezembro de 2020). «Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review». 臺灣東亞文明研究學刊 (em inglês). 17 (2). ISSN1812-6243. doi:10.6163/TJEAS.202012_17(2).0002
↑Askell, Amanda; Brundage, Miles; Hadfield, Gillian (10 de julho de 2019). «The Role of Cooperation in Responsible AI Development» (em inglês). arXiv:1907.04534
↑ abOffice for Artificial Intelligence, Department for Digital, Culture, Media & Sport, and Department for Business, Energy & Industrial Strategy (2021). «Guidance: National AI Strategy». GOV.UK (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 10 de fevereiro de 2023 !CS1 manut: Nomes múltiplos: lista de autores (link)
↑Office of the Director of National Intelligence; Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. «IARPA - TrojAI» (em inglês). Consultado em 24 de novembro de 2022. Cópia arquivada em 24 de novembro de 2022