Generative Pre-Training Transformer 3 (GPT-3) (Transformador generativo pré-treinado 3) é um modelo de linguagem autorregressivo que usa aprendizagem profunda para produzir texto semelhante ao humano. É o modelo de previsão de linguagem de terceira geração da série GPT-n (e o sucessor do GPT-2) criado pela OpenAI, um laboratório de pesquisa de inteligência artificial com sede em San Francisco. A versão completa do GPT-3 tem capacidade para 175 bilhões de parâmetros de aprendizado de máquina. Introduzida em maio de 2020 e estava em teste beta em julho de 2020,[1] essa versão é parte de uma tendência em sistemas de processamento de linguagem natural (PNL) de representações de linguagem pré-treinadas. Antes do lançamento do GPT-3, o maior modelo de linguagem era o Turing NLG da Microsoft, lançado em fevereiro de 2020, com capacidade para 17 bilhões de parâmetros – menos de um décimo do GPT-3.[2]
A qualidade do texto gerado pelo GPT-3 é tão alta que é difícil distingui-lo daquele escrito por um humano, o que tem benefícios e riscos. Trinta e um pesquisadores e engenheiros da OpenAI apresentaram o artigo original em 28 de maio de 2020 apresentando o GPT-3. Em seu artigo, eles alertaram sobre os perigos potenciais da GPT-3 e pediram pesquisas para mitigar o risco. David Chalmers, um filósofo australiano, descreveu o GPT-3 como "um dos sistemas de IA mais interessantes e importantes já produzidos".[3]
A Microsoft anunciou em 22 de setembro de 2020 ter licenciado o uso "exclusivo" do GPT-3: ainda se pode usar a API pública para receber os resultados do modelo, mas apenas a empresa tem acesso ao código-fonte do GPT-3.[4]
Uma review de abril de 2022 no The New York Times descreveu as capacidades do GPT-3 como sendo capaz de escrever prosa original com fluência equivalente à de um humano.[5]
Em 15 de março de 2022, a OpenAI disponibilizou novas versões do GPT-3 e Codex em sua API sob os nomes "text-davinci-003" e "code-davinci-002".[7] Esses modelos foram descritos como mais capazes do que as versões anteriores.[8] Em 30 de novembro de 2022, a OpenAI começou a se referir a esses modelos como pertencentes à série "GPT-3.5",[9] e lançou o ChatGPT, a qual foi realizado o Fine Tuning a partir de um modelo da série GPT-3.5.[10]
As melhorias do modelo GPT 3.5 na compreensão linguística e na análise de contexto melhoraram significativamente a qualidade do conteúdo gerado, tornando-o uma ferramenta valiosa para uma ampla variedade de aplicações. No entanto, apesar desses avanços, foram desenvolvidas várias ferramentas de detecção de IA[11] que podem discernir se o conteúdo é escrito por um IA ou por um humano. Esses detectores exploram sutis padrões no uso da linguagem, na estrutura das frases e em nuances estilísticas que os modelos de IA, incluindo o GPT-3.5, tendem a exibir. Essa capacidade de detecção ressalta a importância da transparência no uso de IA, garantindo a discernibilidade entre o conteúdo gerado por humanos e o conteúdo gerado por IA.
Contexto
De acordo com a revista The Economist, algoritmos aprimorados, computadores poderosos e um aumento nos dados digitalizados impulsionaram uma revolução no aprendizado de máquina, com novas técnicas na década de 2010 que resultaram em "melhorias rápidas nas tarefas", incluindo a manipulação da linguagem.[12] Os modelos de software são treinados para aprender usando milhares ou milhões de exemplos em uma "estrutura ... vagamente baseada na arquitetura neural do cérebro".[12] Uma arquitetura usada no processamento de linguagem natural (PNL) é uma rede neural baseada em um modelo de aprendizado profundo, apresentado pela primeira vez em 2017 - o Transformer. Os modelos GPT-n são baseados nessa arquitetura de rede neural de aprendizado profundo. baseada em Transformer. Existem vários sistemas de PNL capazes de processar, minerar, organizar, conectar, contrastar, compreender e gerar respostas para perguntas.[13]
Em 11 de junho de 2018, pesquisadores e engenheiros da OpenAI publicaram seu artigo original sobre modelos generativos, modelos de linguagem e sistemas de inteligência artificial que poderiam ser pré-treinados com um enorme e diversificado corpus de texto por meio de conjunto de dados, em um processo que eles chamaram de pré-treinamento generativo (GP).[14] Os autores descreveram como os desempenhos de compreensão da linguagem no processamento de linguagem natural (PLN) foram melhorados no GPT-n através de um processo de "pré-treinamento generativo de um modelo de linguagem em um corpus diversificado de texto não rotulado, seguido de ajuste discriminativo em cada tarefa." Isso eliminou a necessidade de supervisão humana e de rotulagem manual demorada.[14]
Em fevereiro de 2020, a Microsoft apresentou o Turing Natural Language Generation (T-NLG), que foi considerada o "maior modelo de linguagem já publicado em 17 bilhões de parâmetros".[15] Ele teve um desempenho melhor do que qualquer outro modelo de linguagem em uma variedade de tarefas que incluíam resumir textos e responder a perguntas.
Aplicação
O GPT-3, especificamente o modelo Codex, é a base do GitHub Copilot, um software de geração e conclusão de código que pode ser usado em vários editores de código e IDEs.
O GPT-3 é usado em certos produtos da Microsoft para traduzir linguagem convencional em código formal de computador.[16]
O GPT-3 foi usado por Andrew Mayne para o AI Writer,[17] que permite que as pessoas se correspondam como figuras históricas por e-mail.
O GPT-3 foi usado por Jason Rohrer em um projeto de chatbot com tema retrô chamado "Project December", que é acessível online e permite que os usuários conversem com vários IAs usando a tecnologia GPT-3.[18]
O GPT-3 foi usado pelo The Guardian para escrever um artigo sobre a IA ser inofensiva para os seres humanos. Ele foi alimentado com algumas ideias e produziu oito redações diferentes, que acabaram sendo fundidos em um artigo.[19]
O GPT-3 foi usado no AI Dungeon, que gera jogos de aventura baseados em texto. Mais tarde, foi substituído por um modelo concorrente depois que a OpenAI mudou sua política em relação ao conteúdo gerado.[20]
Um estudo de 2023 da Universidade de Coimbra permitiu decifrar as capacidades do GPT-3 em gerar SPARQL queries para responder a perguntas através do conceito de Linked Data.[23]
Controvérsia
A criadora do GPT-3, OpenAI, foi inicialmente fundada como uma organização sem fins lucrativos, em 2015.[24] Em 2019, a OpenAI não lançou publicamente o modelo precursor da GPT-3, rompendo com as suas práticas anteriores de código aberto, se dizendo preocupada de que o modelo poderia gerar notícias falsas. A OpenAI chegou a lançar uma versão do GPT-2 que tinha 8% do tamanho do modelo original. No mesmo ano, a OpenAI se reestruturou para ser uma empresa com fins lucrativos. Em 2020, a Microsoft anunciou que a empresa tinha licenciamento exclusivo do GPT-3 para seus produtos e serviços após um investimento de bilhões de dólares na OpenAI. O acordo permite que a OpenAI ofereça uma API voltada ao público de forma que os usuários possam enviar texto ao GPT-3 para receber os resultados do uso do modelo, mas apenas a Microsoft terá acesso ao código-fonte do GPT-3.[25]. Elon Musk Propõe Modernizar a tecnologia Federal dos EUA: Revolução Tecnológica ou Apenas Palavras?[26]
Referências
↑Bussler, Frederik (21 de julho de 2020). «Will GPT-3 Kill Coding?». Towards Data Science. Consultado em 1 de agosto de 2020
↑Chalmers, David (30 de julho de 2020). Weinberg, Justin, ed. «GPT-3 and General Intelligence». Daily Nous. Philosophers On GPT-3 (updated with replies by GPT-3). Consultado em 4 de agosto de 2020
↑Hao, Karen (23 de setembro de 2020). «OpenAI is giving Microsoft exclusive access to its GPT-3 language model». MIT Technology Review (em inglês). Consultado em 25 de setembro de 2020. The companies say OpenAI will continue to offer its public-facing API, which allows chosen users to send text to GPT-3 or OpenAI's other models and receive its output. Only Microsoft, however, will have access to GPT-3's underlying code, allowing it to embed, repurpose, and modify the model as it pleases.
↑Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish (22 de julho de 2020). «Language Models are Few-Shot Learners». arXiv:2005.14165 [cs]. doi:10.48550/arxiv.2005.14165. Consultado em 7 de fevereiro de 2023
↑Agbavor, Felix; Liang, Hualou (22 de dezembro de 2022). «Predicting dementia from spontaneous speech using large language models». PLOS Digital Health. 1 (12): e0000168. doi:10.1371/journal.pdig.0000168