Bidirecional Encoder Representations from Transformers (BERT) é uma família de modelos de linguagem introduzida em 2018 por pesquisadores do Google.[1][2] Uma pesquisa da literatura em 2020 concluiu que "em pouco mais de um ano, o BERT se tornou onipresente em experimentos de Processamento de Linguagem Natural (NLP), contando com mais de 150 publicações".[3]
O BERT foi originalmente implementado para o inglês em dois tamanhos de modelo[1]: (1) BERT BASE : 12 encoders com 12 cabeças de auto-atenção bidirecionais totalizando 110 milhões de parâmetros, e (2) BERT LARGE : 24 encoders com 16 auto-atendimento bidirecionais cabeças de atenção totalizando 340 milhões de parâmetros. Ambos os modelos foram pré-treinados no Toronto BookCorpus[4] (800 milhões de palavras) e na Wikipédia em inglês (2.500 milhões de palavras).
Arquitetura
O BERT é baseado na arquitetura transformer, sendo pré-treinado simultaneamente em duas tarefas: modelagem de linguagem (15% dos tokens foram mascarados e o objetivo do treinamento foi prever o token original, dado seu contexto) e previsão da próxima frase (o objetivo do treinamento foi classificar se dois trechos de texto apareceu sequencialmente no corpus de treinamento).[5] Como resultado desse processo de treinamento, o BERT aprende representações latentes de palavras e frases em contexto. Após o pré-treinamento, é possivél fazer um ajuste fino com menos recursos em conjuntos de dados menores para otimizar seu desempenho em tarefas específicas, como tarefas de PLN (inferência de linguagem, classificação de texto) e tarefas de geração de linguagem baseadas em sequência (resposta a perguntas, geração de resposta conversacional).[1][6] O estágio de pré-treinamento é significativamente mais caro computacionalmente do que o ajuste fino.
Desempenho
Quando o BERT foi publicado, ele alcançou desempenho de estado da arte em várias tarefas de compreensão de linguagem natural :[1]
- Conjunto de tarefas GLUE ( Avaliação de Compreensão Geral de Linguagem ) (composto por 9 tarefas)
- SQuAD (Stanford Question Answering Dataset )[7] v1.1 e v2.0
- SWAG (Situações com Gerações Adversárias )[8]
História
BERT foi originalmente publicado pelos pesquisadores do Google Jacob Devlin, Ming-Wei Chang, Kenton Lee e Kristina Toutanova. O design tem suas origens em representações contextuais de pré-treinamento, incluindo aprendizado de sequência semi-supervisionado,[9] pré-treinamento generativo, ELMo,[10] e ULMFit.[11] Ao contrário dos modelos anteriores, o BERT é uma representação profunda de linguagem bidirecional e não supervisionada, pré-treinada usando apenas um corpus de texto simples. Modelos livres de contexto, como word2vec ou GloVe, geram uma representação de incorporação de palavra única para cada palavra no vocabulário, onde o BERT leva em consideração o contexto para cada ocorrência de uma determinada palavra. Por exemplo, enquanto o vetor para "rodando" terá a mesma representação do vetor word2vec para ambas as ocorrências nas sentenças "Ele está rodando o programa" e "O pneu está rodando", o BERT fornecerá uma incorporação contextualizada que será diferentes de acordo com a frase.
Em 25 de outubro de 2019, o Google anunciou que havia começado a aplicar modelos BERT para consultas de pesquisa em inglês nos EUA.[12] Em 9 de dezembro de 2019, foi relatado que o BERT havia sido adotado pela Pesquisa do Google em mais de 70 idiomas.[13] Em outubro de 2020, quase todas as consultas em inglês foram processadas por um modelo BERT.[14]
Reconhecimento
O trabalho de pesquisa que descreve o BERT ganhou o Prêmio de Melhor Artigo Longo na Conferência Anual de 2019 do Capítulo Norte-Americano da Associação de Linguística Computacional (NAACL).[15]
Referências
- ↑ a b c d Devlin, Jacob; Chang, Ming-Wei (11 de outubro de 2018). «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding». arXiv:1810.04805v2 [cs.CL]
- ↑ «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing». Google AI Blog (em inglês). Consultado em 27 de novembro de 2019
- ↑ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). «A Primer in BERTology: What We Know About How BERT Works». Transactions of the Association for Computational Linguistics. 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349
- ↑ Zhu, Yukun; Kiros, Ryan (2015). «Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books». arXiv:1506.06724 [cs.CV]
- ↑ «Summary of the models — transformers 3.4.0 documentation». huggingface.co. Consultado em 16 de fevereiro de 2023
- ↑ Horev, Rani (2018). «BERT Explained: State of the art language model for NLP». Towards Data Science. Consultado em 27 de setembro de 2021
- ↑ Rajpurkar, Pranav; Zhang, Jian (10 de outubro de 2016). «SQuAD: 100,000+ Questions for Machine Comprehension of Text». arXiv:1606.05250 [cs.CL]
- ↑ Zellers, Rowan; Bisk, Yonatan (15 de agosto de 2018). «SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference». arXiv:1808.05326 [cs.CL]
- ↑ Dai, Andrew; Le, Quoc (4 de novembro de 2015). «Semi-supervised Sequence Learning». arXiv:1511.01432 [cs.LG]
- ↑ Peters, Matthew; Neumann, Mark (15 de fevereiro de 2018). «Deep contextualized word representations». arXiv:1802.05365v2 [cs.CL]
- ↑ Howard, Jeremy; Ruder, Sebastian (18 de janeiro de 2018). «Universal Language Model Fine-tuning for Text Classification». arXiv:1801.06146v5 [cs.CL]
- ↑ Nayak, Pandu (25 de outubro de 2019). «Understanding searches better than ever before». Google Blog. Consultado em 10 de dezembro de 2019
- ↑ Montti, Roger (10 de dezembro de 2019). «Google's BERT Rolls Out Worldwide». Search Engine Journal. Search Engine Journal. Consultado em 10 de dezembro de 2019
- ↑ «Google: BERT now used on almost every English query». Search Engine Land. 15 de outubro de 2020. Consultado em 24 de novembro de 2020
- ↑ «Best Paper Awards». NAACL. 2019. Consultado em 28 de março de 2020