Google Ngram ViewerO Google Ngram Viewer ou o Google Books Ngram Viewer é um mecanismo de pesquisa on-line que mapeia as frequências de qualquer conjunto de cadeias de pesquisa delimitadas por vírgulas usando uma contagem anual de n-gramas encontrados em fontes impressas entre 1500 e 2008[1][2][3][4][5] nos corpora de texto do Google em inglês, chinês (simplificado), francês, alemão, hebraico, italiano, russo ou espanhol.[2][6] Existem também alguns corpora em inglês especializados, como inglês americano, inglês britânico e ficção inglesa; e a versão 2009 da maioria dos corpora também está disponível.[7] O programa pode procurar por uma única palavra ou frase, incluindo erros ortográficos ou rabiscos.[6] Os n-gramas são combinados com o texto dentro do corpus selecionado, opcionalmente usando ortografia com distinção entre maiúsculas e minúsculas (que compara o uso exato de letras maiúsculas),[3] e, se encontrado em 40 ou mais livros, são plotados em um gráfico.[8] O Google Ngram Viewer, desde janeiro de 2016, suporta pesquisas por classe gramatical e curingas.[7] HistóriaO programa foi desenvolvido por Jon Orwant e Will Brockman e lançado em meados de dezembro de 2010.[2][4] Foi inspirado em um protótipo (chamado "Bookworm") criado por Jean-Baptiste Michel e Erez Aiden do Observatório Cultural de Harvard e Yuan Shen do MIT e Steven Pinker.[9] O Ngram Viewer foi inicialmente baseado na edição de 2009 do Google Livros Ngram Corpus. Desde janeiro de 2016, o programa pode pesquisar o corpus de um idioma individual na edição de 2009 ou 2012. Operação e restriçõesVírgulas delimitam termos de pesquisa inseridos pelo usuário, indicando cada palavra ou frase separada a ser encontrada.[8] O Ngram Viewer retorna um gráfico de linhas plotado segundos após o usuário pressionar a tecla Enter ou o botão "Search" na tela. Como um ajuste para a publicação de mais livros durante alguns anos, os dados são normalizados, em nível relativo, pelo número de livros publicados em cada ano.[8] O Google preencheu o banco de dados de mais de 5 milhões de livros publicados até 2008. Assim, a partir de janeiro de 2016, nenhum dado corresponderá além do ano de 2008, independentemente de o corpus ter sido gerado em 2009 ou 2012. Devido a limitações no tamanho do banco de dados Ngram, apenas correspondências encontradas em pelo menos 40 livros são indexadas no banco de dados; caso contrário, o banco de dados pode não ter armazenado todas as combinações possíveis.[8] Normalmente, os termos de pesquisa não podem terminar com pontuação, embora um ponto final separado (um ponto) possa ser pesquisado.[8] Além disso, um ponto de interrogação no final (como em "Por quê?") fará uma segunda pesquisa para o ponto de interrogação separadamente.[8] A omissão dos períodos nas abreviações permitirá uma forma de correspondência, como usar "R M S" para procurar "R.M.S." versus "RMS". CorporaOs corpora usados para a pesquisa são compostos de arquivos de total_counts, 1-gramas, 2-gramas, 3-gramas, 4-gramas e 5-gramas para cada idioma. O formato do arquivo de cada um dos arquivos são dados separados por tabulação. Cada linha tem o seguinte formato:[10]
O Google Ngram Viewer usa match_count para plotar o gráfico. Como exemplo, uma palavra "Wikipedia" do arquivo da versão 2 do inglês 1-gramas é armazenada da seguinte maneira:[11]
O gráfico plotado pelo Google Ngram Viewer usando os dados acima está aqui:[12] CríticaO conjunto de dados foi criticado por confiar em OCR impreciso, uma superabundância de literatura científica e por incluir um grande número de textos incorretamente datados e categorizados.[13][14] Por causa desses erros e por não ser controlado pelo viés[15] (como a quantidade crescente de literatura científica, que faz com que outros termos pareçam diminuir em popularidade), é arriscado usar esse corpus para estudar a linguagem ou testar teorias.[16] Como o conjunto de dados não inclui metadados, ele pode não refletir alterações linguísticas ou culturais gerais[17] e pode apenas sugerir esse efeito. Outra questão é que o corpus é de fato uma biblioteca, contendo um de cada livro. Um único autor prolífico pode, assim, inserir visivelmente novas frases no léxico do Google Livros, quer o autor seja amplamente lido ou não.[15] Problemas de OCRO reconhecimento óptico de caracteres ou OCR nem sempre é confiável e alguns caracteres podem não ser digitalizados corretamente. Em particular, erros sistêmicos, como a confusão de "s" e "f" nos textos anteriores ao século XIX (devido ao uso de s longo, com aparência semelhante a "f"), podem causar viés sistêmico. Embora o Google Ngram Viewer afirme que os resultados são confiáveis a partir de 1800, dados de OCR ruins e insuficientes significam que as frequências fornecidas para idiomas como o chinês só podem ser precisas a partir de 1970, com partes anteriores do corpus mostrando nenhum resultado em termos comuns e dados de alguns anos contendo mais de 50% de ruído.[18][19] Veja tambémReferências
Bibliografia
|
Portal di Ensiklopedia Dunia