Ngramクエリの例
Google Books Ngram Viewer は、Google のテキストコーパス から任意の文字列の出現頻度をチャート化し出力する、オンライン検索エンジン 。出現頻度検索には1500年 から2019年 [ 1] [ 2] [ 3] [ 4] の刊行物から生成した各年ごとのnグラム (英語版 ) が用いられ、ソースとなるコーパスは英語 、簡体中国語 、フランス語 、ドイツ語 、ヘブライ語 、イタリア語 、ロシア語 、スペイン語 等の多言語に対応している[ 1] [ 2] [ 5] 。また、アメリカ英語、イギリス英語、英語フィクション等の分野特化型英語コーパスも使用できる[ 6] 。
このプログラムは、スペルミスや解釈不能文字列も含めて単語 や句 を検索することができる[ 5] 。nグラムは選択されたコーパス内のテキストと照合され、40以上の文献でマッチがある場合、グラフ として表示される[ 6] 。検索エンジンは品詞 とワイルドカード にも対応しており[ 6] 、研究現場でも恒常的に活用されている[ 7] [ 8] 。
歴史
開発過程において、Googleはハーバード大学 の研究者であるジャン=バティスタ・ミシェル(英 : Jean-Baptiste Michel )とエレズ・リーバーマン・エイデン (英語版 ) (英 : Erez Lieberman Aiden )の2名とチームを組み、2010年 12月16日 に人知れずプログラムを一般公開した[ 2] [ 9] 。 同日サイエンス 誌に掲載された論文の共著者であるスティーブン・ピンカー (英 : Steven Pinker )は、本プログラムの公開前は「言語変化率の数値化は、この目的に即したデータベースの欠如により困難であった」と述べている[ 1] [ 10] 。Google Books Ngram Viewerは人文科学 領域における量的研究の可能性拡大を視野に入れ開発され、そのデータベースは、一般入手が可能な520万の文献から集められた、5000億語ものデータが公開当初から含まれていた[ 2] [ 3] [ 9] 。
学者による使用を想定していた一方で、Google Books Ngram Viewerは事実上、コンピューターを有する人物であれば誰でも単語・句の使用率の通時的 変化をグラフ化し、参照することを可能にした。ニューヨーク・タイムズ 紙の取材に際しリーバーマンは、「子どもでも歴史上の文化的傾向が把握できるようにすることを目標にした」と語っている[ 9] 。上述のサイエンス誌の論文内で、リーバーマンおよび共著者は、デジタル化されたテキストを参照し大量のデータ分析を行う手法を「カルチュロミクス (英語版 ) 」と呼んでいる[ 1] [ 9] 。
使用法
検索対象の文字列を、カンマで区切って入力する。区切られた検索文字列のそれぞれは、n -gramとしてデータベース内で検索される(例として、"nursery school" という文字列であれば2-gramまたはバイグラム(英 : bigram )となる)[ 6] 。Ngram Viewerは、このように指定されたクエリ文字列ごとに、プロット された折れ線グラフ を生成する。ただし、Ngramデータベースの制限により、グラフが適切に生成されるには40以上の文献内で対象文字列がマッチする必要がある[ 6] 。
Ngram Viewerは高度な検索機能も備えており、ワイルドカード検索(英 : wildcard search )、屈折検索(英 : inflection search )、大小文字非区分検索(英 : case-insensitive search )、品詞タグ(英 : part-of-speech tags )、およびnグラム合成(英 : ngram compositions )をサポートしている[ 6] :
語の代わりに *
のワイルドカード を使用すると、正規化 された文字列に対して検索が行われ、結果の上位10件を取得することができる(例として、"University of *" は "University of California" や "University of Chicago" などに、10項目までマッチする)[ 6] 。
特定のnグラムに _INF
の接尾辞 を加えると、文字の屈折 (英 : inflection )を扱うことができる。例として、"book_INF" は "book"、"booked"、"books"、"booking" などにマッチする。ただし、この接尾辞は1回のクエリで1回までしか使用できない[ 6] 。
クエリボックスの右側のチェックボックスをチェックすると、デフォルトの大小文字区分(英 : case-sensitive )挙動を上書きし、大小文字非区分(英 : case-insensitive )で検索を行うことができる[ 6] 。
_NOUN
や _VERB
などの特定の接尾辞を使用すると、nグラムの品詞 を指定することができる(例:"tackle_NOUN"、"tackle_VERB")。これらの接尾辞の最後にアンダースコア を付け加えると(例:"_NOUN_")、当該特殊文字を接尾辞ではなく変数として使用することができる[ 6] 。
+
、-
、*
、/
、または :
の演算子 を使用すると、nグラムを特定の方式で掛け合わせることができる。例として、"game+sport+play" は "game"、"sport"、"play" の総生起数の和 からなるグラフを生成する[ 6] 。
制限
Ngram Viewerに使用されているデータセットには一定の問題もあり、不正確なOCR に基づくデータへの依存や、日付や分類が誤っているテキストの多さなどが挙げられる[ 11] [ 12] 。これらの不備、およびデータの偏りコントロールがされていない[ 13] (例として、科学文献の量が大幅に増えていることにより、他の用語の出現頻度が減っているという錯覚を生じさせる)ことなどに起因し、このコーパスを言語の研究や理論のテストに使用する際は注意が必要である[ 14] 。また当該データセットは、著作権 上の懸念から出版日、著者、長さ、ジャンル等のメタデータ が一切含まれていないため、一般的な言語変化や文化的変化が結果に反映されない可能性があり、この場合Ngram Viewerは変化を「示唆」することはできても「確約」することはできないという欠点がある[ 15] 。
なお、上述のような課題を視野に入れたうえで、Ngram Viewerから得たデータを研究に使用するためのガイドラインも学者により提案されている[ 16] 。
OCRの問題
光学文字認識 (英 : optical character recognition; OCR )は必ずしも信頼できるものではなく、スキャンの結果が正しく反映されない文字なども存在する。特に、19世紀 以前のテキストにおいては s
と f
の混同が頻繁に起き(f
に外見が似た s
の異型である ſ
(長いs )の存在による)、「一貫した」データの偏りを起こす可能性がある[ 14] 。Googleは1800年 以降のデータから生成された結果は信頼できるとしているが、機能向上が必要なOCRおよびデータの不足は、様々な問題を孕んでいる。例として、中国語等の言語において結果の信頼性が保証できるのは1970年 以降のデータから生成されたものに限られ、これ以前の年代を対象とした場合、一般用語で検索を行っても結果がゼロになったり、年代の指定の仕方によっては結果の50%以上がノイズであるなどの問題が生じることがある[ 17] [ 18] 。
脚注
出典
^ a b c d Michael, Jean-Baptiste; Shen, Yuan K.; Aiden, Aviva P.; Veres, Adrian; Gray, Matthew K.; The Google Books Team; Pickett, Joseph P.; Hoiberg, Dale et al. (2010). “Quantitative Analysis of Culture Using Millions of Digitized Books” . Science 331 (6014): 176-182. https://www.science.org/doi/10.1126/science.1199644 .
^ a b c d “Google Ngram Database Tracks Popularity Of 500 Billion Words ”. The Huffington Post (2010年12月17日). 2012年5月31日 閲覧。
^ a b Lance Whitney (2010年12月17日). “Google's Ngram Viewer: A time machine for wordplay ”. Cnet.com. 2014年1月23日時点のオリジナル よりアーカイブ。2012年5月31日 閲覧。
^ @searchliaison (2020年7月13日). "The Google Books Ngram Viewer has now been updated with fresh data through 2019" (英語). X(旧Twitter) より2020年8月11日閲覧 。
^ a b “Google Books Ngram Viewer - University at Buffalo Libraries ”. Lib.Buffalo.edu (2011年8月22日). 2013年7月2日時点のオリジナル よりアーカイブ。2012年5月31日 閲覧。
^ a b c d e f g h i j k “Google Books Ngram Viewer - Info ”. 2024年6月1日 閲覧。
^ Greenfield, Patricia M. (2013). “The Changing Psychology of Culture From 1800 Through 2000” . Psychological Science 24 (9): 1722–1731. doi :10.1177/0956797613479387 . ISSN 0956-7976 . PMID 23925305 . http://journals.sagepub.com/doi/10.1177/0956797613479387 .
^ Younes, Nadja; Reips, Ulf-Dietrich (2018). “The changing psychology of culture in German-speaking countries: A Google Ngram study: THE CHANGING PSYCHOLOGY OF CULTURE” . International Journal of Psychology 53 : 53–62. doi :10.1002/ijop.12428 . PMID 28474338 . https://onlinelibrary.wiley.com/doi/10.1002/ijop.12428 .
^ a b c d “In 500 Billion Words, New Window on Culture ”. The New York Times (2010年12月16日). 2024年6月1日 閲覧。
^ The RSA (2010年2月4日). “Steven Pinker – The Stuff of Thought: Language as a window into human nature ”. 2024年6月2日 閲覧。
^ “Google Ngrams: OCR and Metadata ”. ResourceShelf (2010年12月19日). 2016年4月27日時点のオリジナル よりアーカイブ。2015年4月19日 閲覧。
^ “Humanities research with the Google Books corpus ” (2010年12月16日). 2016年3月10日時点のオリジナルよりアーカイブ 。2015年4月19日 閲覧。
^ Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain (2015-10-07). “Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution” . PLOS ONE 10 (10): e0137041. arXiv :1501.00960 . Bibcode : 2015PLoSO..1037041P . doi :10.1371/journal.pone.0137041 . PMC 4596490 . PMID 26445406 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4596490/ .
^ a b Zhang, Sarah. “The Pitfalls of Using Google Ngram to Study Language” (英語). WIRED . https://www.wired.com/2015/10/pitfalls-of-studying-language-with-google-ngram/ 2017年5月24日 閲覧。 .
^ Koplenig, Alexander (2015-09-02). “The impact of lacking metadata for the measurement of cultural and linguistic change using the Google Ngram data sets—Reconstructing the composition of the German corpus in times of WWII” . Digital Scholarship in the Humanities 32 (1): 169–188. 2017-04-01. doi :10.1093/llc/fqv037 . ISSN 2055-7671 . https://academic.oup.com/dsh/article-abstract/32/1/169/2957375/The-impact-of-lacking-metadata-for-the-measurement .
^ Younes, Nadja; Reips, Ulf-Dietrich (2019-03-22). “Guideline for improving the reliability of Google Ngram studies: Evidence from religious terms” (英語). PLOS ONE 14 (3): e0213554. Bibcode : 2019PLoSO..1413554Y . doi :10.1371/journal.pone.0213554 . ISSN 1932-6203 . PMC 6430395 . PMID 30901329 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6430395/ .
^ “Google n -grams and pre-modern Chinese ”. digitalsinology.org . 2015年4月19日 閲覧。
^ “When n -grams go bad ”. digitalsinology.org . 2015年4月19日 閲覧。
参考文献
関連項目
外部リンク