統計学の歴史
統計学は、歴史的には、現代の観点では、18世紀に、主権国家が工業化し新たなニーズに応える上で進歩し始めた。統計学の進歩の特に大きな要因として、ヴェストファーレン条約(1648年)後のヨーロッパ諸国の発展と、統計学を強固な理論とした確率論の発展が挙げられる。 初期の頃は、統計学が対象とするデータは、人口統計などの、国家についての情報に限られていた。後に、対象となるデータはあらゆる情報に広がり、データの分析や解釈が発展していった。現代の言葉では、「統計」とは、国民経済計算や過去の気温変化といった集積されたデータと、統計学的推測による分析作業の両方を指す。統計学の手段として、確率論における確率空間が用いられることが多い。特に求められるのはコンピュータのアプリケーションソフトウェアによるデータ処理である。統計学の概念の多くは科学の世界に幅広く重要な影響を与えている。実験計画法や、ベイズ推定といった統計学的推測へのアプローチはこれらに含まれる。これらはそれぞれ現代統計学の基礎となるアイディアの系譜と見なされている。 概要18世紀までは、「統計」という語は、国家による人口や経済のデータの公的集計を指していた。少なくとも二千年の間、こういったデータは、主に課税や徴兵のための人的、物的資源の集計であった。19世紀初頭、集計が強化され、「統計」の意味は広がり、データの集計、要約、分析に関連する分野を含むようになった。今日、データが集計され、統計量が計算され、広く、政府、企業、大半の科学やスポーツ、さらには多くの娯楽で使用されている。電子計算機はより精巧な統計計算をもたらし、データが大きかったり多くても処理を十分に可能にした。1人のデータ分析者が、大きさが数十~数百のデータセットで、数百万の測定値を分析したい場合がある。これらは年月とともにコンピュータのはたらき(例えば証券取引所)や電算化されたセンサ、POSレジなどから登場するようになる。コンピュータは、統計量を正確で短時間に出力し、巨大な正方行列の逆行列を求めたり、数百の段階を反復して実行するなど、手作業ではけっしてできない、面倒な分析を可能にする。より高速のコンピューティングにより、統計家はコンピュータを集約して母集団内の全てを検索する方法を開発したり、大きさが1万個もの母集団の推測が理論だけでは難しいのを、ランダム化により推測可能にした。 数理統計学とは、数学において統計学で実際に使用される確率論と推計統計学を指す。しかし、統計学と確率論の連携は少し遅れて発展した。19世紀になると、統計学では確率論がますます使われるようになり、その初期の結果は、17世紀と18世紀の特に運が左右するゲーム(賭博)の分析で見出された。1800年まで、天文学では確率モデルと統計学理論、特に最小二乗法が使われていた。初等的な確率論と統計学は19世紀に体系化され、統計的推論、確率モデルが、実験心理学、社会学といった新しい科学を志向する社会科学者、熱力学、統計力学の物理学者に使われた。推計統計学の発展には帰納法、科学的方法の発展と密接な関係があった。このことは、統計家の対象が狭義の数理統計学から遠ざかってしまうことが懸念される。コンピュータが台頭するまでは、統計学の理論的業績の多くが有用であった。1970年代までに、サミュエル・コッツとノーマン・ロイド・ジョンソンは4巻からなる統計分布の大著を著したが(第1巻は1969年–1972年)、これは依然として貴重な資料となっている。 応用統計学は数学の一分野でなく、計算機科学やオペレーションズ・リサーチといった数理科学の独立した一分野と見なすことができる。数学とは異なり、統計学は行政に端を発している。初期の頃から人口統計学、経済学に応用されている。今日のミクロ経済学、マクロ経済学の主な対象領域は、時系列の分析を中心とした「統計学」である。データから学び、最善の予測をすることに重きを置いた統計学は、心理検査、医学、疫学の学術研究によっても形作られてきた。仮説検定の考え方は意志決定科学とかなり重なり合っている。データの調査や効果的な提示に関わっている統計学は、情報学や計算機科学と重なる部分がある。 語源英語のstatisticsという語は、最終的には、ラテン語のstatisticum collegium(「国会」)とイタリア語のstatista(「政治家」)に由来している。1749年にゴットフリート・アッヘンヴァルによって初めて紹介されたドイツ語のStatistikは、元々は国家についてのデータの分析のことを指しており、「国家の科学」(当時は英語でpolitical arithmeticと呼ばれていた)を意味していた。19世紀初頭には、それは一般的にはデータの集計と分類を意味するようになった。この単語は1791年、ジョン・シンクレアが21巻からなる "Statistical Accounts of Scotland"(『スコットランド統計研究』)の第1巻を出版したときに英語で紹介された[1]。 したがって、Statistikの本来の主な目的は、データが政府の(中枢)行政機関に使用されることであった。国や地方についてのデータの集計は主に国家や国際的な公共事業を通じて定期的に行われる。特に、人口統計についての情報は国勢調査を通じて頻繁に更新される。 "Statistics" を題名に最初に冠した本は、Francis G. P. Neison(Medical Invalid and General Life Officeの保険数理士[要出典])による "Contributions to Vital Statistics"(1845年)である。 日本における用語の取り扱い日本で初めて紹介された統計書は、1854年(江戸時代末期)の、オランダのP. A. de Jongによる "Statistische tafel van alle landen der aarde"(『地球上の全ての国の統計表』)と言われている[2]。当時はstatisticsという語に対する日本語が存在せず、一時期は片仮名で「スタチスチク」と使われていた[3]。この本は1860年(万延元年)、福澤諭吉とその弟子古川正雄(岡本博卿)の訳により、『万国政表』(萬國政表)として刊行された。そこでは "statistische tafel" を「政表」と訳している。 現在で一般的に使われている「統計」と初めて訳したのは、洋学者の柳川春三と推定されている[4]。1870年(明治3年)8月4日に、外務省が諸省に廻達した文書(外国貿易品輸出入の物品高表を編集、貿易年表を出版する旨を通知した文書)の中で、「統計年鑑」という用語がある。日本の公文書に「統計」という語が初めて登場したのはこの時とみられる。1871年(明治4年)7月27日、大蔵省に「統計司」という機関が設置され、日本の官署で初めて「統計」という名称が附された(翌8月10日に「統計寮」と改められた)[2]。これは、米国視察から帰国した伊藤博文の建議による[4]。「統計学」という訳語が日本の社会に普及し始めるのは、(明治7年)6月に文部省出版の『統計学』(モロー・ド・ジョンネ著 "Elementde Staisique" 箕作麟祥訳)によるとされる[4]。 現在の中国、韓国でも、statistics の訳語として「統計」が用いられている。その起源は日本であり、中国語の造語である「統紀」に触発されて日本で造語された「統計」が中国に導入された[2]。 起源文明の開始以来、統計には基本的な方式が用いられてきた。初期の帝国では、しばしば人口国勢調査を照合したり、様々な商品の取引を記録したりしていた。漢王朝とローマ帝国は、帝国の人口、国土面積、富の規模についてのデータを広範囲に集計した、最初の国家たちである。 統計的手法が使用されるようになるのは、少なくとも紀元前5世紀にまでさかのぼる。歴史家のトゥキュディデスは『戦史』[5]で、アテネ人がプラタイア(都市国家)の壁の高さを測定する方法を説明している。周囲の、壁で漆喰の塗られていない区間のレンガの数を十分な回数数えた。そのカウントは何人かの兵士によって数回繰り返された。そこでの最頻値はレンガの数の最もありうる値と見なされた。この値に、壁に使われているレンガの高さを掛けることで、アテネ人は壁に架けるのに必要なはしごの高さを決めることができた[要出典]。 貨幣検査函審査(トライアル・オブ・ザ・ピクス)は、12世紀から定期的に実施されている、王立造幣局(イギリス)の硬貨の純度の検査である。その検査方法は、統計学の標本調査による方法に基づいている。一連の硬貨を(元々は10ポンドの銀から)鋳造した後、1枚の硬貨をウェストミンスター寺院にあるピクスに入れる。一定期間後(現在は1年に1度)硬貨を取り出して計量する。次に、箱から取り出された標本硬貨の純度を検査する。 14世紀のフィレンツェの歴史を記した『新年代記』(ジョヴァンニ・ヴィッラーニ、フィレンツェの銀行家であり公務員)には、人口、法令、通商貿易、教育、宗教施設についての多くの統計情報が記載され、歴史上統計データを明確に著した最初のものである[6]。だが、そこにはまだ、特定の分野としての統計学の用語も概念もまだ存在していなかった。 算術平均はギリシャ人には知られていた概念であるが、16世紀まで3個以上の値に対して一般化されていなかった。1585年にシモン・ステヴィンが十進法を発明したことで、これらの計算が容易になったと思われる。この方法はティコ・ブラーエにより天文学で採用された。様々な天体の位置を推定したときの誤差を減らそうとしていた。 中央値の発想は、1599年のエドワード・ライトの航法についての著書 ("Certaine Errors in Navigation") を起源とし、コンパスによる位置の特定についての節に書かれている。ライトは、一連の観測値の中でこの値が最も正しそうな値だと感じた。 統計学の誕生は、1662年にまでさかのぼる。ジョン・グラントがウィリアム・ペティと共に、国勢調査のための統計的方法を開発し、人口統計学の現代的な枠組みを構築した。彼は生命表を初めて作成し、年齢ごとの生存率を与えた。彼の著書 "Natural and Political Observations Made upon the Bills of Mortality" では死亡率の分析を行い、初等統計学的に基づいてロンドンの人口を推定した。彼は、ロンドンでは年間で約13,000の葬儀があり、11家族中3名の割合で亡くなっていることを知っていた。彼は小教区の記録から、世帯平均人数は8名と推定し、そこからロンドンの人口はおよそ384,000名と割り出した。これは比推定量が初めて使用された例として知られる。1802年にラプラスは、同様の方法でフランスの人口を推定した。 統計学の適用範囲は元々は統治に有用なデータに限られていたが、その守備範囲は19世紀の間に、科学や商学の多くの分野に広がって行った。この分野の数学的基礎は、16世紀になって新たに拓かれた確率論によって促された。その初期の確率論を拓いたのは、ジェロラモ・カルダーノ、ピエール・ド・フェルマー、ブレーズ・パスカルである。クリスティアーン・ホイヘンス(1657年)は、この分野を科学的にとらえた最も初期の科学者として知られる。ヤコブ・ベルヌーイは『推測術』(死後の1713年に出版)で、アブラーム・ド・モアブルは『偶然の理論』(1718年)で、この分野を数学の一分野として扱った。ベルヌーイは著書で、確実に起こることを1で表し、確率を0から1の間の数で表すという考えを紹介した。 統計学的検定の登場統計学の適用で18世紀に早く行われた重要なものは、出生時の人間の性比であった[7]。ジョン・アーバスノットは1710年にこの疑問を研究した[8][9][10][11]。アーバスノットは、1629年から1710年までの82年間のロンドンでの出生記録を調べた。どの年でも、ロンドンでの男子の出生数が女子のそれより多かった。男子と女子の出生が同様に確からしいと仮定すると、その結果から観察される、男女の出生が異なる確率は0.582、つまり約4.836 × 1024分の1であることを導いた。これは現在の言葉ではP値である。これはほとんどないに等しく、アーバスノットは、これは偶然ではなく神が与えた摂理と説いた:「それが示すのは、偶然でなく作為が決定している」これと他を含むアーバスノットの業績は「有意性検定の最初の使用」[12]として評価されている。その最初の例は、有意性と道徳的な誠実さについての推定であり[13]、「おそらく、ノンパラメトリック検定の最初の発表された報告」(具体的には符号検定)[9]であった。 確率分布の登場誤差の理論の定式的な研究は、1722年のロジャー・コーツの "Opera Miscellanea"(死後に出版)にまでさかのぼる。しかし、1755年(出版されたのは1756年)にトーマス・シンプソンにより作られた回想録では、観測による誤差についての議論に理論が初めて適用されている。この回想録の再版 (1757) では、正と負の誤差が同じ割合で含まれ、通例想定される全ての誤差の集合の極限が、確かにあるという公理を示した。連続した誤差たちについて論じ、確率曲線を与えた。シンプソンは誤差のありうる分布をいくつか示した。彼は初めに離散一様分布について考察し、次に連続対称三角分布から離散対称三角分布を考察した。トビアス・マイヤーは月の秤動についての研究で("Kosmographische Nachrichten" ニュルンベルク、1750年)、未知の量を推定する定式化した方法を初めて考案した。同じ状況での観測結果の平均を、類似の方程式のグループの平均に一般化している。 1755年、ルジェル・ヨシプ・ボスコヴィッチは、地球の形についての研究を、著書 "De Litteraria expeditione per pontificiam ditionem ad dimetiendos duos meridiani gradus a PP" で著した。Maire et Boscovicli は、一連の観測値の中で真の値は絶対偏差の総和を最小にするだろうと述べた。現代の用語・観点では、この値は中央値である。後に正規分布曲線と呼ばれる分布曲線を最初に研究したのはアブラーム・ド・モアブルで、彼はこの曲線を1733年11月12日に見出した[14]。ド・モアブルは公正なコインを投げたときに表が出る回数について研究していた。 トーマス・ベイズは1761年にベイズの定理を証明し、ジョゼフ・プリーストリーは1765年に最初にタイムラインチャートを発明した。 ヨハン・ハインリヒ・ランベルトは1765年の著書 "Anlage zur Architectonic" で誤差の分布曲線が半円になることを発表した: 正規分布の登場ピエール=シモン・ラプラス (1774) は、観測値の集まりを、確率論の原理から導出する試みを初めて行った。彼は誤差の確率の法則を曲線で表し、3個の観測値の平均の公式を導出した。 ラプラスは1774年に、誤差の頻度は、いったん符号を無視すると、それの大きさの指数関数で表せると述べた[15][16]。この分布は現在ラプラス分布として知られている。ジョゼフ=ルイ・ラグランジュは1776年に、誤差の放物線状フラクタル分布を発表した。 ラプラスは1778年に、誤差についての2番目の法則を著した。彼は、誤差の頻度はそれの大きさの2乗のべきに比例するということを述べた。このことはその後ガウスによっても(おそらく1795年に)発見され、統計学で中心的な役割を果たす正規分布として最もよく知られている[17]。この分布は、1873年にチャールズ・サンダース・パースによって、最初に「正規」分布と呼ばれた。彼は物体を木製の台座に落としたときの測定の誤差について研究していた[18]。彼が用語に「正規」を採用したのは、自然な発生回数で頻繁に起こるからである。 また、ジョゼフ=ルイ・ラグランジュは1781年に、誤差についての2つの分布、余弦分布と対数分布を発表している。 1781年に、ラプラスは「誤差の容易さの法則」についての式(ラグランジュによる用語〈1774年〉)を与えた[19][20]。だがそれは扱いにくい方程式を導いた。ダニエル・ベルヌーイは1778年に、同時誤差の系の確率の最大積の原理を導入した。 統計図表の登場1786年に、ウィリアム・プレイフェア(1759年 - 1823年)は統計グラフを導入した。彼は折れ線グラフ、棒グラフ、ヒストグラムを考案し、彼の経済学 ("Commercial and Political Atlas") の業務に組み込んだ。このことは、1795年に彼が円グラフを考案することにつながった。彼は英国の輸出入の進展を円グラフで表した。後者のチャートは、1801年に彼が著した "Statistical Breviary" の例で広く注目を集めた。 ラプラスは1787年の土星と木星の運動の研究において、1つの方程式のグループの異なる線型結合を使うことによってマイヤーの方法を一般化した。 1791年にジョン・シンクレアは、自身の『スコットランド統計研究』で、英語の 'statistics' という語を導入した。 1802年に、ラプラスはフランスの人口を2832万8612人と推定した[21]。彼はこの数値を、前年の出生数と3つの値域の国勢調査のデータから計算した。これらの地域の国勢調査のデータからは、居住者が2,037,615人であり、出生数が71,866人であることが分かった。ラプラスは、これらの標本がフランスを代表していると仮定して、全人口を見積った。 最小二乗法の登場データの測定値の誤差を最小にするために使われる最小二乗法は、アドリアン=マリ・ルジャンドル(1805年)、ロバート・アドレイン(1808年)、カール・フリードリヒ・ガウス(1809年)によって独立に発表された。ガウスは、1801年の彼の名高い、準惑星ケレスの位置の予測で、この方法を用いた。ガウスの計算の基となる観測は、イタリアの僧侶ピアッツィによって行われた。 最小二乗法より先に中央値回帰直線の傾きが用いられた。これは中央絶対偏差の総和を最小にする。この傾きを推定する方法は、1760年にルジェル・ヨシプ・ボスコヴィッチによって考案された。彼は天文学に応用した。 「確率誤差」(der wahrscheinliche Fehler、平均からの中央値のずれ)という用語は、1815年にドイツの天文学者であるフリードリヒ・ヴィルヘルム・ベッセルによって導入された。1843年にアントワーヌ・オーギュスタン・クールノーは、確率分布における、面積を2等分する値に valeur mediane(「中央値」)という語を初めて用いた。 誤差の理論についての他の貢献者には、Ellis (1844), オーガスタス・ド・モルガン (1864)、ジェームズ・ウィットブレッド・リー・グレイシャー (1872)、ジョヴァンニ・スキアパレッリ (1875) がいる[要出典]。ピーター(1856年)の(単一の観測値の「確率誤差」)についての式は広く用いられ、初期の頑健統計学に影響を与えた(外れ値に左右されにくい。パース基準を参照)。 19世紀の理論統計学者には、ラプラス、シルヴェストル・フランソワ・ラクロワ (1816)、Littrow (1833)、リヒャルト・デーデキント (1860、Helmert (1872)、ポール・マチュー・エルマン・ローラン (1873)、Liagre、Didion、オーガスタス・ド・モルガン、ジョージ・ブールがいる。 グスタフ・フェヒナーは社会学的および心理学的現象で中央値 (Centralwerth) を用いた[22]。それ以前では天文学とその関連分野でしか使われていなかった。フランシス・ゴルトンは1881年に、初めて英語での用語として median を用いた。それより以前では、1869年に middle-most value が、1880年には medium が使用されていた[23]。 もう1人の重要な統計学の創始者であるアドルフ・ケトレー(1796年 - 1874年)は、犯罪率、結婚率、自殺率といった複雑な社会現象を理解するために、「平均人」(l'homme moyen) という概念を導入した[24]。 正規分布の最初の検査は、1870年代にドイツの統計家であるヴィルヘルム・レキシスによって考案された。彼が示すことのできたデータセットは、正規分布である出生率のみであった。 現代統計学の開発統計理論の起源は18世紀の確率の進歩にあるが、現代統計学が19世紀後半から20世紀前半にかけて、3つの段階により形作られる。最初の波は、世紀の変わり目に起こり、フランシス・ゴルトン、カール・ピアソンの業績により導かれた。彼らは統計学を科学だけでなく、産業や政治に対しても同様に分析することのできる厳密な数学の体系に打ち立てた。2番目の波は1910年代から20年代にかけて起こり、ウィリアム・ゴセットに始まり、ロナルド・フィッシャーの洞察により最高潮に達した。この流れで、実験計画法のモデルのさらなる発展や、小さな標本から仮説検定する技術が起こった。最後の波は、1930年代にエゴン・ピアソンとイェジ・ネイマンの共同研究により誕生し[25]、主に初期の開発で洗練と拡大を見た。今日、統計学の手法は、意思決定を含むすべての分野で適用されている。データを照合することで正確な推論を行い、不確実性に直面した場面での意思決定を、統計学の手法に基づいて行う。 潮流への兆し最初の統計機関は19世紀初頭に設立された。王立統計学会が1834年に創始され、フローレンス・ナイチンゲールはそれの最初の女性所員であった。彼女は疫学を理解し公衆衛生を実践するために、健康問題の統計的分析を促進することを切り拓いた。ただし、当時行われていた方法は、今日の近代的な統計学とは見なされてはいない。 オックスフォード大学の学者であるフランシス・イシドロ・エッジワースは著書 "Metretike: or The Method of Measuring Probability and Utility" (1887) で、帰納的推論の基礎として確率を扱っており、彼の後の作品では「偶然の哲学」に焦点が当てられていた[26]。彼の統計学に関する最初の論文 (1883) は誤差の法則(正規分布)を調べたものであった。そして彼の "Methods of Statistics" (1885) では、t分布の初期のバージョン、エッジワース展開、エッジワース級数、変数変換する方法、最尤推定の漸近理論が導入された。 1895年に、ノルウェーの統計家であるアンネシュ・ニコライ・ヒエルは層化抽出法の概念を導入した[27]。1906年に、アーサー・リオン・ボウリーは、社会統計学に従事しているときに、標本調査の新しい方法を導入した。社会情勢の統計調査は、チャールス・ブースの "Life and Labour of the People in London" (1889-1903)、シーボーム・ラウントリーの "Poverty, A Study of Town Life" (1901) に端を発したが、中でも革新的なのは、ボウリーの無作為抽出による手法である。彼の功績は "New Survey of London Life and Labour" で最高潮に達した[28]。 第一の波フランシス・ゴルトンは統計理論の創始の第一人者の一人として評価されている。彼のこの分野の功績に、標準偏差、相関、回帰の概念の導入と、これらの手法を、人間の特徴(中でも、身長、体重、まつげの長さ)の多様性についての研究へ適用したことがある。彼は、これらの多くが正規分布曲線に従うことを発見した[29]。 1907年にゴルトンは、中央値の有用性についての論文をネイチャーに投稿した[30]。彼は、農産物品評会での雄牛1頭の重さの推測値が 787ポンドとなっていることについての確度を検証した。実際の重さは 1208ポンドであり、中央値による推測は 1198 であった。その推測は正規分布から著しくかけ離れていた。 ゴルトンが1889年に出版した "Natural Inheritance" は、卓越した数学者であるカール・ピアソンの興味を引きつけた[31]。当時ピアソンはユニヴァーシティ・カレッジ・ロンドンに勤めており、数理統計学の萌芽を見出していた[32]。ピアソンは科学の法則に基づいた統計学の土台の必要性を強調し、それの研究を促進した。新しい分析方法を行う彼の研究室は、ウィドニ・ユールといった、世界中の学生を引き付けることとなった。彼の業績は生物学、疫学、人体測定学、医学、社会史といった分野を取り巻くまでに成長した。1901年にゴルトンは、生物測定学を創始したウォルター・ウェルドンと共に、世界初の数理統計学と生物測定学の学術雑誌であるBiometrikaを創刊した。 ピアソンとゴルトンの業績は、今日よく使われている「古典的な」統計学の手法の多くを支えている。それには積率として定義される(ピアソンの)相関係数が含まれている[33]。分布を標本に適合させるためにモーメント法がある。ピアソンの連続曲線系は、現在でいう、従来の連続確率分布の基礎を形作るものである。カイ距離はマハラノビス距離の前身かつ特別な場合である[34]。P値は、仮定した値を中心、chi distance を半径とする球体の補集合の確率測度として定義される[34]。彼は 'standard deviation'(標準偏差)という語も導入した。 彼はまた仮説検定の理論[34]、ピアソンのカイ二乗検定、主成分分析を確立した[35][36]。1911年に彼は、ユニヴァーシティ・カレッジ・ロンドンに世界初の統計学科を創設した。 第二の波数理統計学の第2の波は、ロナルド・フィッシャーによって切り拓かれた。彼は2冊の教本を著した。1つは1925年の『研究者のための統計的方法』、もう1つは1935年の『実験計画法』である。それは世界中の大学の学問を定義した。彼はまた、それまでの成果を体系化し、それらをきちんとした数学的基礎の上に置いた。1918年、彼の影響力の大きな論文『メンデル遺伝の仮定における親族間の相関関係』で、統計学用語としての "variance"(分散)を初めて用いた。1919年に、彼はロザムステッド農業試験場で、彼は長年広範囲にわたって記録されたデータ集の主要な研究を開始した。これにより、包括した題である ("Studies in Crop Variation.") 一連のレポートが作成された。1930年に彼は『自然淘汰の遺伝学説』を著し、そこで進化生物学に統計学を適用した。 次の7年間で、彼は実験計画法(#実験計画法を参照)の原理を開発し、分散分析の研究を入念に進めた。彼は小さい標本から推測する統計学を進めた。さらに重要と考えられることは、彼は新しい統計手法を開発し始め、実際のデータ分析に体系的なアプローチを施したことである。彼は釣り合い型の標本から分析するための計算アルゴリズムを開発した。1925年、この業績により、彼の最初の著書である『研究者のための統計的方法』[37]が出版されることとなった。この本は後年多くの版と翻訳を重ね、多くの分野の科学者にとっての標準的な参考書となった。この本は1935年の『実験計画法』に続くこととなり、広く用いられることとなった。 フィッシャーは分散分析に加えて、最尤推定法を名づけ促進した。フィッシャーは十分統計量、補助統計量、線形判別分析 (LDA)、フィッシャー情報量の概念も生み出した。フィッシャーの論文 "On a distribution yielding the error functions of several well known statistics"(よく知られた統計集団の誤差関数を与える分布について、1924年)には、ピアソンのカイ二乗検定、正規分布と同じ構成での、ウィリアム・ゴセットのt分布、分散分析における、フィッシャーのz分布(数十年後に、より一般化したF分布の形で用いられるようになる)の変数が示されている[38]。5%有意水準は、1925年にフィッシャーによって導入されたようである[39]。フィッシャーは、標準偏差の2倍を超える偏差は有意と見なせると述べた。以前は、標準誤差の3倍を超える確率偏差が有意であると考えられていた。対称分布の場合、確率誤差は四分位偏差に等しい。正規分布の場合、確率誤差は標準偏差の約2/3 である。フィッシャーの5%水準は以前の慣習に根ざしているようである。 この時点での他の重要な貢献には、ピアソンの積率相関係数を有用に拡張した、スピアマンの順位相関係数がある。イギリスの統計家ウィリアム・ゴセットは、本名よりもペンネーム "Student"(スチューデント)としての方が知られている。彼は、標本が小さく、母標準偏差が未知の場合に有用な連続確率分布である、t分布を導入した。 第三の波エゴン・ピアソンとイェジ・ネイマンは、第二種過誤、検出力(検定力)、信頼区間の概念を導入した。1934年にネイマンは、無作為層化抽出法は一般に、有意抽出法よりも良い推定方法であることを示した[40]。 実験計画法1747年に、HM Bark Salisbury(船)で外科医として勤務していたジェームズ・リンドは、壊血病の治療法を開発するために、よく管理された実験を行った[41]。この研究では、彼の被験者の症例は「自分の症状と同じ位のを持っていた」つまり、彼は無関係な変動を減らすために入場要件を厳格にした。男性は組になり、系統誤差を減らすようにした(「ブロッキング」)。現代の観点から大きく欠けているのは、治療する被験者をランダムに割り当てることである。 リンドは今日「一時一事」("one-factor-at-a-time" (OFAT)) を実行した実験者としてしばしば説明される[42]。one-factor-at-a-time (OFAT) の実験が同様に実施された例として、1840年代にロザムステッド農業試験場でのジョン・ローズによる、小麦に最適な無機肥料の決定がある[42]。 統計的推測の理論は、チャールズ・サンダース・パースの『科学の論理の図解』(Illustrations of the Logic of Science、1877-1878)と『確率的推論の理論』(A Theory of Probable Inference、1883)によって開発された。2つの著書では、無作為性に基づいた統計的推測重要性を強調している。別の研究では、パースは盲検・反復測定デザインを適用して、ボランティアを無作為に割り当て、体重を識別する能力を評価した[43][44][45][46]。 パースの実験は心理学と教育学の他の研究者に大きく影響を与え、1800年代に、研究室や専門書で行われる無作為に行う実験での調査法を発展させた[43][44][45][46]。パースはまた、1876年に回帰モデルの最適計画についての最初の英語の本を出版した[47]。多項式回帰の最適計画で先駆的なものは、1815年にジョゼフ・ディエズ・ジョルゴンヌが提示したものである[要出典]。1918年にキアスティーネ・スミスは、6次(以下の)多項式についての最適計画を発表した[48]。 計画における実験の繰り返しは、前の実験結果に依存しうり、実験を中止する可能性がある。このことは、エイブラハム・ウォールドの論文 "sequential tests of statistical hypotheses"[49]の文脈で見出された[50]。逐次計画[51]や適応的デザイン[52]は最適化が可能である。逐次計画の具体的な型は「二腕バンディット問題」である(これは多腕バンディット問題に一般化される)。これの初期の功績は、1952年のハーバート・ロビンズによるものである[53]。 "Design of experiments"(DOE、実験計画法)という語は、ロナルド・フィッシャーの初期の統計学の研究に由来する。アネシュ・ハルはフィッシャーを「現代の統計科学の基礎をほぼ独力で創った天才」と評した[54]。フィッシャーは実験計画法の原理を開始し、「分散分析」の研究に腐心した。さらに重要と考えられることは、フィッシャーは新しい統計手法を開発し始め、実際のデータ分析に体系的なアプローチを施したことである。彼は手作業で行われる必要な計算に伴う労力に特別の注意を払い、数学的厳密性に基づき実用的である手法を開発した。1925年に、この業績は、彼の最初の著書『研究者のための統計的方法』で最高潮に達した[55]。この本は後年多くの版と翻訳を重ね、多くの分野の科学者にとっての標準的な参考書となった[56]。 実験を設計するための方法論は、フィッシャーの著書『実験計画法』(1935) で提示され、これも標準的なものとなった[57][58][59][60]。例として、彼は次の仮説を確かめる方法を述べた:[ある女性が最初にカップに入れたのがミルクであるか紅茶であるかを、味だけで判断することができるか] これは取るに足らない適用のように聞こえるが、これは実験計画法の最も重要な考え方をよく説明することができる例となっている。詳細は紅茶の違いのわかる婦人を参照。 農学の進歩は、大都市の人口増加と農場の少なさの両立を可能にした。しかし、成育するための地理や気候、ニーズが大きく異なることを作物学者が十分に考慮するためには、地域の生育条件を識別することが重要であった。地域の作物実験を全国規模に外挿するために、作物の標本調査を経済的に母集団全体に拡張する必要があった。統計的手法が進歩(主に、「一時一事」の実験に代わる、実験計画法の有効性)するに連れて、要因計画で代表的なものは、標本による結果から母集団全体の有意義な推測をすることを可能とした[要出典]。しかし作物の標本をどのように抽出したかを知るのは困難である[要出典]。要因計画法は、無作為な標本の変動とデータを収集する手順の中から推定し修正する方法を示した。 ベイズ統計学ベイズ統計学の「ベイズ」とは、トーマス・ベイズ (1702-1761) を指し示す。ベイズは、事象列が確率収束しうることを示した。しかし、現在ベイズの定理と呼ばれているものを("principle VI" として)導入し、それを天体力学、医療統計学、信頼性、法学に適用したのはピエール=シモン・ラプラス (1749-1827) である[61]。彼の "principle of insufficient reason"(等確率の原理)によると、事前分布の知識について不十分であるときは、ラプラスは一様な事前分布を用いた[61][62]。ラプラスは哲学的な理由でなく単純な数学として事前分布に一様性を仮定した[61]。ラプラスはまた、原始的な共役事前分布とベルンシュテイン-フォン・ミーゼスの定理を導入した[要出典]。これによると、観測回数が増加するにつれて、事後分布は最初は事前分布と最初は異なっていても、最終的には一致する[63]。このラプラスの等確率の原理による、事前分布を採用した初期のベイズ推定は「逆確率」と呼ばれた(なぜなら、これは観測から確率変数値へ、結果から原因へと、逆向きに推測するからである[64])。 1920年代以降、逆確率は、ロナルド・フィッシャー、イェジ・ネイマン、エゴン・ピアソンによって開発された一連の手法に大きく取って代わられた[要出典]。彼らの手法は頻度主義統計学と呼ばれるようになった[64]。フィッシャーはベイズの見解を否定し、「逆確率の理論は誤りに基づいており、完全に否定されるべきである」と記している[65]。しかしながら、フィッシャーの事実に基づく確率へのアプローチがベイズの随筆に記されており、彼は晩年いたく敬意を表していた。フィッシャーは依然、ラプラスの確率に対する見解は "fallacious rubbish"(誤ったごみ)であると主張した[65]。ネイマンは「準ベイズ統計学」の研究を始め、その後信頼区間(頻度主義統計学での重要な手法)を開発した彼は次を述べている:「ベイズ主義、事前分布を考慮に入れずに理論全体を構築した方が、より明解になる」[66]Bayesian という語は1950年頃に登場し、1960年代までに、頻度主義統計学に限界と不満を感じている者に好まれるようになった[64][67]。 20世紀にラプラスの発想はさらに2つの方向に発展し、ベイズ統計学の実践に「客観性」と「主観性」の流れをもたらした。客観主義の流れでは、統計分析は想定されたモデルと分析されたデータのみを依りどころとする[68]。そこでは主観的な判断をする必要はない。対照的に、「主観主義者」の統計家は、一般の場合における分析は完全に客観的であることの可能性を否定している。 ラプラスの発想のさらなる発展の中で、主観的な発想は客観主義者の立場より前からある。「確率」は「命題における主観的な信念の度合い」として解釈されるべきである、という発想は、例えば、1920年代初期にジョン・メイナード・ケインズによって提唱されている[要出典]。この発想はさらに、ブルーノ・デ・フィネッティ(イタリア、Fondamenti Logici del Ragionamento Probabilistico, 1930)、フランク・ラムゼイ(ケンブリッジ、The Foundations of Mathematics, 1931)に取り入れられた[69]。このアプローチは、統計的確率についての問題点を解決するために考案された。これはラプラスの客観的なアプローチより前のことであった[68]。主観的なベイズ統計学の手法は、1950年代に Leonard Jimmie Savage によってさらに発展し普及した[要出典]。 客観的なベイズ推定はさらにハロルド・ジェフリーズ(ケンブリッジ大学)によって発展した。彼の独創的な著書『確率論』(Theory of probability)が1939年に最初に登場し、ベイズ確率の再興に重要な役割を果たした[70][71]。1957年に、エドウィン・トンプソン・ジェインズは、事前分布を構成するために、最大エントロピーの概念を創始した。これは、主に離散的な問題を客観的な手法で定式化するための重要な原理である。1965年の、デニス・リンドリーの全2巻の作品 "Introduction to Probability and Statistics from a Bayesian Viewpoint" はベイズ統計学の手法を大衆に広くもたらした。1979年にホセ=ミゲル・ベルナルドは、客観的分析が一般の場合に適用することのできる[72]、参照事前分布分析(reference analysis)を導入した[68]。他によく知られているベイズ確率の理論の支持者として、I・J・グッド、バーナード・クープマン、ハワード・ライファ、ロバード・シュライファー、アラン・チューリングがいる。 1980年代になって、ベイズ統計学の手法の研究と応用は劇的な成長を遂げた。これは主として、計算問題の多くを解決するマルコフ連鎖モンテカルロ法の発見と、複雑で規格外に対する応用への関心の高まりが挙げられる[73]。ベイズ統計学の伸長にもかかわらず、ほとんどの学部教育では依然頻度主義統計学に準拠している[74]。それにもかかわらず、ベイズ統計学の手法は広く受け入れられ、用いられている。その例として、機械学習の分野がある[75]。 日本で実施された統計調査→「統計 § 日本の統計史」も参照
日本においては、3世紀から4世紀(崇神天皇の時代)にかけて人口調査が行われたことが、『日本書紀』に記されている[3]。大化の改新(645年)の頃になり班田収授法が発令、6年に一度全国的な戸籍調査が行われるようになった。この人口調査は体系的であり、約360年間続いた[76]。その後は、豊臣秀吉が1592年(天正20年)に人掃令を発令し、全国的な戸籍調査を行った。これは、朝鮮出兵のための兵力把握のために、村ごとの家族構成などをまとめて提出させるための法令であった。さらにその後、江戸幕府第8代将軍徳川吉宗の時代では、キリシタンを取り締まるために全国人口調査が行われた。しかしこの調査では、武士など対象外の身分の人が多数存在したり、調査方法が統一されていなかったりと、正確なものではなかった。 明治時代になり、「国勢調査ニ関スル法律」が制定された。第1回目の国勢調査が行われたのは、日露戦争や第一次世界大戦の影響もありかなり遅れ、1920年(大正9年)に実施された。この後日本では、原則として5年に1度国勢調査が行われ、現在に至る。 重要な統計学者脚注および参照
参考文献
外部リンク
|