重ね描き日記(rmaruy_blogあらため)

読書メモ、探究メモなど。

読書メモ:統計学を哲学する(大塚淳 著)

 

統計学を哲学する

統計学を哲学する

  • 作者:大塚 淳
  • 発売日: 2020/10/26
  • メディア: 単行本(ソフトカバー)
 

発売後すぐに入手し、夢中になって読んだ『統計学を哲学する』。とても大事な本だと感じ、Twitterで次のような(押しつけがましい)投稿もした。 

ところがその後、書店で『統計学を哲学する』を眺めたという知り合いから、次のようなことを言われた。

「哲学者が統計学を語る意味がよくわかりません。」

「数ページ読んでみたけど、哲学用語が頭に入ってこず、やめてしまいました。」

これにはちょっと反省した。「すべての学生や研究者」にお勧めするのはやりすぎだったかもしれない。たしかに、「存在論/意味論/認識論」や「○○原理」「○○主義」といった哲学用語はいかめしく、不必要に大仰に見えたとしても無理もない。興味のない人にまでおすすめすべき本ではなかったかもしれない。

「読むべき」とまでは言わない。でも何かしら統計学に興味がある人にとって「読む価値がある」本だとは今でも思う。そのあたりから始めてみよう。

統計を哲学する意義とは?

統計学を哲学する」ことにどんな価値があるのか? 私としては「統計学を理解するのに役立つから」と答えてみたい。

仮説検定、ベイズ統計、機械学習、因果推論など、統計学には用途ごとに確立した手法/手順がある。手順自体は調べればすぐにわかるし、エクセルなどのソフトを使えば実行できる。しかし、なぜ特定の手順が統計学的に意味のあることをしていることになるのか、きちんと理解し「腑に落とす」のは難しい*1

実際に日々データに触れ、検定やベイズモデリングを生業にしている人でなくても、統計学が導き出した結果を毎日利用・享受しているという意味で「統計学ユーザー」だと思う。いちユーザーとして、統計学ブラックボックスで済まさず「少しは理解したい」。それは自然な希望だと思うし、私も持っている。

でも、だったら、統計学の教科書を読めばいいじゃないですか――。先ほどの知人からのツッコミが聞こえてくる。たしかに、個々の手法については、統計学の本を紐解きじっくり学べば理解することができるだろう。なぜその手法が特定の目的を果たすのかについての「直観」も得られるはずだ。

しかし問題は、「統計学(的手法)にもいろいろある」ということ。仮説検定/因果推論/回帰分析というように目的のレベルで違うものもあるし、おなじ「因果推論」でも、複数の流派が存在し、それぞれ教科書が出ていたりする。そのため、一つの系譜(手法・流派)に習熟しても、他の系譜は「なんだかよくわからないもの」として残ってしまう。互いに相手が訝しいものに見えたりさえするかもしれない。

統計学的手法のある一つの系譜を理解するのなら、統計学の教科書を学ぶので十分なのだろう。しかし、「統計学」という名のもとで行われていること全体を、その相互関係、目的や価値観の異同も含めて理解しようと思ったら、「統計学の哲学」に踏み込まざるを得ないのではないだろうか。

なぜか。それは、まずもって、統計学がそもそも不可能なことをやろうとしているからだ。……ということが、『統計学を哲学する』の第1章を読むと見えてくる。

※以下は、統計学についての生半可な理解と、統計学の哲学/認識論についてほぼ何の事前知識も持たないブログ筆者が読み取れた限りの本書の内容です。できれば本ブログから引用せず、原文にあたってください。理解に間違いがありましたら、ご教示いただけると幸いです。

第1章 現代統計学パラダイム

第1章は、「不可能なこと」は何もしない記述統計の話から始まる。「思考の経済」を目指し、得られたデータの要約に徹する記述統計は、実証主義(positivism)の理想を体現するものだった。

実証主義は、極端なデータ一元論である。すなわち、科学において「ある」と認められるのは客観的な仕方で計測されたデータとそこから導かれる概念だけであり、それ以外のものは人間の作り出した人工物(アーティファクト)に過ぎない、という考え方である。p.18

しかし、実証主義には哲学者ヒュームによって指摘された「帰納推論の不可能性」という「代償」がある。集めたデータから、何らか法則性を抽出し、未知のデータについての予想をすること、つまり帰納推論が可能であるためには、「過去、未来を通して自然は同じように働くだろう」という自然の斉一性(uniformity of nature)の仮定が必要なのだ。

そこで推測統計が登場する。データの背後に控える「存在」として確率モデル(probability model)を導入し、いわば「データとモデルの二元論」をとる。確率変数が独立同一分布に従うという条件(IID)を仮定すると、大数の法則中心極限定理が成り立つ。これにより、サンプリングを続けることで、真の分布の期待値に漸近していけることが保証される。

しかし実際には、無限のデータは得られない。そこで「有限データに基づく帰納推論」を実現するため、統計モデル(statistical model)を導入する。典型的には、ベルヌーイ分布や正規分布をはじめとする「分布族」だ。さいころ投げやコイントス、その他さまざまな確率的事象がどのような斉一性から生み出されるのかの「仮定」が、「統計モデル」には込められる。

哲学には、「世界に存在していると我々が想定し、それに基づいて思考や推論を行うような離散的な単位」を指す自然種(natural kind)という概念がある。統計モデル(分布族)も同じく確率的現象を「分節化」する役割を果たすことから、著者はこれを確率種(probabilistic kind)と呼ぶ。

第1章の内容を反芻すると、存在論(ontology)という哲学用語の意味が見えてくる。データのみの「一元論」では帰納推論が不可能であることから、(推測)統計学は「確率モデル」というモノがあることにする(措定する)。加えて、有限のデータから確率モデルの内実に迫るために「統計モデル=確率種」を措定する。このように、統計的推論を可能にするために「いかなる存在が措定されているか」を整理するのが存在論の眼目なのだ。

第2章 ベイズ統計

「データ」と「確率モデル」が存在する世界で、前者から後者を推論する。この舞台設定のもとで、次の問いが生まれる。確率とは何を意味するのか。意味論(semantics)の問いだ。

この問いへの答えは一つではなく、いくつかの「確率解釈」が生まれる。代表的なのが頻度主義解釈と主観主義解釈だ。第2章では、確率関数は「信念の度合い」と解釈する主観主義解釈と歴史的に結びつけられてきたベイズ統計が取り上げられる(ただし、著者は「ベイズ統計と古典統計との対立は、どのように帰納推論を行うべきかという認識論的な相違に存する」ことに注意を促している。意味論の問いとは別々の問いであり「例えば古典統計における確率を主観主義的に解釈すること自体に矛盾はない」という)。

ベイズ統計における推論では、与えられた問題を適切な確率分布(確率種)でモデル化し、この分布のパラメータの関数として、手元のデータが得られる確率(=尤度)を計算する。そして事前確率と尤度から事後確率を計算する。

この事後確率が、ベイズ推論を通して私たちが得る「知識」となる。ここで哲学的な問いが生じる。なぜ、このプロセスを通じて「知識」が得られることになるのか。ここで、著書は本書の根幹をなす補助線を引く。「内在主義認識論としてのベイズ統計」というアナロジーだ。

認識論(epistemology)は、私たちがいかに知識を得るのかを考える哲学の一大分野で、知識を「正当化された真なる信念」(justified true belief)と定義してきた。ではいかに信念は正当化されるのか。一つの考え方として、「信念は他のすでに正当化された信念からの妥当な推論により導かれることによってのみ正当化される」とする内在主義認識論(internalist epistemology)がある。これが、ベイズ統計の認識論によく当てはまると著者は見る。

ベイズ統計は、この内在主義的な正当化プロセスに内実を与える。つまりそれは、証拠の生起、仮説の事前確率や尤度などといった前提となる信念(の度合い)から、仮説についての事後的な信念の度合いを導くための推論規則を与える。p.71

この対応づけによって、ベイズ推論を使う際の留意点(課題)も見えてくる。内在主義認識論には、○○を信じているのは、△△だから、それは××だから……と正当化が遡行していってしまう問題があるが、ベイズ推論においても、「事前確率と尤度(関数の選択)をどう正当化するか」という形で、この課題が顔を出す。事前確率や尤度関数の選択について、これをやればいいという既成の答えはベイズ統計の中にはない。やってみて、全体としてうまくいっているかをチェックして、またやり直すという「全体論」的なプロセスが必要になる。

得られたモデルを再び経験と照らし合わせて修正していく過程にこそ、統計的分析の本来の目的がある。そのような検証と修正の過程は、どうしても「場当たり的」にならざるをえない。少なくとも、手持ちの統計モデルから「降船」して、それを外的な視点で真実と比較検討することはできない。p.86 

第3章 古典統計

次は、ピアソン、フィッシャー、ネイマンらが確立した古典統計、とくにその根幹をなす検定理論が取り上げられる。

仮説検定は、帰無仮説と対立仮説の尤度を比較することで行われる*2。このとき、正しく帰無仮説が保持される頻度を表す「サイズ」と、正しく帰無仮説が棄却される頻度を示す「検出力」が、各検定のスペックを表す。

このような仮説検定による対立仮説の受け入れの有無という結果は、仮説についてどのような「知識」をもたらすといえるのだろうか。検定による正当化は、

「もし仮に対立仮説H1が真でなかったら、検定TはH1を受け容れなかっただろう」
「もし仮に対立仮説H1が真だったら、検定TはH1を受け容れただろう」

という想定が、一定の誤り(偽陽性偽陰性)率のもとで成り立つことに依存している。この想定は一見不可能に思える。なぜなら、これらは反事実条件文であり、H1の成否を除いてすべてが同じ「可能世界」、したがって現実には存在しない世界についての知識が必要だからだ。ここで、「確率種」が威力を発揮する。統計検定は「可能世界は現実世界と同一の統計モデル(確率種)を有するものの、単にそのパラメータにおいて異なるだけであると仮定する」ことで、「可能世界のあり方を探る」ことを可能にするのだ。

ベイズ統計の認識論が内在主義認識論としてとらえられたのに対し、著者は検定理論と「外在主義/信頼性主義認識論」との間にリンクを張る。外在主義認識論とは、「信念が正当化されるか否かが、認識者の主観的な状態だけで決まるのではなく、その外部で成立している客観的な状況(…)に重要な仕方で依存している」とする考え方だ。

ここから、検定を利用する際の留意点(「課題」)も見えてくる。検定が正当化された信念をもたらすためには、その検定のプロセスに信頼性がなければ、意味がない。どのようにデータのとり方や実験デザインなど、データを検定にかける以前のプロセス全体が、検定で可能世界を探ることを可能にするように準備されていなければならない。

このように、各統計学的手法が根差す認識論ごとに考慮すべき「課題」が統計学の「外側」にあり、各手法の「正当な」使い方を左右する。このことは、ベイズ統計でも検定理論でも変わらないと著者はいう。

ベイズ主義であれ頻度主義であれ、今や分析者はパッケージ化された手法をデータに適用することで、ほぼ自動的に事後分布やp値を計算することができる。このような「レシピ的な統計学(recipe-like statistics)」(Mayo 2018)を使えば、誰でも気軽に「統計的正当化」を行うことができる。しかし問題は、それがそれぞれの認識論的背景に則した意味での「正当な(つまり真理促進的な)正当化」になっているかどうか、ということである。p.132

第4章 モデル選択と深層学習

ベイズ統計も検定理論も、それを使うことで世界の真のありように迫っていくことを目的にしていた。それとは目的を異にする統計学として、第4章ではモデル選択と深層学習を取り上げる。

データにフィットさせてつくったモデルが、将来のデータによりよく予測するためには、パラメータの数を絞り過適合(overfit)を避けなければならない。たとえばAIC赤池情報量規準)が使われる。

AICは、確率モデルを余す所なく捉えているという意味で「正しい」統計モデルの予測性能が常に良いとは限らず、むしろ多少の要因を犠牲にすることで真実を「歪めた」ないし省略したモデルの方が、長期的には良い予測を行う可能性がある、ということを教える。p.147

哲学者のダニエル・デネットは「将来的に生み出されるデータの予測に役立つようなパターンこそがリアルである」とし、それを「リアル・パターン」と呼んだ。モデル選択も、用いる確率種を一定の粒度にとどめることで「リアル・パターン」を捉えようとしている。

存在するから認識に役立つのではなく、むしろ帰納推論に役立つものが、自然種/確率種としての存在を認められる。このようにプラグマティズム的な科学存在論は、存在と認識の関係性を逆転させるのである。p.151

一方、膨大なパラメータをもつ深層学習も、そうした「真理から予測へのパラダイムシフト」、つまり「予測できればいい」というプラグマティックな目的を共有する。深層学習は、多層ニューラルネットという「一つの確率種」をデータで学習させることにより、さまざまな技能を獲得する。碁を打つ、画像の中の人物や物を特定する。

深層学習が突き付ける「正当化にまつわる認識論的問題」がある。それは、深層モデルが、大量のデータから導き出せる答え(予測)を「知識」としてカウントしてよいのか、という問題だ。ここで著者は、現状、深層モデルの信頼性は「属モデル的」に理解されていると指摘する。AlphaGoが言ってるんだから、この盤面評価は正しいはずだ、というように。

ここに、認識論とのもう一つのリンクが引かれる。「正当化の根拠を、認識する主体自身がもつ性格や性質、すなわちその認識的徳(epistemic virtue)に求める」とする徳認識論(virtue epistemology)だ。徳認識論の視点からすると、「適切に学習された深層モデルは認識的徳を有する」と言える。

そこで、深層モデルと今後付き合っていく上での「課題」は、その「認識的徳」をどう理解するか、ということなる。使えるのだからよい、という立場もあるかもしれないが、社会のなかで深層モデルを使ううえでは、アカウンタビリティがどうしても必要になる。そのためには、深層ニューラルネットがいかに・なぜ高度な技能を獲得できるのかの生理学・解剖学的解明や、深層モデルはどのように世界を分節化しているのかを調べる「説明可能なAI(XAI)」の方向性の探究が待たれるという。

第5章 因果推論

確率モデルの「解釈」で分岐するベイズ統計(第2章)と検定理論(第3章)、それらと目的を異にする「モデル選択・深層学習」と見てきた本書だが、第5章では「存在論」のレベルでの違いが主役に躍り出る。テーマは因果推論だ。

何が原因で病気が起こっているのか。気候変動を緩和するにはどんな介入が最も効くのか。因果を知ることは、このような切実な問題とつながっている。

しかし因果とは一体何なのか? 有力な説として、ルイスの反事実条件説がある。「原因Cがあったら結果Eであっただろう/CでなかったらEでなかっただろう」という反事実条件文として因果を意味づける考え方だ。ここでも検定のときと同じで、「現実世界からは可能世界は観察できないという、形而上学的な不可能性」=因果推論の根本問題(p.192)が出てくる。それを迂回するためのトリックとしていくつかの統計的因果推論の方法が考案されており、第5章ではルービンの「反実仮想モデル(counter factual model)」やパールらの「構造的因果モデル」の解説されている。いずれにしてもポイントは、「自然の斉一性である確率モデルでは、因果を捉えきれない」ということ。

期待値や独立性などは確率モデルを記述するものである一方、平均処置効果や有向分離などは因果モデルに属する概念である。それゆえ両者は本質的に異なり、前者と後者を同一視することはできない。我々にできるのは、ある状況(…)において、前者から後者を推論することだけである。p.213

そのため、帰納推論のための「二元論」に「因果モデル」を加えた「データ/確率モデル/因果モデルの三元論的な存在論」が必要になる。

この、因果推論で新しい「元」が想定されているという主張は、本書における「存在論」からの整理の有効性を示す一つの目玉になっているように思える。「統計学においては、何が所与として与えられており、またどのようなモノが仮定されなければならないのか」(p.216)を問うのが「存在論」であり、因果推論は一段階「豊かな存在論」を用意することで、「推論の幅を広げ」ている。一方で、存在論を豊かにすることは「認識論的負荷」というトレードオフを伴う。だからこそ、因果推論は利用するのも理解するのも難しいのだろう。

おわりに

以上、足早に本書の内容を見てきた。部分的に腑に落ちる部分は多かったとはいえ、本書の内容をすべて理解できているとはいいがたい。また、哲学分野としての認識論とベイズ統計/古典統計へのアナロジーが、妥当なものかを判断する力も私にはない。

本書を読むうえで大事なのは、終章で著者が書いているように本書も「あくまで一つの見方ないしはモデルに過ぎない」(p.228)ことを忘れないことだろう。つまり、本書は「統計学の正しい理解の仕方」を学ぶ本ではなく、「統計学をどのように理解しうるか」、そして「統計学を理解するのにどんな哲学の道具が役立つか」を知る本として読むべきものだと思う。

個人的には、次のような気づきが大きな収穫だった。

  • 統計学の分かりにくさは、さかのぼるとすべて「帰納推論の不可能性」に端を発しているということ。できないことをやろうとしているので、さまざまな「思いなし(モノを措定すること)」や「解釈」や正当化のトリックが出てくる余地があるのだということ。
  • データ/確率モデル/因果モデルの「3元論」などというように、存在論」という視点からの整理の見通しのよさ。
  • 深層学習を語る上での「プラグマティズム認識論」という概念の切れ味のよさ。

とくに最後の点は個人的に興味があり、これから深層学習や深層生成モデルについて、「プラグマティズム認識論」や「徳認識論」というタームを手掛かりにいろいろと考えていけそうな予感がある。

科学者全員とはもう言わないけれど、「統計学について腑に落ちる理解を得たい」との思いを持つ人には、やはり読んで損はない本だと思う。

 

*1:私自身は、統計学を理解していないという自覚がある。たとえば、年前の修論口頭発表での思い出。修士研究にて私は「生理学イメージングデータから、細胞の位置を検出するアルゴリズム」を考案し、そのなかで細胞数を決めるためにモデル選択理論を使っていた。しかし発表のとき、副査の先生から言われたのが、「あなたの手法では、真の細胞数を求めることにはならない可能性があります」ということだった。研究の中で致命的なミスというわけでもなかったため無事に終了できたが、その先生のおっしゃった意図はついにわからずじまいだった。「自分が使っている統計学的な手法が何をやっているのか」についての理解が、自分に抜けていることを自覚する機会となった。

*2:この説明にはちょっと疑問がわいた。私の理解では、帰無仮説の尤度のみでその棄却の有無を判断するのが検定だと思っていた。関連して、この章で挙げられている検定の例で、コインの表の確率がθ=0.25(帰無仮説)、さもなくばθ=0.75(対立仮説)という設定になっているのも気になった。対立仮説を「θ≠0.25」などとせず、このような二択の設定にした意図はあるのだろうか。