読書メモ：The Master Algorithm (by Pedro Domingos)

最近，機械学習が盛り上がっている．
理工系出版社に勤めていることもあり，普通の人より強くそれを感じていると思う．機械学習の本はとにかく売れる．その売れ方はちょっと異様なほどで，他の分野の新刊がどれも残念な部数しか売れないのに，機械学習本だけは書店からの注文が途絶えず，次々と重版が決まるといった感じなのだ．同業他社でも似た状況だろうと思う．

本の売れ方はちょっと不可解な気もするが，機械学習について学びたい人が多いというのは分かる．キーワードとして「人工知能」が注目されて久しく，少し関心のある人なら今日「人工知能」の名で呼ばれる技術が，ほぼイコール「機械学習」であることは常識だろう．機械学習の技術をもとに立ち上げた数々のスタートアップが成功しているし，普通に生活しているだけでもその浸透を感じられるようになった（僕のスマホも，知らぬ間にどんどん賢くなっているような気がするけど，それも機械学習の賜物だろう）．

でも，機械学習は「分からない」という感覚が拭えない．
会社でも俄然注目度が上がっていて，上司から「丸山くん，ディープラーニングって何がすごいの？」と尋ねられたりして，その度にいろいろ調べて付け焼き刃で答えているおかげで，それなりに知識は増えてきた．ところが，そうやって勉強しても，今もって機械学習については「本質的なことが分かってない」と思うことが多い*1．

要するに機械学習の全体像が分からないのだと思う．教科書を読むと，いろんな手法が出てきて（教師あり学習はこれこれがあります，教師なし学習にはこれこれがあります，こういう場面で使います，などなど），それらがどう相互に関係しているのかが今ひとつ分からない．数年前，突然出てきた（ように僕らには見える）ディープラーニングだが，よく聞くようにディープラーニングが一番優れているなら，教科書に出てくるその他の手法はもう要らないということなのか？　アルゴリズムは完成していて，あとはデータ量の問題になるのか？　でも，様子を見ているとそうでもないらしい．機械学習の研究者は何を目指して研究しているのか？　そうしたことがナゾだった．

前置きが長くなったが，このような疑問に答えてくれる画期的な本が出たので紹介したい．

The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World

作者: Pedro Domingos
出版社/メーカー: Basic Books
発売日: 2015/09/22
メディア: Kindle版
この商品を含むブログを見る

書名を直訳すると「マスター・アルゴリズム：　世界を変える究極の学習機械の探求」などだろうか（邦訳を出すとしたら，タイトルはもう少しひねりたいところだけど）．著者は，ワシントン大学教授のPedro Domingos氏で，人工知能研究で長くキャリアを積んできた人らしい．その経験を活かして，歴史的経緯を豊富に交えながら，数式少なめで機械学習の過去・現在・今後について解説している．

この本のどこが素晴らしいかというと，まさに機械学習の「大きな絵」を描いている点だ．学問の世界ではよくあるように，複数のグループがそれぞれの思惑や目標をもって分野を開拓したために，複数の流派が生まれ，それが初学者の混乱のもととなるわけだが，その絡まった糸を本書は見事にほどいてくれる．たとえば，次のような疑問について，少なくとも部分的な解答が得られるだろう．

ディープラーニングの登場によって，それ以外の研究の価値は弱まったのか？
汎用的な課題をこなす学習機械を作るのに，ディープラーニングだけで十分なのか？
機械学習アルゴリズムの研究は，アドホック（行き当たりばったり）に進むものなのか，研究に方針を与える原理はないのか？
人工知能研究で盛んに研究されていた「論理」は必要ないのか？
「生物に学ぶべき」派と「生物に学ぶ必要はない」派はどっちが正しいのか？

直接的な答えが書かれるわけではないが，本書には他のどの本にも増して，こうした疑問を解消するためのヒントがあると思う．

＊＊＊

本書の日本語版が出るまでにはちょっと時間がかかるかもしれないので，ここで簡単に，本書の中身を紹介したいと思う．

第1章では，機械学習の意義について述べている．まず「アルゴリズム」という概念の万能性に光を当てる．任意のアルゴリズムを走らせることのできるコンピュータは，人間にとって大きな発明だった．しかし，そのプログラムは人間が書く必要があり，そこに限界があった．機械学習のアルゴリズムの一種だが，それが革新的なのは，アルゴリズム自体をデータをもとに生成できる点にある．機械学習は今後，ビジネスだけでなく科学や医療の分野にも革命をもたらすだろう．

第2章では，本書の鍵となる「マスター・アルゴリズム」という概念が登場する．機械学習の特長は汎用性にあるはずなのに，現状では用途ごとに別々の機械学習アルゴリズムが設計されている．そこで汎用性を一段階進めて，あらゆる学習可能な知識を学習可能な「マスター・アルゴリズム」が存在するとしたらどうだろう．これはそれほど突飛な発想ではなく，なぜなら人間の脳はまさにそれをやっているから．チューリングマシンが「演繹」のための万能な機械だったように，「マスター・アルゴリズム」は帰納（つまりデータからの学習）のための万能機械となるだろう．マスター・アルゴリズムが完成したらできることの事例として，癌治療の例を出す．大量の遺伝子や過去の症例のデータから，患者に必要な薬を割り出すことが出来るようになるかもしれない．

マスター・アルゴリズムというコンセプトを打ち出した上で，既存の機械学習研究についての「大きな絵」を描き始める．そ機械学習の研究を５つのグループに分けてみせる．いわく，“five tribes of Machine learning（機械学習研究者の５つ部族）“で，以下の５種類である．
・symbolist シンボリスト（記号主義者）
・connectionist コネクショニスト（ニューラルネットワーク主義者）
・evolutionary 進化論主義者
・Bayesian ベイジアン
・analogizer アナロジー主義者

この後の各章ではこれらのグループについて解説していく．

第3章は基本的にはシンボリストの話題なのだが，その前にまず「学習とは何か」のおさらいをしている．学習アルゴリズム設計の出発点となる，ヒュームの問題：「帰納法はいかに正当化されるか？」や，David Wolpertのノーフリーランチ定理（「すべてのコスト関数を良く解けるアルゴリズムは存在しない」という数学的定理）の存在に注意を向ける．ノーフリーランチ定理が示すのは，何も偏見（バイアス）がないところから学ぶことができず，学習には常に知識が必要であるということ．また大事なのは，学習とは過去のデータを記憶することではなく，適度な一般化が必要だということを指摘し，Leslie Valiantの「Probably Approximately Correct 」の概念もこの文脈で紹介される．さて，シンボリストだが，彼らの世界観は「知能とは記号操作である」というものであり，1970年代に盛んに研究された知識工学と系譜を同じくする．データからルールを導きだす（たとえば，「メールのなかにAとBという単語が両方入っていたらそれはスパムだ」と判断するなど）ための手法の一例しては，Earl Hunt が1960年代に開発した決定木の学習などがある．シンボリストは，記号操作によって帰納的推論ができる機械学習器を目指すが，難点として，ノイズへ弱いことや探索すべき仮説が膨大になると手に負えないこと，論理的に書き下せないルールを扱えないことがある．

第４章ではコネクショニストが登場する．McCullochとPittsによるニューロンのモデルにヒントを得て，1950年代にRosenblatのパーセプトロンと名付けられたニューラルネットワークが発明される．1969年にミンスキーらがパーセプトロンの限界についての指摘したことにより一時下火になるが，1982年に，Hopfieldが統計物理学のスピングラスにヒントを得たニューラルネットワークの考案し，それが，Ackley,Hinton,Sejnowskiらによる確率的なホップフィールドモデルすなわちボルツマンマシンにつながった．ニューラルネットの学習においては，バックプロパゲーションという手法が大きなイノベーションであった．階層が増える困難になる点が障害だったが，1980年代に発明されていたオートエンコーダを使うと学習が可能になったことで，今のディープラーニングの隆盛がある．なお，ニューラルネットはもともと脳を模したモデルであり，これをどんどん脳に近づけるため，人間の脳の配線（コネクトミクス）を調べてそれを機械学習に応用するというアプローチも存在するが著者は懐疑的なようだ．ニューラルネットの問題としては，論理的判断ができないことや，中がどうなっているのか人間には理解できないことがある．また，ニューラルネット自体の構造をどう決めるかという問題がある．人間の学習能力も脳とデータだけで実現したわけではなく，そもそも脳を作った「進化」に目を向ける必要があるだろう．

第５章は「進化」の原理を取り入れた機械学習の系譜についての章である．John Hollandによる遺伝的アルゴリズムは，突然変異と自然選択というダーウィン進化の原理を取り入れた学習アルゴリズムで，ニューラルネットに比べると局所解にはまりにくいという利点がある．1990年にはJohn Kozaが遺伝的プログラミングを発明し，これは木構造同士を交配させることで進化させるというもので，電子回路設計で有用性が示された．一方，遺伝的な手法において未だ決着がついていない問題に，「性は必要なのか？」という疑問がある．あえてオスとメスを作らなくても，突然変異＋淘汰で進化させることはできるからだ．性の意味を示すいろいろな説はあるが，まだ決定的なものはない（なお，Kozaの論文も機械学習の国際的な学会であるICMLより何回もリジェクトされ，遺伝的アルゴリズムの学派は機械学習とたもとを分かってしまったという興味深い経緯も紹介される）．著者は，学習には進化とニューロン学習の両方が必要だろうと結論づける．前者はニューラルネットワークの構造を決め，後者はシナプスの強さを決める．まさに「先天的な知能」と「後天的な知能」（Nature and nurture）の組み合わせることに相当する．では進化と脳をシミュレートできればマスター・アルゴリズムができるかというと，そうも行かない．学習が現実的な時間内に終わるかという問題がのこるからだ．

第６章で登場するベイジアンたちにとっては，学習とはベイズの定理の一つの応用に過ぎない．学習とは，確率的な信念をデータによってアップデートしていく作業という見方だ．ただし，多くの要素をベイズの定理に基づいてモデル化すると計算が困難になる．そこで，ベイジアンたちは計算可能なシンプルなモデルを考案してきた．もっとも単純なナイーブベイズ分類器では，原因が全て独立であるとし（たとえば，スパムメールにAという単語が入っている確率から，Zという単語が入っている確率が独立であるとし），得られた結果から原因を推定する（単語AとCが入っているとき，そのメールがスパムであるかどうかを判断する）．誰が発明したかははっきりしていないこの手法だが，1990年代にはかなり性能が良いことが分かってきた．また，Markovによって考案されたマルコフモデルやそれを拡張した隠れマルコフモデルは多く使われるし，さらに1980年代にJudea Pearlによって考案されたベイジアンネットワークはより自由度の高いモデルに対してベイズ推定を行うことができる．複雑なモデルに対して解を得るための技法としては，マルコフ連鎖モンテカルロ法（MCMC）が効力を発揮している．なお，1990年代にはMackay，Neal，Jordanらはパーセプトロンをベイズ的に学習させる方法を考案しており，こうしてベイジアンとコネクショニストは結びついている．最近のトレンドとしてはベイジアンネットの変形版であるマルコフネットワークがある．シンボリストとベイジアンは，学習には事前知識が必要であるという点では一致する．意見を分つのは，「必要な事前知識とはなにか」というところであり，ベイジアンは事前分布という確率分布にそれを託すのに対して，シンボリストは任意の論理的な命題を事前知識とできるため自由度が高い．ベイジアンのアプローチに不足があるとすれば，その点である．

第７章では，一つの学派というよりは，雑多な人々を「アナロジー」の概念をもとに束ねている．「学習とはアナロジーの発揮である」という見方は根強い人気があり，ニーチェ，カント，ジェームスらにもこうした見解が見て取れる．機械学習でもアナロジーをもとにしている手法があり，たとえば最近傍法やサポートベクターマシンがある．これらは，「最も似ている」ものと同じと見なして分類するという手法であり，少数のデータから学習できる．このアナロジーベースの手法では，「どのように類似性を計るか？」が本質的な問題となる．

ここまでで５つの流派の説明は終わりだが，第８章では，紹介し残した機械学習法，なかでも「データに正解のラベルがついていない」状況で学習できる方法をメインに紹介している．教師なし学習の方法として，k-means法，またその画期的な最適化手法であるEMアルゴリズムが紹介され，次元圧縮手法としての主成分分析（PCA）も登場する．続いて，学習機械が環境からデータを受け取るだけではなく，自身が行動を取りながら学習していく強化学習．1980年代にBartoとSuttonが発明したこの方法は，最近ではDeepMind社によるビデオゲームのプレー方法を学習したデモなどでも注目されている．また，人間の発達過程の研究から出てきた「概念のチャンキング」というモデル，そして，ネットワーク解析に登場するRelational learningについても触れている．

第９章ではいよいよ，これまで出てきた異なる流派を統一することができるか，つまりマスター・アルゴリズムを作ることができるかが論じられる（このあたりから，だいぶ理解があやしい）．まず，既存の方法としては，複数の機械学習法を組み合わせて多数決を行うなどして性能を上げるというメタ機械学習の発想がある．ランダムフォレストやブースティングといった手法が挙げられるが，しかしこれらは本質的な統合とは言えないだろう．では，５種類の流派をどうやって統合するか（著者は寓話を使って巧みに説明しているのだが，ここでは何となくの概要だけ）．まず５つの流派はそれぞれ「最適化手法」「評価法」「表現法」からなる三層構造になっている．それぞれの流派において，学習モデルをどう「表現」し，それをとくためにどのような「評価関数」を用い，そしてその「最適化問題をどう解くか」．以下のようにまとめてみせる．
（１）シンボリスト：論理を使ってルールを導く．評価関数は正確さ，あるいは情報量．方法は逆演繹法．
（２）コネクショニスト：ニューラルネットワークを学習させる．評価関数は自乗誤差．方法はバックプロパゲーション．
（３）進化論主義者：遺伝的アルゴリズムを使って進化させる．評価関数はフィットネス．方法は交配と突然変異．
（４）ベイジアン：グラフィカルモデルを学習する．評価関数は事後確率．方法はMCMCなどの確率的推論の手法．
（５）アナロジー主義者：サポートベクターマシンを学習させる．評価関数はマージン．方法は制約付きの数理最適化．
階層ごとに，互いにオーバラップしている部分がある．たとえば，評価関数の層で言えば（２）の自乗誤差は（４）の事後確率と同じ物である．それと同じノリで，（１）〜（５）はかなり部分互いのパラダイムで吸収できてしまう．「表現」の階層でいうと，（１）と（３）はすぐに結びつき，（２）と（４）と（５）も簡単に結びつく（ここの論理がよくわからなかったが，そうらしい）．統合の試みにおいて最後に残るのが，（１）（３）vs（２）（４）（５）の表現レベルでの統一，結局のところ，論理と確率という古代からの問題が，結局のところ最後の問題なのだというのが，著者の種明かしとなる．そして，それらを結びつける試みとして「マルコフ論理ネットワーク」という著者らの手法が紹介される（理解が追いついていないので詳しくは書けない．マルコフ論理ネットワークはいくつかの問題ではうまく動作するが，まだ大きなデータを扱えないなど，著者の言うマスター・アルゴリズムにはまだ遠いということだ．

第10章では，これまでの専門的な話題から一転して，今後の未来予測．我々一般の人が機械学習についてどのくらい理解し，来る未来にどう備えるべきかなどを書いている．

＊＊＊

バラバラなピースが一つの絵に収まっていく快感の得られる一冊だった．
式を使わずに機械学習アルゴリズムの概要を説明する腕はピカイチなので，機械学習について勉強したことのない人にも是非おすすめしたい（松尾豊先生の『人工知能は人間を超えるか』から一歩先に進みたい人に良いかも）．またそれ以上に，この本を機械学習の専門家がどう読むのかが気になる．研究者の方々の書評を待ちたい．

*1:ちなみに，僕の機械学習のユーザーとしての経験値は，「ビショップ本」を半部くらいつまみ読みし，修士論文でとある機械学習アルゴリズムをいじって画像解析に応用した程度

重ね描き日記（rmaruy_blogあらため）

読書メモ、探究メモなど。