文献メモ：ディープラーニングを人間の学習に近づける（Lake et al. 2017を読んで）

論文を一つ紹介します。

Lake, Brenden M., et al. "Building machines that learn and think like people." Behavioral and Brain Sciences 40 (2017).　https://cims.nyu.edu/~brenden/LakeEtAl2017BBS.pdf

ニューヨーク大学のBrenden Lake、MITのJoshua Tenenbaumらによる総説論文です。

AI研究の現状と今後進むべき方向をうまくまとめていると感じたため、お正月休みに時間をとって読んでみました。ここ数日「2018年のAI研究のトレンド」のような記事がいろいろと出ていますが、この論文も頭を整理するためにはなかなか良い文献ではないかと思います。

ディープラーニング＋認知科学

この論文で著者らは、現状のディープラーニングを主としたAI技術に不足している点を指摘し、それを克服するための道筋を提案しています。中心となるのは、「認知科学、とくに発達途上の子供の心理学を参照すべきである」という主張です。

大事だと思ったポイントを拾ってみます：

今のAIに足りないのは「少ないデータ」での「フレキシブル」な学習
人間にそれができるのは、豊富な事前知識（rich prior）を持っているから
神経科学的妥当性より、認知科学的妥当性が大事
「予測＝パターン認識」から「説明＝モデル構築」としての学習へ

論文にはこれ以外のことも書かれていますし、上記4点もこの順番で論旨が組み立てられているるわけではないのですが、以下では私なりに、この4点に沿って内容（の一部）を紹介したいと思います。

「少ないデータ」での「フレキシブル」な学習ができない

著者らは、近年AI技術が大きく進展していること、その中心にはディープニューラルネットの成功があることを認めています。たとえば、手書き文字の画像データセットMNISTの認識でconvolutional neural netが既存手法だけでなく人間の識別精度も凌駕したこと(Ciresan, Meier, & Schmidhuber, 2012)、deep Q-network（DQN）によりアーケードゲームを人間のエキスパート並みにプレイできるようになったこと (V. Mnih et al., 2015)などに触れています。

しかし、人間の学習に大きく及ばない点もあります。

When comparing people and the current best algorithms in AI and machine learning, people learn from less data and generalize in richer and more flexible ways.（§6）

一つは学習に必要なデータ数が膨大なこと。たとえばDQNのアーケードゲーム学習では、人間のエキスパートの500倍のプレイ回数が必要だそうです。またAlphaGoにしても、3000万回の自己対局をしているのに、人間のチャンピオンは生涯でせいぜい5万対局しか経験していないだろうという対比をしています。

もう一つは、機械学習には人間の学習のようなフレキシビリティがないこと。人間の棋士であれば、たとえば囲碁の碁盤のサイズが変わってもすぐに対応できます。あるいはアーケードゲームのルールやゴールが変更されても（たとえば、ゴールが「スコアを最大化する」から「アイテムを多く取る」に変わるなど）、人間のプレイヤーは問題なく適応できます。一方、シンプルなディープラーニング（本論文の言葉では"generic deep learning"）では、一からデータセットを用意して学習し直さなければいけません。

人間がもつ「豊富な事前知識」

なぜ人間は少ないデータからフレキシブルな学習ができるのか？　それは「ゼロから（from scratch）」の学習ではないからです。

People never start completely from scratch, or even close to “from scratch,” and that is the secret to their success. The challenge of building models of human learning and thinking then becomes: How do we bring to bear rich prior knowledge to learn new tasks and solve new problems so quickly?

人間は新しい学習をするさいにすでに「豊富な事前知識（rich prior）」を持っている。なので、今後のAI研究の課題は、それが「人間に近づく」ことを目指すならば、その「豊富な事前知識」を特定し、いかに機械学習アルゴリズムに組み込むか、ということになります。

神経科学的妥当性より、認知科学的妥当性

「現実の人間について分かっていること」を、AIに積極的に組み込む必要がある。一つの方向性としては、生物の「脳」の構造や生理現象を真似ることが考えられます。実際、脳科学とAIを融合する研究は盛んになされています*1。しかしそのための脳科学のデータは限られており、神経科学的妥当性を追求するのはまだ早いというのが本論文の立場です。

Unfortunately, what we “know” about the brain is not all that clear-cut. (...) In the long run, we are optimistic that neuroscience will eventually place more constraints on theories of intelligence. For now, we believe cognitive plausibility offers a surer foundation.　（§5）

むしろ、いま追求すべきは認知科学に照らした妥当性（cognitive plausiblity）であると言います。

したがって、本論文での「豊富な事前知識（rich prior）」は、脳の解剖学や生理学上の制約ではなく、人間がもっている文字通りの「知識」を指すことになり、これを「人間知能の核となる要素（core ingredients of human intelligence）」と呼んでいます。

それはどんなものか？　言葉だけ列挙します。

まずは人間が幼少期からもっている、世界に関する知識の枠組み。著者らは「スタートアップ・ソフトウェア」（Developmental start-up software）と呼んでいます。

直観的物理学（intuitive physics）…ものの動きや性質などに関する知識
直観的心理学（intuitive psychology）…他人の行動の意図などに関する知識

また、速い学習を可能にする枠組みとして下記を挙げています：

因果モデル（causal model）…「ああなれば、こうなる」というように、因果律に当てはめて理解する
分割可能性（compositionality）…部分に分けて理解する
学習の仕方を学習する（learning to learn）…他の学習にも流用できるような表現を学習する

これらは認知科学（心理学）の分野で研究されてきたテーマであり、これらを取り入れていくことで、機械学習、とりわけディープラーニングが人間の学習に近づくだろうと言います。実際、すでにこうした考え方で行われている研究は多数あるようで、論文内で列挙されています。

「予測＝パターン認識」から「発見＝モデル構築」としての学習へ

まっさらのニューラルネットの学習から、事前知識を与えた状態からの学習へ。こう聞くと「それはそうだよな」という気もするのですが、本論文ではこれにもう少し大きな意味を与えています。

それが、学習の捉え方を「予測＝パターン認識」から「説明＝モデル構築」に転換しよう、という主張です。

The statistical pattern recognition approach treats prediction as primary, usually in the context of a specific classification, regression, or control task. (...) The alternative approach treats models of the world as primary, where learning is the process of model-building. (...) The difference between pattern recognition and model-building, between prediction and explanation, is central to our view of human intelligence. （§1）

膨大なデータから何らかの「パターン」を学習し、新しいデータの属性を「予測」する。多くの機械学習がその考え方でなされてきたのに対し、人間の学習はそういうものじゃないだろう、と著者らは言います。むしろ、人間の学習とは、経験を重ねることによって「世界がどうなっているか」を理解する、つまり「モデルをつくる」ことにあるだろうということです。少ないデータから汎用的な学習を可能にするためにも、「パターン認識」から「モデルの学習へ」という発想の転換を促しています。

この方向を突き詰めたのが、著者らの2015年の研究です。

Lake, Brenden M., Ruslan Salakhutdinov, and Joshua B. Tenenbaum. "Human-level concept learning through probabilistic program induction." Science 350.6266 (2015): 1332-1338.

この論文で、LakeらはBayesian program learning（BPL）というアルゴリズムを提案し、BPLを使って手書き文字を効率よく学習するデモンストレーションを行っています。BPLは「概念を確率的なプログラム」とみなします。つまり、概念とは、新しい例（手書き文字）を生成するプログラムであり、プログラム（＝生成モデル）を獲得することが、その概念を理解することに他ならないというわけです。

2015年の研究については、下記の動画で簡潔に説明されています。

実は本総説論文ではBPLが「これからのAI研究の新機軸」などとして大々的に紹介されているのかな、と予想して読み始めたのですが、そうではありませんでした。むしろBPLは「機械学習に人間の思考のクセを取り入れる」という大きな方向性の一事例として扱われていました。そもそもBPLはディープラーニングを使っておらず、著者らとしてもあくまでメインストリームはディープラーニングで、そこにBPL的な要素を入れていくことを有望視している印象でした。

おわりに

「人工知能」は、その分野が始まった当初から「脳」や「心」の研究との接続を意識してきたと言います。ですが、本論文を読み、AI研究と認知科学の接近がますます本格化していきそうな印象を持ちました。

そもそもこの論文を読むきっかけになったは「日経サイエンス」2018年2月号の
「子どもの脳に学ぶAI」という記事でしたが、その著者アリソン・ゴプニック氏は子どもの心の発達を研究する認知科学者でした。日本でも、いわゆる「人文学部系の心理学」と「工学部系のAI研究」が接近する流れが来るのでしょうか。興味深いです。

*1:たとえばこれなど：「人工知能と脳科学の対照と融合」｜文部科学省科学研究費・新学術領域研究（2016〜2020年度）