重ね描き日記(rmaruy_blogあらため)

読書メモ、探究メモなど。

読書メモ:心を知るための人工知能(谷口忠大 著)

「記号創発ロボティクス」を掲げ、その旗振り役として分野をけん引するAI研究者、谷口忠大氏による最新著。

共立出版の「越境する認知科学シリーズ」から出ていることもあり、主に「認知科学」の読者を意識して、「記号創発ロボティクス」の研究思想、およびこの間の研究成果を伝えている。しかし、認知科学系の読者に限らず、2010年代のAI研究がどこまで来たかを総括的を知るのに最適な一冊でもあると感じた。

***

記号創発ロボティクスとは何か。

記号創発ロボティクスは実世界の身体的経験と他者との相互作用に基づき言語を獲得し、その果てに人間との言語的コミュニケーションを可能とするロボットを生み出そうとする。『心を知るための人工知能』p.1

ざっくりといえば、 実世界の中に無垢な状態でロボットを置き、そこから人間のような学習ができるものを作ってみよう、とくに”記号”と著者が呼ぶ現象が”創発”する現象を再現しよう、という研究である。

これを、著者は認知科学の一つの方法論として位置づける。

本書を支え続けるのは、「より豊かなモデルを通して人間の認知を理解しよう」という態度である。p.x

実環境で学習し続けるロボットを人間の適応的な認知のモデルとして見ている…つまり、作ったロボットの認知が人間の認知と同じであることを実証しようとしているのではなく、人間の認知を説明するためのモデルの候補を生み出そうとしているのだ。p.10 

著者はロボットが「モデル」であるということにこだわる。科学哲学者マイケル・ワイスバーグ『科学とモデル』*1における「具象モデル」「数理モデル」「数値計算モデル」という区分を挙げ、そのどの要素も兼ね備えたものとして、記号創発ロボティクスにおけるロボットを位置づけている。

認知のモデルとしてのロボットを構成するにあたって、まず指導原理とするのが、「認知的な閉じ」、つまり人間の認知が「自らの感覚運動系に閉じていること」である。

これまでの人工知能研究、およびそれをモデルとして研究する認知科学は、人間の認知の根幹であるこの「認知的な閉じ」をしばしば無視してきた。もしくは考慮に入れることを諦めてきた。p.24

「認知的な閉じ」を無視したAI研究の典型として、著者はかつての「記号主義」を挙げる。知能のはたらきを離散的な記号の論理的操作とみなす記号主義は、「記号」という言葉を不用意に使ってしまったことに著者は注意を促す。記号主義における記号は、計算機にプログラマーが与える、静的なものだ。一方、人間にとっての記号はそうではない。

記号はサイン(sign)と対象(object)と解釈項(interpretant)の三つの要素からなる三項関係として定義づけられる。

…記号は静的な実体ではなく、能動的な解釈を伴う動的な過程である。

…記号の意味とは、解釈者による能動的な意味付けによって支えられており、記号が人に伝える意味は、そのサインを受け取る解釈者によって創造される。p.36

記号創発ロボティクスにおける”記号”とは、この、動的な、プロセスとして記号(=記号過程)だという。

このような記号概念の見直しにより、AI分野で大きな問題とされてきた「記号接地問題(symbol grounding problem)」が、偽の問題として退けられる。

認知システムの内部視点に立ち、感覚運動情報からボトムアップに内的表象系が形成されていくというアプローチに立つと、前もって存在する記号システムなど初めから存在しておらず、記号接地問題などそもそも存在しないのである。p.50

いかに言語を支える内部表象系を認知システム内部に組織化し、また、認知の使用を通じて社会の中で記号的知識を共有していくのか

…これを記号創発問題と呼びたい p.56

つまり、ロボットのなかにあらかじめ組み込んだ「記号」とその意味との「接地」を問題にするのではなく、”記号”(具体的には事物の「カテゴリー」や「単語」など)がロボットが経験する感覚や運動の情報からどのように獲得されるか(「創発」するか)を考えよう、ということだ。ここまでが、第2章までの話となる。

では、どのように「記号の創発」をモデル化するのか。続く第3章では「確率的生成モデル」によるその方法論が概説される。

自らの「認知的な閉じ」を前提としながら適応していく認知システムを数理モデルとして表現する方法として、確率的生成モデルは自然な選択肢となる。p.73 

確率的生成モデルは、観測できる変数が、ある確率分布から生成されたと仮定し、その分布を決める潜在変数を(ベイズ)推論することで同定されるモデルである。

カテゴリ形成や語彙獲得は視覚xや聴覚yといったマルチモーダルな刺激(観測)から内部表象としてのzを学習する、zを潜在変数とした同時分布P(x,y)=∫P(x,y|z)P(z)dzの推定問題である。

…「認知的な閉じ」を前提とした内部表象の学習モデルは、内的表象自体への特殊な教師信号を認めず、教師なし信号として表現されるべきだろう。p.70

特徴的なのは、あくまで「教師なし学習」を考えるという点だ。

確率的生成モデルの枠組みで認知システムを書くことで、さまざまな認知過程を経験からの内的表象(潜在変数)の推論問題に帰着させることができる。p.81 

第4、5章では、この確率的生成モデルを使った、具体的な研究が紹介されていく。

第4章ではマルチモーダルな概念・カテゴリ形成の研究が紹介される。ロボットに視覚・聴覚・触覚といった感覚情報だけを与え、そこから「ぬいぐるみ」「ゴム製のおもちゃ」「ペットボトル」などの物体のカテゴリを教師なしで学習させる。自己位置推定のモデルと組み合わせることで、「キッチン」「居間」などの場所概念の学習ができたという。第5章では言語に着目し、たとえばロボットが「物体や場所のカテゴリを持たず、語彙も持たないところから、カテゴリとその名前を学習することができる」ようになった研究などが紹介される。共通するのは、何かをつくり込んで与えるのではなく、ロボットがブートストラップ的に学習するという点だ。

ここまでは、もっぱら確率的生成モデルとそのベイズ推論が方法として用いられていた。しかし、今回の「AIブーム」で主役は「ディープラーニング」だろう。第6章では、確率的生成モデルとディープラーニングの関係について触れている。

著者は、確率的生成モデルとニューラルネットワークは別物ではなく、両者は「越境すべき二元論」だという。たとえば、

生成過程をデコーダとして見なすことで、確率的生成モデルはVAEとしてニューラルネットワークに書き換えることができる p.202

のであり、それゆえ

ニューラルネットワークで行ってきた認知システムの議論っは多くの部分が確率的生成モデルにおいて解釈可能であり、また確率的生成モデルで議論してきた多くの部分もニューラルネットワークに基づく認識の枠組みで取り扱うことができるのである p.193

という。そのうえで、潜在変数を分散的に表現する「マルチモーダルディープラーニング」の研究などが紹介される。

第7章では、議論の大枠に戻る。結局、「カテゴリー」や「概念」とは何なのか。本書で説明されてきた具体的なモデルのどの部分に対応するのか。そこには、「この変数です」といった、わかりやすい関係はないようだ。

記号主義的な理解とは異なり、…脳内に「りんご」というカテゴリや概念に対応する離散的なトークンが存在するとは考えない。p.209

たとえば「カテゴリー」を知っているというのは、ある物体jを見せられたときに、それと別の物体iとが同じカテゴリに属するかどうかの「条件付き確率」を、潜在変数を用いた積分計算(尤度計算)で求められるということだという。そして「概念」とは、確率的生成モデルでは「大域変数」として表されるものだという。

たとえば、音声信号「りんご」を聞くとき、マルチモーダルな感覚運動情報を使って形成された概念を通して、その色、形、味を推測することができる。それに加えて、色、形、味の情報から、対象の名前、つまり「りんご」を推測することもできる。また、ただの赤い色からりんごの手触りを想起することすらできるのである。カテゴリがそうやって推測された確率分布そのものであるのに対して、概念はその推論を支える知識を指す。p.213

最後に、”記号”はどうなるか。

あるサインwを観測したシステムはそこから自らの知識を用いて内的表象P(z|w)を推論したり、そこから他のモダリティの情報を予測したり、類似の物体を想起したりできる。この推論こそが記号過程として捉えることができる動的な過程なのだ。p.217

カテゴリーにしても、概念にしても、記号にしても、何らかの実体としてではなく何らかの「プロセス」として捉えなおされていることがわかる。

本書では、様々な確率的生成モデルが取り上げられてきており、それらは、ある限られたタスクではあるが、それなりに成功を収めてきた。では、これは「認知のモデル」として「正しい」ものだと言えるのだろうか。著者は、本書の端々で、次のような注意喚起を行う。

本書において、また、記号創発ロボティクスの研究において「ロボットがもし実世界で言語獲得ができたならば、人間もそうやっているということだ」とは一切主張されていない。もし筆者の共同研究者や指導する学生が上記のような主張をするならば、筆者は厳しく否定するだろう。p.31

本書ではさまざまなモデルを示してきたが、人間理解を目指す認知科学の研究としては当然ながらこれだけでは片手落ちである。これらはそれぞれの現象を説明できるモデルの提示にすぎない。いわば仮説である。それで表現されるやり方を人間も行っている保証はやはり存在しないのである。p.245 

つまり、本書の「認知のモデル」としての「確率的生成モデルを搭載したロボット」は、あくまで「ある仕方でうまくいくことの証明」でしかない。次なるステップについては、著者は最終章にて、おそらく認知学者に向けて、次のように投げかける。

次に必要となるのは、そのモデルの中で、人間の認知と照らしたときに興味深いところや疑問に思われるところを抽出し、「果たしてこのモデルは妥当か?」ということを検証する実証的研究であろう。現象を説明できるモデルの構築とその検証が、両輪で走って初めて認知科学の研究は前進する。p.245

感想と疑問 

 「人間のような知性を、機械で実現する」—―この抽象的な目標を掲げて、アドホックに有望な手法を試して、画像認識などの個別のタスクで結果を出す。少なくないAI研究が、そのようなスタイルで進められてきた印象がある。しかし、人間のような知性とは何か? 個別の精度向上の先に、どうして「知性」があると言えるのか。そんな疑問がぬぐえなかった。

そうしたなか、本書の著者は、最も緻密に、人工知能研究をどのように進めるべきかを考えてきた一人だと思う。各種概念の説明も、粘り強く練り上げてきた足跡が窺えて感動した。2020年代は、ディープラーニングと結びついた確率的生成モデルによる、マルチモーダル学習がAI研究の主軸になるだろう――そう思わされる説得力が本書にはあった。

とはいえ、疑問もいくつか残る(自分が読み取れなかった、もしくは本書には書かれていなかった、という意味で)。雑多に挙げてみる。

  • 人間の学習はどこまで「教師なし」なのか。子どもに語りかけるとき、子どもが間違って単語の区切りを間違って聞き取ったりしたら、「違うよ、〇・〇・〇だよ」などと明示的に教えていると思う。これは、大人が意図的に「記号」を「教師」の立場で教えているということにならないか。
  • 確率的生成モデルで教師なし学習、と一言で言っても、そこで使われる最適化関数や正則化項(?)などに、かなり具体的な前提が入るのではないか。そこの部分の「作り込み」と認知科学的妥当性についてはどのように考えられているのか。
  • 著者は本書の構成論的なアプローチに「反証可能性」があると度々書いている。これは妥当な主張か。むしろ、「このモデルにより何ができるか」という探索的なアプローチとして捉えるのが個人的にはすっきりするように思えた。

関連記事

コネクショニズムベイズアプローチの統一的理解を提唱している本書からは、Pedro Domingos著を想起した。記号創発ロボティクスは、「マスターアルゴリズム」構想の一つの具現化として捉えることもできるのかもしれない。