Hatena::Grouprekken

murawaki の雑記

2015-04-28

何をもって知能とするか

人工知能の現在の研究状況をネタに与太話をするのであれば、singularity は的外れ。もっと先に議論すべき話がある。これ自体が与太話だが、そういう話をしてみる。

背景

2011 年に Jeopardy! というクイズ番組IBM の Watson が人間に勝った。その頃から、SF か何かから出てきた singularity 業界が騒ぎ出した (らしいことを私は認知した)。その後、2013 年あたりから Deep Learning というバズワードが流行りだして、ますます楽しそうにしている (らしい)。「らしい」というのは自分で深く追いかけていないから。人工知能*1の実際の研究と関わりのないところで展開されている。Michael JordanYann LeCun のような大御所もこの話題には冷淡。

singularity 業界は人工知能の現状を知らない。そもそも、人工知能は何ができて何ができないかという現状認識について、研究者と世の中の間で大きな断絶がある。大きなニュースが続いた結果、実態を伴わない期待が膨れ上がっている。日本でも、人工知能業界の有名研究者一般紙に出て、期待を煽り立てている (ように見える)。日経新聞でも読んでそうな、決定権を持っている人たちを動かそうという意図を感じる。そうやって、研究コミュニティを護送船団的に守ろうとしているように見える。その一方で、同じ研究者が、別の機会には、人工知能にまつわる誤解をとこうと奮闘していたりする。自分で煽り立てながら火消しもする、因果な商売である。Michael Jordan や Yann LeCun もそうだが、長く研究を続けてきた人は冬の時代を経験している。過剰な期待が失望にかわり、再び予算的に干上がることを恐れている。私はもちろん護送船団を率いる立場にはない。でも、世間の誤解は私にとってもリスクではある。偉い人が誤解に基づいて予算を配分し、やりたくもないことをやらされ、その結果失望されるなんて悪夢である。

何が問題か

singularity 業界は、計算機の知能が人間を上回る可能性ばかりを考えている。特に、計算機が自身よりも知的な計算機を複製できるようになれば、知能が加速度的に増幅する、と思っている。おそらく、研究の中心が論理推論だった時代の印象を引きずっている。知能を合理性や科学的な正しさといったものと漠然と結びつけている。でも、人間の知能はそういうものではない。少なくとも、それだけではない。

例から入る。Deep Learning によって急激に性能が向上した分野といえば画像認識*2。画像認識は、例えば、猫が写っている画像を入力して、そこに写っているのが猫だと計算機に認識させるタスク。何を計算機に教え込めばそんなことが可能になるか想像もできないかもしれない。でも、最近では、データセットによっては人間に勝ったという報告すらある。技術の進展は恐ろしい。

しかし、落ち着いて考えてみてほしい。画像認識ができたら知的といえるだろうか。そんなことは猿にでもできる。いや、もっと原始的な動物にだってできる。

Deep Learning が成功したもう一つの分野は音声認識音声認識は音響モデルと言語モデルを組み合わせおり、特に Deep Learning が効いたのは前者、つまり、音声信号と記号列を対応づける部分。これぐらいの能力は、人間以外の動物にも備わっているだろう。

こうして人間以外の動物を考慮するとわかる。最近の人工知能が実現したものは、「知能」という言葉から一般に想像されるものからずれている。とはいえ、画像認識も音声認識も商業的な需要があふれている。計算機は賢くなったと宣伝しなければならない。お金を握っている連中に対して、「猿が実現できました」なんて口が裂けても言えない。まさに POISON

Watson はどうか。あれは連想ゲームを奇形的に発達させたものだと思えばよい*3。例えば、This 'Father of Our Country' didn't really chop down a cherry tree. という設問を考える。どうやって答えの George Washington を導くか。This 'Father of Our Country' という句から、人についての質問だと推定できる。Father of Our Country、chop down a cherry tree といった句で文書を検索して、結果から人を抽出して、適当に順位づけするといった具合。

あれはあれでそれなりに商業的な需要があるのだろう。しかし、あんなもので言葉を理解したことにはならない。あれを見て偉い人が誤解すると困る。実際にはまだ実現できていないものができた扱いになると、それを本当に実現しようとする研究が潰されてしまう。現に、ビッグデータという別のバズワードと渾然一体となって、実用化一辺倒の体制に予算的に誘導されている。生きづらい。

記号幻想

上で、singularity 業界は人工知能研究が論理推論をやっていた時代の印象を引きずっていると書いた。ここで昔の研究を振り返ってみる。内容的に去年の記事と重複あり。

意味というものをどう扱えばよいか、誰も正解を知らなかった。これは今でもわからない。論理業界では、概念にとりあえず atomic な記号を与える。猫に Cat とか。そして記号同士の関係を記述する。Cat は Mammal と is-a 関係にあるとか。そうした関係に基づいて推論を行う。このやり方には 2 つ課題がある。一つは素朴な論理体系だと簡単に破綻する。どういう体系を設計するか。もう一つは、knowledge acquisition bottleneck と呼ばれる問題。この世界の知識をとても記述しきれない*4

後者の知識記述については、自然言語のテキストから獲得するという方向で研究が進んできた。そうした研究はここ 10 年ぐらい流行っていた。特にウェブテキストが大量に手に入るようになってから。私もかつて手を出した。しかし、そろそろ限界だと思う。話は簡単。仮に記号の数を N=10 万とする。単純な事態に対応するのが「A が B を P する」という 3 つ組だとすると、組み合わせは O(N^3)。それなりに面白い推論をやろうと思ったら、「A が B を P すると D が E を Q する」といった事態間関係の知識も必要。そうなると O(N^6)。数え上げおねえさんも涙目である。*5しかも、言語は冪乗則に従う。高頻度な語はわずかで、低頻度な語が大量にある。当然、低頻度な語の組み合わせも大量に出てくる。いくらテキストを集めても被覆できない。そうした未知の表現でも人間は問題なく理解できる。しかし、計算機は困る。従来研究がどうしてきたかというと、上位下位関係等を使って式の汎化を行ってきた。しかし、そもそも記号を atomic に扱うところに限界があるように感じている。

テキストからの知識獲得を試みている時点で、古き良き人工知能像とは決別している。合理性や科学的な正しさから程遠い場所に来ている。テキストに書かれているのは、正しさとして一般に想像されるものとは違う。いろんな人がよく言っている何かでしかない。既に述べたように、そもそも現状では知識の整理があまりうまくいっていないが、仮にうまくいったとする。それでも、三段論法を使おうと思っても、大前提が真か偽かも怪しいし、小前提も怪しいし、だから結論も怪しい。計算機の中でぐるぐる推論をまわすと、仮に出発点が真であっても、数 hop 先は信頼度が著しく低いものになってしまう。

結局、この世界を正確に写像したものを計算機が持つことなんてできないし、正しい規則に基づいてこの世界の未来を予測することもできない。信頼できない観測と、信頼できない知識を使って、信頼できない planning をするしかない。その点では人工知能は人間と変わらない。

2006 年頃、「現在の人工知能研究の先には新興宗教にはまる計算機が出てくる」というネタを思いついたが、知人の反応が悪かったのでお蔵入りした。それから 10 年近くたったが状態に変化はない。人間を超える知能という楽観的な妄想がどこから来るのか不思議で仕方がない。

テキストの限界

上で Deep Learning に触れた際に意図的に飛ばした話題に、意味の分散表現がある。King - Man + WomanQueen の例で有名になったアレである。こういう結果を見ると、意味というものに過剰に思い入れを投影しそうになる。しかし、落ち着いてモデルの式を見ると、やっていることは目的関数最適化。目的関数を最大化 (最小化) するような何かを学習しているに過ぎない。例えば、評判分析で学習しているのは、意味の中でも極性 (positive か negative か) に関わる部分だけ。multi-task learning で、複数のタスクで共通の意味表現を用いる試みもあったが、あまりうまくいかないと聞く*6。学習しているものが、タスクごとに全然別々なのだろう。現状では、意味というものを包括的に捉えることはできていないように思う。

猿を作ろう

やはり自然言語処理は画像認識や音声認識とは性質が違う*7。画像認識や音声認識には多少なりとも生物的な基盤があるが、自然言語処理にはない。砂上の楼閣というか、砂の上にすら建っておらず、ふわふわと浮かんでいる感じ。もちろん人工知能を作るために人間を模さなければならないとは限らない。でも、テキストという人間の生成物を利用するのであれば、人間がやっていることからかけ離れたやり方で知能を実現できるとは思えない。

自然言語がいつ誕生したかには定説がない。仮に 20 万年前だとする。明らかなのは、進化の過程で、自然言語よりも知能が先行すること。言語が誕生した時点では、エピソード記憶手続き記憶を当然備えていたはず。再帰的な操作もできるようになっていたのではないか。言語より前に、伝えたい意味を人間は持っていただろうし、相手が伝えたいことを推測する能力も持っていた。言語の意味解析をやろうとすると、言語から意味への一方向の写像を考えがちだけど、おそらくそれだけでは無理。音声認識における言語モデルのように、意味側で自然さを考慮する (相手の伝えたいことを推測する) モデルが必要。テキストの世界に閉じたまま意味を捉えるのは無理がある*8

結局何が言いたいかというと、人間を上回る知能を妄想する前に、まず猿、特に人間に近いゴリラやチンパンジーの知能を実現することを考えた方が良い。それを実現することが科学の大きな進歩だという認識が広がってほしい。そして、すぐに役に立たなさそうに見えても予算的に締め上げないでほしい。

仮に猿が実現できて、次に人間を実現しようとなったとき、最初にできるのは高度な知能と一般に想像されるものではないだろう。むしろ、次々と迷信を生み出すような何かのはず。人間を上回る知能なんて、そういうものが実現できてから考えれば良い。そういう基盤ができれば、科学的手続きをどうエミュレートするかといった問題に取り組めるようになって、科学哲学系の議論に実体を与えられるようになるかもしれない。

*1:ふと思いついて調べてみたところ、「人工知能」という言葉を自分で書いた日本語論文で一度も使ったことがない。

*2:画像認識は私の専門ではない。ディープ・ラーニングと 画像処理・画像解析セミナーというスライドが私にような門外漢にもわかりやすい。

*3:もちろん私は Watson の詳細を知る立場にない。地道な言語処理研究の積み重ねであることは間違いない。しかし、それはここでは重要ではない。

*4知識の記述を何十年も延々と続けているプロジェクトも存在する。

*52015 年 5 月 7 日追記: O(N^6) 程度では数え上げお姉さんは涙目にならないとのツッコミを頂戴した。元のビデオを確認した。ご指摘の通りだった。

*6:非公式に聞いた。残念ながら negative result は論文にならないことが多いので。

*7:精度面でも、両者は違う。自然言語処理では、Deep Learning 系の手法は既存手法の性能を大幅に上回るということが基本的にない。良くても同等か、少し上回る程度。

*8:もしかしたら言語と画像との対応を学習するのは近似としては有望かもしれない。

mambo-babmambo-bab2015/04/29 11:01こんにちは。はじめまして。
冷静な分析だなあと思いました。確かにsingularityやディープラーニングの最近の熱狂はすごいですよね。(異端の仮説を書いているボクから見たら本当にわかっているの?って思いますが: http://f.hatena.ne.jp/mambo-bab/20141206224806 )。ディープラーニングで言うとちょっと万能感を前面に出しすぎな感じ(人工知能の中での位置付けが大事と思いますが。)。singularityについては、ボクは議論に入るのは全然問題無いと思います。ただボクの仮説から見ると懸念有無の双方とも根拠が不足しているように見えています。(ボクは人工知能や意識はトイモデルレベルでは実現できているという立場なので。)

paprikaspaprikas2015/04/29 22:28はじめまして。
面白く読ませていただきました。
ひとつだけ引っかかったのが、「multi-task learning で、複数のタスクで共通の意味表現を用いる試みもあったが、あまりうまくいかないと聞く」という部分でして、多分 http://www.australianscience.com.au/research/google/35671.pdf のことではないかと思います。このことをおっしゃっているのであれば、state-of-artな結果を得ています。

murawakimurawaki2015/05/07 17:31id:paprikas さん
はじめまして。返事が遅くなってすみません。コメントが付いているのを見落としていました。

multi-task learning の件は、脚注に書いた通り非公式に聞いた話です。ご指摘の論文については存じておりますし、その上で書いています。個別の報告についてではなく、全体的な印象を書いています。この記事の目的は high-level picture について放言することですので。これは私の現状認識に過ぎませんし、今後変わる可能性はおおいにあります。

2015-04-08

Modelling the Spatial Dynamics of Culture Spreading in the Presence of Cultural Strongholds

Ludvig Lizana, Namiko Mitarai, Kim Sneppen, and Hiizu Nakanishi. Modeling the spatial dynamics of culture spreading in the presence of cultural strongholds. Physical Review E 83. 2011.

物理屋さんによる言語の論文。先月、物理屋さんの研究会で発表したときに教えてもらった。last author の所属大学が私の現在の所属と同じ。意外と近くに似たことをやっている人がいるものである。言語の研究者は背景がばらけすぎ。サーベイが足りてなくても、石を投げずにあたたかく見守ってほしい。あと、この論文は英語が独特。

方言周圏論シミュレーションで再現している。online demo がある。しかし、Javaブラウザから追放されるこのご時世に applet はつらい。

蝸牛考とアホ・バカ分布図に言及した上で、京都を中心とした語の分布を作ろうとする。なぜか Gray et al. の Science 論文を引用しているが、系統樹を作るという発想は最初から最後まで出てこない。普通はそうだろう。

シミュレーションの中身は簡単。要旨に Eden growth process という聞きなれない用語が出てきて身構えたけど。

日本列島に格子をあてはめ、各点を方言のノードとする。新語京都でしか発生しない。その発生頻度は f_{\textrm word} で制御する。語は隣接ノードに対して伝播していく。どのノードを更新するかの決定はランダム。選んだノードに対する更新は決定的。新しい語が古い語をかならず置き換える。シミュレーションの結果、東西の辺境に古語が残存するという期待通りの分布 (図 2 左) が得られている。

シミュレーションの悩みとして、パラメータ設定の根拠がとぼしいというものがある。こうやって日本地図で分布を可視化することで、パラメータを調整するのはありかもしれない。この論文の場合、モデルを少し変更し、新しい語がかならずしも古い語を置き換えない場合も試している。その結果 (図 3)、分布がまばらになっている。この結果はおそらくあまり自然ではない。この結果は、語借用の要因として「威信」があることの傍証にならないか。

この研究への不満は、京都を中心とした伝播しか考えないこと。方言周圏論の背景には、新村出あたりが言い出した、方言の東西対立があったはず。研究史をちゃんと確認してないけど。柳田國男が大々的に着目したのは、東側の特徴が九州等の西側の辺境でも見つかる場合があること。改新の年代差が地方差に反映されるとは一般に言えても、それが具体的にどういう分布になるかは一概には言えない。方言の東西対立という枠組みがつぶれたわけでもない。例えば、「からい」と「しょっぱい」の東西対立の場合、東日本の「しょっぱい」の方が新しい。

やはり、モデルに最初から京都を特別扱いさせるのはうれしくない。こうした前提抜きでシミュレーションを行い、結果として周辺論的分布がたまに得られると良い。そのためには、均質なノードからなるグリッドでは都合が悪い。ノード自体に大小をつけるのか、ノードの間隔を不均一にするか、とにかく文化的中心が中心となるような仕組みが必要。それを言い出すと、隣接ノードとしか通信しないのも怪しい。15km や 30km といったノード間隔は、人間の行動範囲と比較して微妙なところ。おそらく前近代であっても、道沿いのリレーで伝播したとは限らない。多少離れていたとしても、ハブとなる町と直接通信することで伝播した場合も多かったのではないか。そういう実験をやってみたので、前近代の人口データを誰か作ってほしい。