Hatena::Grouprekken

murawaki の雑記

2012-09-05

Mapping the Origins and Expansion of the Indo-European Language Family

Bouckaert et al. 2012. Mapping the Origins and Expansion of the Indo-European Language Family

印欧語族アナトリア起源説をとなえるグループが新たに出した Science の論文。このグループは以前から同源語 (cognate) を使った系統樹の推定を行なってきた。今回は言語の地理位置の情報を加えて推論した結果、祖語の位置がアナトリアと推定されたというもの。

この論文の存在は定点観測している英語圏ブログで知った。欧米人は印欧語族が大好きで、案の定議論が白熱していた。気になったのは、ほとんど誰もモデルの中身を理解していないらしいこと。日本語圏の反応は論外。この論文を取り上げたニュース記事は AFP のぐらいだが、これが悲惨の極み。よくわかっていない人が適当に書いている。*1 おかげで、はてブTwitter のコメントもあさっての方向を向いている。もちろん誰もモデルの中身を議論していない。荒涼たる風景が広がっている。

Twitter では「計算機でやっているから胡散臭い」といった感じで言語学の人が中身を見ずに dis っているのを見かけた。計算機屋としては、人間が苦手なことは計算機にやらせればよいと思っている。人間は離散的な決定は得意。A か B か、あるいは4 個ぐらい候補から一つを選ぶとか。人間が苦手なのは、組合せが爆発している場合。百万個の候補からは最適な候補を選べない。もう一つ、連続値も苦手。確信の度合いが、0.8 ぐらいか、0.5 ぐらいかと聞かれても困る。系統樹は組合せ爆発を起こすし、年代推定は連続値を扱う。まさに計算機にうってつけ。

個人的な意見を言うと、この論文は、現在持っているデータと現在持っている道具を使って、やれることをやっている。批判するはありとしても、中身も見ずに通り過ぎるという選択肢はないはず。そこで、言語学を少し知っている人ぐらいを対象想定として、解説のようなものを書いてみようかという気になった。まあ、本当のところは、いつものように、頭の中を整理するために考えていることを書きだしているだけ。さらにいえば、系統樹ネタは自分の専門ではない。興味を持ってしばらく追いかけているだけ。整理したいのは勉強途中だから。

何が新しいか

「何が新しいか」という質問に答えるには、その論文が出る前にどのような状況だったかを知らなければならない。しかし、ネット上を見回した限りでは、この前提がほとんど把握されていないように見える。この研究グループは以前から同源語を使った系統樹の推定を行なってきた。印欧語族に関しては 2003 年の Nature の論文で発表ずみ。つまり系統樹を作るだけでは新しくない。2003 年版は祖語の年代推定だけを行なって、7,800-9,800 年前と推定し、考古学的なアナトリア説と一致すると主張していた。

今回新しいのは言語の地理位置の情報を加えたこと。また、2003 年版は著者は 2 人だったが、今回は 9 人に膨れ上がっている。2003 年版は、既存のツールにデータをつっこんでみました、やってみました感が強かったけど、今回は本気でモデルを独自拡張したりしている。今回の差分を理解するには、まず土台となるモデルを理解しないとはじまらない。

系統樹を作るためのデータ

系統樹はどうやって作るのか。まずは対象言語を一通り集める。次に、現在から過去にさかのぼりながら、似ているものから言語同士をくっつけていく。この操作は塊 (cluster) を作るので clustering と呼ばれる。一個にまとまれば終了。元の言語が N 個あれば、N - 1 回くっつける必要がある。本当はもっと複雑なことをやっているけど、基本はこんな感じ。

似ている言語を見つけるには、言語の近さを測る必要がある。どうやるかというと glottochronology (言語年代学) のデータを使う。ある言語が同源語を持っているかを2値で表す。例えば、water 系の語彙を考えると、英語に加えて、ドイツ語は Wasser、ロシア語は вода で同源なので 1。ケルト系の Breton は別系統の dour を使うので 0。この 0/1 を並べる。すると、ひとつの言語が 010110 ... のように表現できる。 言語間の距離は、0/1 の一致率で測れる。

どうして glottochronology のデータを使うのかは、日本語の諸方言に同様の手法を適用した論文について触れた時に書いた。要するに、これぐらい単純化しないと系統樹の計算が難しいから。もう一つ注意すべき点は、この手法は既に同系だと分かっている言語の集合 (印欧語族やオーストロネシア語族) しか扱えないこと。だから、例えば日本語と朝鮮語は比較できない。

データをどうやって用意したか。すぐに使えるデータがあったわけではない。もちろん印欧語族は研究の蓄積がすごくて、Dyen のデータベースが土台として使える。でもこれだけでは、特に古代の言語のデータが足りない。そこで、この研究グループはいろんな文献からデータをかき集めている。補足資料では情報源として 113 個の文献を挙げる。code monkey が与えられたおもちゃでわけもわからないまま遊んでいるという批判はあたらない。

そもそも、著者の 1 人、Gray のグループは、他にもオーストロネシアやバントゥーの言語のデータベースを作って公開している。このデータベースのおかげで可能になった研究もいろいろある。こういった同じ基準で編纂されたデータが非常に重要だということが周知されるとうれしい。計算機屋は基本的にはデータ乞食だから、この研究グループのように言語屋と組んだりして、データを整備してもらわないと研究がはじめられない。個人的には、同じような感じで、日本語諸方言のアクセントのデータベースがほしい。

では彼らが作ったデータベースは妥当なのか。これは疑ってみた方が良い。というかやるべき。誰か専門家検証してほしい。しかし生のデータベースは公開されていないみたい。公開されているモデルファイルに一応含まれているけど、2 値化されていて元の言葉が復元できない。補足資料の表 S1 も文献ごとに抽出した語の数を載せているだけで、具体的にどの語を採用したのかわからない。

系統樹モデルの中身

上で説明した系統樹の作り方はあまりにも適当なので、もう少しまじめに中身を見る。英語圏では解説記事がもう少しまともで、「ベイズ」というキーワードが含まれていた。このバズワードから妄想をふくらませている人がいた。いまさら「ベイズ確率」を Wikipedia で調べたりしても無駄。もっといえば、確率モデルである事自体、計算ができるようにするための方便だと思っておけばよい。

モデルというのは、要するに何かというと、箱。「私はこんな系統樹を作りました」といって箱に突っ込むと、箱は「-55328 点です」と点数を返してくれる。点数は負の値。大きな、つまり 0 に近いほど、入力された系統樹がもっともらしいと箱が評価したことになる。箱は頑健にできていて、例えばヒッタイト語と英語を真っ先にくっつけるようなイカれた系統樹を入力しても、「-77660 点です。残念でした。」とそれっぽい数字を返してくれる。

ベイズ統計は、頑健さを確保するための道具にすぎない。連続値を扱うので正規分布とかガンマ分布とか*2を組み合わせてモデルを作っているが、これも計算できるようにするための方便。恣意的ではあるが、変にアナトリア説にバイアスがかかったりするわけではない (はず)。

さて、解くべき問題は二つに分解できる。(1) 箱をどのように設計するか。それっぽい系統樹に高い点数を、駄目そうな系統樹に低い点数を返すようにするにはどうすればよいか。(2) とりあえず箱を作ったとして、高い点数が返ってくるような系統樹をどうやって見つけるか。まずは最初の問題から見ていく。

さきほどは「似ている言語同士をくっつける」と適当に説明したが、例えば英語と古英語を真っ先にくっつけて何が起きるかというと、「英語-古英語共通祖語」とでも言うべき言語が系統樹上のノードとして作られる。この共通祖語がどのように表現されているかというと、やはり 010110 ... といったバイナリ列。印欧祖語を含めた 2N - 1 個の言語がこんな感じでバイナリ列で表現される。このうち値が固定されているのは N 個の言語だけ。*3 残り N - 1 個の言語のバイナリ列の値には、とてつもない自由度がある。とにかく一通りえいやと決めて、モデルに突っ込めば点数が返ってくる。

系統樹を作れば、祖語から現代語にいたるパスが引ける。パスの途中で言語の中身が少しずつ変化する。どういう風に変化するかを仮定する必要がある。ここで出てくるのが、遺伝子の変化を扱うようなモデル。こういうモデルを元々作ったのは bioinformatics*4 の人たちで、引用されている文献は古いものだと 1980 年代とか。言語処理屋のあずかり知らぬところで発展した手法。「疫病流行の追跡用に開発されたコンピューター・モデル」という新聞記事を見て、「語彙は疫病なのか」と言っている人を見かけたが、そういう人が妄想しているものとは多分違う。

語彙 (0/1 のバイナリ列) は、基本的には親言語から子言語に受け継がれるが、たまに突然変異が起きる。遺伝子と一緒。あるノードである言葉 (例えば water 系の語) が失われると、子孫はその言葉を受け継がない。また、あるノードで新たな言葉が誕生すると、それは子孫に受け継がれる。こういう特徴が遺伝子と共通。*5 ナイーブなモデルを考えると、途中で失われた言葉がまた復活したりする。もっと現実的なモデルだと、同源語は系統樹上で一度だけ発生し、一度失われたら子孫で復活することはない。なお、水平移動 (借用) は考えない。データベースを作るときに明らかな借用語は取り除いたらしいが、手がかりが少ない古代語は怪しい。あるいは、複合語などに痕跡的に残っている場合にデータベースに入れるか否かの判断とかも怪しい。この論文に具体的に反論したいなら、ここを攻めるのがひとつの手。

言語が突然変異するのは良いとして、では時間に対してどの程度の割合で変異が発生するのか。この変異率を定数として人手で与えると glottochronology になる。今回は計算機がデータから自動で推定する。ここのところが誤解されやすいのだが、変異率が決まったとして、すべての言語がその変異率で変化しないといけないわけではない。平均的にこれぐらいで変異するということを表しているだけ。何度も言うが、モデルは点数を返してくれる箱である。入力の系統樹が変異率によく従っていれば高い点数が返り、そこから外れていると低い点数が返る。それだけ。逆に変異率はどうやって決まるかというと、系統樹上の実際の変異率にフィットさせて、平均的にこれぐらいというところに落ち着く。変異率と系統樹は鶏と卵の関係にあって、両者のバランスがとれたところに対してモデルが高い点数を返す。

実際のモデルはもう 1 段階拡張してある。変異率を一つのパラメータとするのではなく、分枝ごとに別の変異率を考えて、この変異率におおよそ従って各分枝で言語が変化するというモデル。もちろん平均的にはこれくらいという全体の変異率があって、それと各分枝が持つ変異率がどれくらい異なっているかで点数が付けられる。全体の変異率から外れると点数が下がっていくから、あまりにおかしな変異率にはなりにくい。とはいえ、モデルの自由度はあがる。ある言語ペアがあまり似ていないとき、相反する2通りの説明ができる。

  • 分岐時期が昔だった
  • 変異率が高かった (だから分岐時期をそんなに昔ではない)

自由度を上げた分、モデルに与える手がかりを増やさないといけない。そうしないと推定結果が不安定になる。

あと、忘れてはいけないのは、素朴な系統樹は絶対年代を知らないこと。「現代語が時刻 0、根元の祖語が時刻 1 で、、途中の時刻 0.93 に 1 回目の分岐が起きた」といった具合に相対時刻なら得られる。尺度を調整する (これを calibration という) には、系統樹上のいくつかのイベントが絶対年代でいつ頃起きたかという情報を与える必要がある。例えば、ロマンス諸語のガリアとイベリアの分岐は 6-8 世紀頃とする。論文ではこうした情報を 34 個も与えている。さすが印欧語、資料が豊富でうらやましい限りである。

年代情報の具体的な与え方には2通りある。強い制約と弱い制約。強い制約の例はインド-イラン諸語の分岐。これを 3000-10000 (年前) とする。この範囲を外れたら点数を負の無限大にする。弱い制約は先ほどのガリア-イベリア分岐がそう。1400 (年前) を平均とする正規分布を与えている。つまり分岐時刻が 1400 から離れると減点される。1500 にすると 0.5 点減点されて、2000 にすると 18 点減点されるといった具合。どれぐらい激しく減点するかを制御するのが標準偏差標準偏差が小さいと大きく減点される。ガリア-イベリア分岐に対しては 100 に設定されている。例えばこれを 10 と極端に小さくすると、1500 に対する減点が 50 になる。標準偏差をどれくらいに設定すればよいのかは難しい。多分正解はない。平均の設定に関しては、文献学や歴史学領域なので、反論がある人はぜひやってほしい。

たとえ年代制約によって減点されても、系統樹本体の点数がずっと高ければ、全体の点数は高くなる。つまり、他の手がかりとのバランスを考えて、良い落とし所を見つけてくださいということ。

こうして年代情報を与えると何が起きるか。系統樹の一部について、これぐらいの変異率で変異したということが絞り込めるようになる。モデルは一貫性を好む、つまり平均的な変異率に近いほど高い点数を返す。だから、系統樹の残りの部分も、おおよそその変異率に従った変異が好まれるようになる。

ここがもう一つの反論のしどころ。サンプルバイアスがないか検討する価値がある。どこにも魔法はないから、既知の情報からの類推で未知の状態を推測するほかない。もし与えたサンプルに変なバイアスがかかっていて、未知の部分と振る舞いが異なるとなると、出てきた結果が信用できない。例えばの話、仮に記録が残っている、文字を持っていた人々の言語の方が安定していて変異率が低いとする。記録に残っているのは変異率の低いところばかりで、記録にない部分は変異率が高いとすれば、祖語の年代はモデルの推定よりも新しくなるはず。

適切な系統樹を探す

大事なことなのでもう一度言うと、モデルは入力に点数をつけてくれる箱である。入力は系統樹に関する情報一式。例えば「祖語は8500年前で、最初にヒッタイトが分岐して、次、6800年前にトハラ-アルメニア祖語が分岐して ... 。そして変異率はここからここまでは 0.78 で、次は 0.66 で ... 。」といった感じ。とにかく系統樹を作ったら点数を返してくれる。モデルがやってくれるのはそれだけ。どういう系統樹を作ったら高い点数が返ってくるかはわからない。何とかして高い点数を返す系統樹を探さないといけない。組合せ爆発を起こしているのでしらみつぶしという訳にはいけない。そもそも連続値が含まれているから、候補は無限にある。

ではどうやって探すか。一応説明するが、理解しなくても後の議論にそれほど差し障りはないはず。とにかく、ナイーブな方法だと計算機をぶんまわしたところでどうにもならなかったけど、少し工夫すれば、計算機をぶんまわしさえすれば、良さそうな系統樹を見つけられるようになったのである。

まずは適当に系統樹を作る。系統樹を作ればモデルが点数を返してくれる。次に、この系統樹を適当にいじることを考える。枝を別の場所に付け替えたり、変異率を少し変えたり。変更したら点数がどうなるかは簡単に計算できる。いろんな変更の候補があるなかで、基本的には点数があがる変更を選択する。たまに点数が下がる変更を選ぶ。そうすると、元の系統樹から少しだけ変更された系統樹ができる。この操作をひたすら繰り返す。1 千万回ととか、そういうアホみたいな回数。そうすると長期的には点数があがっていく。これを山登り (hill-climbing) という。

この手の論文には Markov-chain Monte Carlo (MCMC) という用語が出てきてバズワードっぽいけど、MCMC はこの手続きのことを指している。富豪的シミュレーションを行うから Monte Carlo。系統樹を少しずついじって次の系統樹を作るという具合に、系統樹連鎖を作るから Markov chain。一つ一つの系統樹をサンプルと呼ぶ。この手続をいくつかのお約束に従って行うと、理論的にも実際上もいろいろ都合が良い。単にそれだけ。

今回のような問題設定だと、一番高い点数を返す系統樹が知りたいというより、高い点数がどのあたりに分布しているか知りたい。一番知りたいのは祖語の年代がどのあたりに分布するか。これを知るために MCMC を使って大量のサンプルを集める。ある系統樹は 8522 だと言い、また別の系統樹は 7584 だと言う。これらを集める。うまく行けば今回の実験のようにつり鐘状の分布が得られる。

ここまでのおさらい

どんな系統樹に高い点数が与えられるか。似ている言語から順番にくっつけていく。似ているのになかなかくっつけなかったり、反対に似ていないのにすぐにくっつけたりすると点数がさがる。年代に関しては、全体的に平均的な変異率に近いほど点数が高くなる。すべてはバランスの問題。

ここまでが 2003 年の論文の説明。準備だけで思った以上に書き散らしてしまった。ここからは、いよいよ地理位置を使ったモデル拡張。

地理位置モデル: 想定問答集

今回の論文地理位置を使って系統樹モデルを拡張している。どういうことかというと、系統樹上の 2N - 1 個の言語 (現代語、印欧祖語、中間の言語) に対して地理位置を関連付ける。具体的な地理位置は例によってデータから推論する。

これだけ聞くといくつかの反論をぱっと思いつく。でも論文は抜かりなく再反論を用意している。先にそれらを見ておく。気分を変えるために自然な会話風にしてみる。

  • Q. 印欧語いうたら、北西に行ったらヨーロッパやし、南東に行ったらインドに着くさかいに、あいだ取ったらアナトリアになるんとちゃうんかい?
  • A. よう見てみい。あいだ取ったらクリミアのあたりに来るで。むしろクルガン説に有利や。
  • Q. 単に黒海が邪魔でアナトリアに落ち着いとるだけちゃうんか?
  • A. 海かて好きに動ける極端なモデルも考えてみたで。それでもアナトリア説が勝っとるわい。
  • Q. ヒッタイト語は系統樹の根元に近いけど、これアナトリアの言語やろ。それに引っ張られてとるだけちゃうんかい?
  • A. そう言うやろおもて、現代語だけつこた実験もしとるわい。それでもアナトリア説の勝ちや。

詳しく見ると、いろいろ言いたいことはあるが、それはまた後で触れることにして、モデルの中身を見る。

地理位置モデルの中身

地理位置の拡張を入れたモデルはどうなっているのか。まずは系統樹が拡張されている。系統樹上の各ノード、つまり各言語に地理位置が関連付けられている。例えば「北緯 49.79、東経 15.49」とか。注意が必要なのは、言語の地理位置は点で表されていること。系統樹自体が言語の分布域を知っているわけではない。面的な広がりは MCMC のサンプルを集めてきて、点の分布を見てはじめてわかる。

年代に制約を入れたように、地理位置にも制約を入れられる。強い制約。既知の言語の対して、話者の分布地域をポリゴンで与える。系統樹中の言語の地理位置がそのポリゴンに含まれていなければ、点数を負の無限大にする。そういうわけで、この研究グループは、ご苦労なことに、各言語に対してポリゴンを用意している。最初論文を斜め読みした時には誤解して、系統樹にこのポリゴンが関連付けられているのかと思った。補助資料をよく読むとそうではなかった。ロシア語などは広大な分布域が設定されているけど、張り子の虎ならぬ張り子の熊。中にはノミが一匹入っているだけ。

地理位置を入れると何がうれしいか。実は「疫病流行の追跡用に開発されたコンピューター・モデル」というのは、地理位置を考慮した発展モデルを説明したもの。引用されている元論文を確認していないので憶測で書くが、多分次のような感じ。やばい病気がどこかから始まってどんどん広がったとする。広がっていく過程で複数の地点でウイルスを採取する。ウイルス遺伝子突然変異を調べれば、どの系統かわかって、それをまとめれば系統樹ができる。ここで、遺伝子だけを見るのではなく、採取した場所の情報を使う。遺伝子が近いだけでなく、地理的に近いということになれば、さらに系統樹に信憑性が増すはず。

新たなモデルは、地理情報を加えた系統樹に対して適当な点数を返さないといけない。そのためには言語の地理的な移動に関するサブモデルを考える必要がある。補助資料ではいくつかのモデルを試している。その中で一番基本的なのは正規分布。これの元ネタは物理のブラウン運動で、粒子がランダムウォークするさまをモデル化したもの。よく知らないけど。こういう話を持ち出すと、「言語は粒子なのか」とか言って、また変な方向に妄想が炸裂しそう。要領は変異率と同じ。あくまで点数を出すための道具。平均的にはこれぐらいで移動するという拡散率が設定される (これ自体もデータから推測する)。この拡散率を使って、親から子への移動距離に点数を付ける。平均よりも遠くに移動すると減点される。変異率と同様に、拡散率についても拡張できて、全体を制御するパラメータと、各分枝を制御するパラメータが用意される。

系統樹地理位置を入れることは私も以前から考えていたが、真面目にやるのは果てしなく面倒そうで尻込みしていた。現実世界は山もあれば谷もある。海もあれば砂漠もある。どこまでモデル化に組み込むのか。仮に計算可能なモデルが作れたとして、どうやってデータを確保するのか。今回の論文は、水上だけを特別扱いしている。印欧語だと、ヒマラヤの存在はあまり問題にならないから、とりあえず海だけ問題にするのはそこそこ妥当だと思う。

単純なランダムウォークモデルに対しても、簡単に入れられる制約を入れている。ある言語の地理位置が水上であれば、点数を負の無限大にする。注意が必要なのは、言語自体の地理位置だけを考えていて、移動については無視していること。親と子の間の線上に海があっても気にしない。

もう一つ弱点を指摘するなら、あくまで距離に対する点数であること。仮に、人間の移動に北から南へという大きな流れがあって、データがそれを示唆していたとしても、それをモデルが学習するすべが与えられていない。あるいは、東西は移動しやすいけど、南北は気候が変化するから移動しにくいといったことが仮にあったとしても考慮されない。距離が同じならどの方向でも同じ点数。

単純なランダムウォークモデルでは水上の移動に減点できないので、もっと複雑なモデルも作っている。地球に対してグリッドを用意する。といっても地球はまるいのでメルカトル図法を考える。各点が陸上か水上かを区別する。隣接点との移動を考える。素朴に計算すると大変なことになるので工夫する。云々。詳しくは追いかけていないけど、大変だということはうかがえる。とにかく、これによって水上の移動に対して大きな減点を科すモデルが作られた。

おさらい。基本的には以前と同様の系統樹だが、点数をつける対象として地理位置が追加されている。ランダムウォークモデルの推定結果を見ると、平均拡散率は 0.48 km/年とむちゃくちゃ小さい。ただし、分散も大きいので、大きく移動してもそれほど減点されない。つまり、地理的近い言語同士をはやめにくっつけると点数が高めになる。ただし、何度も言うがバランスの問題。地理的に近くても似ていない言語をはやめにくっつけたら系統樹本体が受ける減点が大きい。

この結果をどう解釈するか

言語の地理位置についてもう一度言うと、地理的近い言語同士をすぐにくっつける効果がある。それらの共通祖語の位置は、移動が少ないように、子孫の地理位置の間をとったあたりが好まれる。クルガン説による印欧語の故地はウクライナからロシアのあたりで、現在はスラブ系が占めている。系統樹上では、スラブ系はまずバルト系とくっついて、次いでケルト-ロマンス-ゲルマン系とくっつかないといけない。スラブ系を東方に留めておくようなデータは特に与えられていないから、時代をさかのぼると西側に後退していく。おかげで草原地帯は空になるが、ヨーロッパ言語以外は南に偏っているから、あえて北方の空白を埋める言語は出てこない。こう考えると、モデルがクルガン説を好まないのも無理はない。

既に見たように、アナトリアヒッタイト語に引っ張られているだけではないかという疑いについては、一応先回りして反論してある。どれぐらい勝っているかは Bayes factor で測っている。Bayes factor を使う機会がないので、具体的な数値に対する感覚はないのだが、現代語だけを使ったモデルで Bayes factor が 12 というのは、弱いのではないか。コイントスのような単純なモデルならともかく、これだけ複雑なモデルならもっと差がついてもよさそう。全言語を使うと 175。古代語だけを使うと 1404 でボロ勝ちするということは、何だかんだ言っても、アナトリア語派に引きずられているのは疑いない。

やはりサンプルバイアスを疑わないわけにはいかない。クルガン方面は手薄というレベルではない。あのあたりの草原地帯には、かつてはスキタイがいて、多分少なくとも一部はイラン系の言語を話していただろうと推測されるが、言語資料がないのでデータに入っていない。ギリシア人とかも、一般には北方から移動してきたと推定されているはずだが、やはり移動元の資料がないのでデータに入っていない。データの支援のない仮説がデータに支援された仮説に負けるのは自然の成り行き。

サンプルバイアスを疑ったところで、今後資料の状態が劇的に改善されるとも思えないから、別の切り口を考える。クルガン説に基づく祖語の故地と年代を制約として与えて系統樹を探索させた場合、どのようなシナリオが出てくるのか知りたい。そういう実験もできるはず。祖語を今回の結果よりかなり新しい時代に持ってこないといけないので、変異率が相当変わるはず。こうして出てくるシナリオがどう見ても不自然なら、間接的にアナトリア説が支持されるのではないか。

*1:既に指摘されているものだけでも: 1. 表題の「全ての言語」は嘘で印欧語族だけ。2. トルコというと misleading でアナトリアのこと。トルコ語とは無関係。3. Nature ではなく Science の論文。訳が駄目なのかと思って英語の原文を探したところ、原文から駄目だった。諸悪の根源は Mira Oberman という記者。表題については訳者が悪いのかもしれないけど。

*2:離散値ばかり扱っているゆとり言語処理屋には連続値は怖い。

*3:正確には、列の中身が全部 0 か 1 で埋まっているとは限らない。一部は ? にしておいてモデルに推定させる。

*4:この呼び方が適当なのか分からない程度に私はこの分野に不案内。

*5:印欧祖語自体が理論的仮定にすぎないから、系統樹やその年代を考えても無駄だと考えている人がいる様子。遺伝子と言語が違う点としては、言語は必ずしも子孫に受け継がれないというものがある。例えば、非征服者が征服者の言語を受け入れたり (例えばアナトリアトルコ語とか)、少数派が多数派の言語を受け継いだりする (イギリスノルマン人とか)。しかし、ある言語の話者集団を考えて、その祖先をたどると、必ずその一部はその言語の祖語を話している。言語は突然湧いてきたものではなく、かならず誰かから受け継いでいる。祖先をたどっていけば、一部はかならず祖語の話者にたどりつく。例え、それが現在の話者のごく一部の先祖でしかなかったとしても。