Hatena::Grouprekken

murawaki の雑記

2016-04-24

Comparative phylogenetic analyses uncover the ancient roots of Indo-European folktales

Sara Graça da Silva and Jamshid J. Tehrani. 2016. Comparative phylogenetic analyses uncover the ancient roots of Indo-European folktales. Royal Society Open Science.

各民族がある民話類型を持っているか否かをバイナリコーディングしたデータベースがあり、さらに印欧語族の年代付き系統樹がある。民話が系統樹に沿って継承されたと仮定し、祖語の状態を推定する。最初は 275 種類あった民話はフィルタリングされてどんどん減っていくが、残った一つ、ATU 330 'The Smith and the Devil' は印欧祖語が有していた可能性が高いと主張する。しかしこの主張は怪しいと思う。そのあたりをメモ。

最近締め切りにばかり追われていて、締め切りのない話は永遠に後回しになりそうなことにふと気づいた。この論文も公開されたのは 1 月で、その時雑記に書こうと思っていたのに、もう 4 月である。*1このままでは今までに身につけた資産を食い潰すばかりでジリ貧。そこで、休日は締め切りのことは忘れて新しいことをやると決めた。ということで、この雑記を見かけても、どうか締め切りの催促は控えてほしい。

本題。分子生物学由来の統計モデルは、言語に限らず文化的特徴にも適用されている。第2著者の Tehrani はその研究者トルクメン刺繍の類型の伝承みたいな渋い研究をやっている。

文化的特徴となると、言語以上に水平伝播が問題になる。この分野では、系統的な縦の継承を phylogenesis、横の伝播を ethnogenesis と呼んでいるらしい。今回の研究は、phylogenesis が従来考えられてきたよりも強いという主張になっている。

まず素朴な感想として、人類学系の人たちは自分で系統樹を作る気がないというのが新鮮。系統樹はよそで作られたのを借りてくるものらしい。言語研究者としては、系統樹こそが推定したいものなんだけど。*2

系統樹を所与とすると、観測されたデータが系統樹に沿って継承されたかをテストできる。具体的な方法として、D という指標を見たり、Towner らの autologistic analysis をやって、基準に満たない民話をどんどん取り除いていく。これらの方法はこの論文で知った。機会があれば詳しく見るかも。D は系統樹上でのテスト。Towner らの手法は、観測データの分布を (1) 空間グラフと (2) 言語グラフの組み合わせとしてモデル化し、それぞれの要素の重みを推定する。空間グラフは、言語に紐付いた地理位置を見て、適当な距離内にある言語ペアに辺を引いて作ったグラフ。言語グラフは、語族、語派といった言語系統上のクラスタ二次元グラフで置き換えたもの。言語研究者からすると、系統樹を潰してしまうなんて、ありえない乱暴な処置。さすが人類学者。

これらの手続きにより、275 種類の民話から 76 種類が選抜される。この時点で怪しいと思うが、後回しにする。生き残りに対して、いよいよ系統樹上の状態を推定する。系統樹Bouckaert et al. 2012 が基礎語彙をもとに作ったもの。変化のモデルは普通の連続時間マルコフ過程。0 が死んでいる状態、1 が生きている状態。変化の速度を制御する遷移行列を Q = \begin{pmatrix} -\alpha & \alpha \\ \beta & -\beta \end{pmatrix} とすると、ある時点で状態 i \in \{0,1\}のとき、時間t後の状態jの確率は P(x=j|\pi(x)=i,t)=\exp (tQ)_{i,j} で表される。系統樹と葉の状態は観測されているので、推定するのは内部ノードの状態と遷移行列のパラメータ。結論として、印欧祖語が有していた確率が 50% 以上の物語として、328330402554 の 4 種類が残る。閾値を 70% に引き上げると 330 番だけが残り、これは別のテストも通過する。330 番は、都合の良いことに、鍛冶、つまり鉄器にまつわる民話。おかげで、著者らはクルガン仮説に関する楽しい妄想を語っている。

数式が出てきまくる統計の話だからといって、びっくりするような魔法があるわけではない。人手でも大雑把には推測できる。系統樹があって、葉ノードは黒 (生) または白 (死) で塗りつぶされている。内部ノードはまだ色が塗られていない。子供を見て、だいたい黒で塗ってあったら自分も黒だろうし、白なら白。拮抗しているなら半分黒、残りを白で塗りつぶす。そんな感じの操作を繰り返して根までさかのぼったとき、黒の割合がどの程度か。

結局、印欧祖語の状態推定に効いているのは、早期に分岐した (ことになっている) ギリシア語っぽい。民話 330 番の場合、ヨーロッパ系言語は 3 言語を除いてすべて保有しているが、残りは Hindi, Romani, Greek しか保有していない。Romani (ジプシー) はヨーロッパ側と考えると、インドイラン系ではヒンディー語しか残らない。こんな状態で、本当に印欧祖語が有していたと言えるのか。クルガン仮説について妄想を語って許されるのか。

330 番よりも、最後に脱落した 554 番の方が印欧祖語話者に由来する可能性が高そうに見える。実際、Table S5 を見ると、印欧祖語 (PIE) の保有確率は 330 番が 0.54 に対して、554 番は 0.61。554 番はインド系 (Hindi, Urdu, Romani)、イラン系 (Iranian, Tadzik, Kurdish, Ossetic)、Greek、Armenian が持っている。330 との違いは、ヨーロッパ系の歯抜けが 8 言語と少し多いこと。おそらくこの影響で、ヨーロッパ祖語の保有確率が低く推定され、同時に遷移行列のパラメータが大きく (変化しやすいように) 推定され、印欧祖語の保有仮説が Bayes factor が弱くなったのだろう。近現代社会において目当ての民話が採取できたかはかなり偶発的な要因に左右されていそうだが、今回の推定はその偶発的要因の影響を強く受けているっぽい。専門家の意見を聞きたいところ。

さらに言えば、autologistic analysis が怪しい。ギリシア語が、印欧語族中で早期に分岐した (ことになっている) ために、印欧祖語の状態推定に強い影響力を持つことは既に言ったが、それだけでなく、ギリシア語自体が他の言語に対して水平の強い影響力を持っていたことは明らか。ヨーロッパはもちろん、インドイラン系についても、バクトリアインド・グリーク朝の影響が考えられる。言語は対等ではなく、影響力の強いものと弱いものがある。しかし、autologistic analysis では言語は対等で、影響力の区別はない。autologistic analysis が提案されたときの適用先は Western North American Indian で、多数の小集団が共存する地域だったから、このモデルでも大きな問題はなかったのだろう。しかし印欧系はそうはいかない。方言周圏論もそうだが、水平伝播を考えるなら、影響力の大小をモデルに組み込む必要があるだろう。その数値データをどこから持ってくるかが難しいのだけど。

*1:しかし、なぜか 4 月 22 日付けで Science の記事が出ている。今月になって Mark Pagel が Current Biology に follow-up を書いたから認知されたらしい。

*2:ただ、最近は別のやり方も考えている。言語データは DNA とくらべて貧弱すぎて系統推定にも限界がある。DNA系統樹 (というか有向非循環グラフ (DAG) ) を作っておいて、DAG 上を言語が伝播するような推定をやっても良い気がする。