Hatena::Grouprekken

murawaki の雑記

2015-03-05

Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis

Will Chang, Chundra Cathcart, David Hall and Andrew Garrett. Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis. Language, Vol. 91, No. 1. 2015. (preprint).

ここしばらく連続して雑記に言語ネタを投下してきた。たぶんこれで最後。

内容は表題の通り。インドヨーロッパ (印欧) 語族の祖語の年代を推定。結果は、印欧祖語の故地に関する 2 大仮説、アナトリア説とクルガン (steppe) 説のうち、クルガン説を支持。これは、アナトリア説を支持する Mapping the Origins and Expansion of the Indo-European Language Family を含む Gray & Atkinson 系の研究への反論になっている。

forthcoming articles として案内されているのには気付いていた。いつのまにか preprint が公開されていた。

著者は 4 人とも Berkeley 所属。第1著者第2著者第4著者言語学の人。第3著者は Dan Klein の NLP グループの人で、音変化の統計モデル (Bouchard-Côté et al. PNAS 2013) にも関わっていた。この種の論文にはだいたい生物進化系の人が入っているものだが、今回はいない。

一つの論文言語学統計モデルのガチな議論が同居している。ヴェーダ語 (いわゆるサンスクリットだが、仏典のそれよりも前の段階) からロマ語にかけての語の意味変化の議論と、不等式の証明に同時にお目にかかることはまずない。しかも第1著者(?) が自分で BEAST (系統推定のソフト) を改造している。BEASTモジュール化されているとはいえ、お化けみたいなプログラム。生物系で提案されたモデルを片っ端から実装しているから。言語学が本職の人間がいじるなんて信じがたい。

計算モデルを使う Gray & Atkinson 系の研究を批判する言語系の人はいままでもいたけど、はるか遠くから石を投げていた。それでは当たらない。Chang et al. は射程距離まで近づいてマサカリを投げている。これは直撃して死ぬ。

Chang et al. は地理位置は扱わず、年代だけを議論している。印欧祖語の年代は、アナトリア説だと 9500-8000 BP (before present, 現代からN年前)、クルガン説だと 6500-5500 BP。Gray & Atkinson 系の研究はアナトリア説を支持していた。仮にクルガン説が正しいとすると、モデルが祖語の年代を実際よりも古く見積もり過ぎということになる。Chang et al. は、何が原因でそうなったかをデータとモデルの特性にそくして議論している。

モデルの動作のおさらい

年代付きの系統樹を作る。モデルの仮定するところでは、祖語から分岐を繰り返して現代語にいたる。推論はこの逆を行う。現代から過去に向かって言語群を合流させていき、最後の 1 個になったらそれが印欧祖語*1各言語は、語を持っている (1) か持っていないか (0) に従い 010001... のようなバイナリ列で表現される。2 つの言語 A, B を共通祖語 P に合流させるには、語の誕生 (0→1)、死亡 (1→0) が P → A, P → B で起きたと考え、A, B 間の差を吸収しないといけない。この誕生、死亡が時間に対してどの程度の確率で起きるかを制御する遷移率パラメータをモデルが持っている。

枝の長さ、つまり分岐してからの時間が長いほど、多くの変化が起きやすい。反対に、多くの変化が起きているなら、それに応じて枝をのばした方が自然な解釈になる。

遷移率の値はモデルがデータから推定する。そのために必要なのが calibration (較正)。系統樹の途中の地点が絶対年代でどのぐらいなのかをモデルに与える。例えば、(英語やドイツ語などの共通祖先である) 西ゲルマン祖語の年代は 1550 BP あたりだと指定する。そうすると、このソフトな制約を満たすような良い感じの遷移率をモデルが推定する。要は、言語がどれぐらいの速度で変化するかが学習される。それをさらに過去に延長していくと印欧祖語にたどり着く。

calibration は印欧語族の場合少し特殊。世界のたいていの語族では現代語のデータしか手に入らないが、印欧語族は資料に恵まれている。古英語、ラテン語ヴェーダ語、ヒッタイト語のような古代語のデータが (不完全だとしても) 得られる。そこで、例えば、古英語のデータを追加するとともに、その年代をおよそ 1000 BP と指定する。より印欧祖語に近い古いデータを追加するほど、変化速度や祖語の状態の推定が確実になると期待して。

この古代語の扱いが、やや直観に反するところでもある。従来手法では、古代語系統樹の葉ノードにする。ヒッタイト語のように滅んだ言語ならともかく、古英語は子孫として (現代) 英語を持っている。それでも葉ノード扱いする。普通に系統推定を行うと、英語は古英語と最初に合流するので、英語・古英語共通祖語というべきノードが作られる。

後で見るように、Chang et al. はこの部分をいじっている。従来のように古英語を英語の兄弟扱いするのではなく、英語の直接の過去の状態として扱う。表題の ancestry-constrained phylogenetic analysis はこの改造を指す。

Gray & Atkinson 系の研究の何が問題だったのか

Chang et al. の議論は多岐にわたるが、一番重要なものだけ紹介。まずデータの特性を取り上げる。次にそれをモデルがどう解釈するかを見る。

データの中で問題となるのは homoplasy, drift, precursor, advergence といった用語で説明される現象。この現象自体は以前から知られていた。私も自分の以前の発表でこの現象の存在には触れたが、ひとまず例外として無視できると思っていた。ところが Chang et al. は無視できないことを示している。

そもそも言語ノードの表現、010001... のようなバイナリ列をどうやって作ったか。まず、ある概念を表す語を言語ごとに集める。次に言語同士を比較して、語源が共通する語をまとめる。209-210ページの例を使うと、leg という概念を表す語は、ヴェーダ語で jáṅghāベンガル語、マラーティー語で pāyギリシア語pódiペルシア語。これらは語源的に2つにまとめられ、ヴェーダ語以外は共通する。そうすると、 系の語に関して、各言語はそれぞれ 0、1、1、1、1 と表される。

しかしここに罠がある。実はベンガル語 に対応するサンスクリットpád が存在し、印欧祖語 *pod- にさかのぼる。しかし pád は leg ではなく foot を意味する。実は、foot → leg の意味変化はありふれており、インド語派以外にもギリシア語イラン語派で独立に起きている。このように、別々の起きた現象によって同じ (似た) 状態にいたることを homoplasy と呼んでいる。生物進化系の用語。

この現象をもう少し考える。homoplasy を起こすには、単に foot → leg の意味変化が系統樹の複数の箇所で起きるだけでは駄目。foot を表す語も共有していてはじめて homoplasy になる。これを precursor と呼んでいる。さらに、子孫たちと外側の言語で 1 がたっているのに、祖先の状態が 0 という現象を advergence と呼んでいる。

この現象が結構広範囲に観測できることを Chang et al. は示している。現代語のビット列のうち、7% の要素は homoplasy に該当するという。Swadesh 以来の議論で、基礎語彙は借用 (水平伝播) しにくいということになっていたが、homoplasy の方が借用よりも影響が大きいことになる。

homoplasy がモデルの推論にどのような影響があるか。まず、現実の遷移を確認しておく。(注: ここから先の例は私が自分で作っているので間違いがあるかも)*2 leg の 形の語の場合は以下の通り。本当は二分木だけど、簡単のために途中のノードを省略。

つまり、ありこちで 0→1 の変化が起きている。しかし、一般に少ない変化で説明する方が、モデル的には自然。よって以下のような遷移を好む。

ここで仮に共通祖語と言ったが、これは何か。トカラ語とアナトリア語派が leg の意味で 形の語を持たないことを考えると、非ヒッタイト・非トカラ系の共通祖語だろう。だとすると、モデルはおそらく次のような変化を推定するだろう。

場合によっては、印欧祖語 → 非ヒッタイト共通祖語 までさかのぼらせるかもしれない。いずれにせよ、変化を実際よりも古い段階に持っていくことになる。

要するに、homoplasy は以下のバイアスを引き起こす。

  • 変化率を実際より低く見積もる
  • 変化を実際より古い段階に先送り(?)する

この2つはいずれも祖語の年代を古く推定する効果を持つ。

Ancestry constraints

そこで導入されるのが ancestry constraints。ヴェーダ語をベンガル語、マラーティー語の祖先とみなす。すると、強制的に以下の遷移が実現される。*3

そうすると、変化率が不当に低く推定される問題は解消される。変化も新しい段階で起きたことになる。よって制約を入れない場合にくらべて新しい祖語の年代が推定される。共通祖語の状態が正しく推定されるかはわからない。

Chang et al. は、他にもいろんな要因を考えている。式 (8)*4 の diagram がその一部をまとめている。結論としては、アナトリア説よりもクルガン説を支持する新しめの年代が推定される。

印欧語族古代語の資料が豊富にあるからそれで良いだろうけど、他の語族ではどうしようもなさそう。

古代語データの扱い方

印欧祖語の故地の問題は、放っておいても他の人が議論してくれる。ここでは古代語データの扱い方を考える。他の言語への応用を意識して。

既に述べたように、従来手法では、古代語系統樹の葉ノードにする。だから、英語と古英語の他に、英語・古英語共通祖語のノードを作らないといけない。

Chang et al. が問題にしたのは、共通祖語から古代語への枝がやたら長い場合があること。Bouckaert et al. (2012) の結果で見ると、極端なのが古アイルランド語。古アイルランド語アイルランド語A、スコットランド・ゲール語の共通祖語から古アイルランド語への枝が 1,000 年近い長さ。この結果を素直に解釈すると、古アイルランド語と同時代に、相当程度分化した兄弟言語が存在し、それが生き延びて現代語になったということ。直感的にはそんなはずがない。Chang et al. はこの点を 3 節で議論している。主に資料が豊富なラテン語を例に。

モデルの振る舞いを見ると、古代語 → 現代語 の遷移で起きたはずの変化が、(1) 現代語・古代語共通祖語 → 現代語、(2) 現代語・古代語共通祖語 ← 古代語 という2つの枝に分割されている。この現象を jogging と呼んでいる。走る方のジョギングと同じ語だけど、急に折り曲がるといった意味。

jogging の存在自体には私も気付いていた。けれど、単にモデルが推定をミスっているのだろうという以上に掘り下げることはなかった。こうして鮮やかに説明されると、他の現象も説明できるのではないかという気になってくる。

jogging のような現象は他のデータでも起きている。以前紹介した日本語諸方言の場合も、上代語が他の本土方言と合流するまでに約 200 年の枝がのびている。歴史を考えると、京都奈良あたりの直接的な祖先であって欲しいところだけど。

ただし、その原因は Chang et al. が議論したような homoplasy ではないだろう。同じ変化が独立に複数回起きたのではない。一度だけ発生した変化が、木の制約に反して、いわゆる水平伝播によって広まったという従来通りの見方で良いだろう。しかし、具体的にどういう仕組みでこうなったのか。いまのところ、うまく説明できる仮説を持ちあわせていない。基礎語彙の一致率で上代語と他の言語をソートすると、上位に中古語、東京、北海道、山梨、滋賀と並んで、関西諸方言が思ったよりも遠いという結果にヒントがありそう。

*1:実際にはこんな決定的な操作を行うわけではない。

*2:ここでは、最初の言語的説明の際に出てきた leg の例をモデルの説明にも使った。leg は影響が広範囲な場合だが、Chang et al. はモデルの説明の際にはもう少しミクロな振る舞いに着目している。

*3:一度死んだ語が復活していることになる。このような振る舞いは確率的 Dollo モデルでは扱えない。Dollo モデルでは、語の誕生が系統樹上で一度しか起きないから。

*4:式なのか?