Hatena::Grouprekken

murawaki の雑記

2014-06-25

Linguistic Phylogenies Support Back-Migration from Beringia to Asia

Mark A. Sicoli and Gary Holton. Linguistic Phylogenies Support Back-Migration from Beringia to Asia. PLOS ONE, 2014.

要約。Dene–Yeniseian系統樹を作ってみたら、Na–DeneYeniseian が最初に分岐する木はいまひとつだった。Na–Dene 側が沿岸と内陸に分けられそうで*1、Yeniseian は Na–Dene 沿岸部に近い。とすると、旧大陸から新大陸に一方向に広がっていたとするより、ベーリング地峡あたりから東西に広がったとするほうが説明しやすい。

この雑記を訪れるような奇特な人にとっても未知語だらけではないかと思う。とりあえず英語版 Wikipedia にリンクをはってみた。

Na–Dene は北米先住民の語族。私も全然知らない。名前だけ知っているものですら、Navajo と Tlingit ぐらい。Navajo は米軍暗号として使ったことで有名。狂ったように複雑だから。Haida も聞いたことがあるが、最近は Na–Dene から除外する方向で落ち着きつつあるらしい。*2

Yeniseian は名前の通りシベリアのエニセイ川流域で話されている (いた) 語族。論文では Ket と Kott の2つを使っている。現存するのは Ket だけ。エニセイ川と言えばモンゴル国北側。いくら地図で高緯度地域が引き伸ばされているといっても、北米大陸からは相当離れている。

この Na–Dene と Yeniseian との間の系統関係が最近話題になっている。Edward Vajda という人の主張だが、それが (あからさまな) トンデモではないらしい。自分では確認していないけど。ここまでが背景。

この論文は、Dene–Yeniseian の存在をとりあえず仮定して、計算モデルで系統樹を作ってみたというもの。SplitsTree で NeighborNet を作る。MrBayes で木を作る。よくある話。

変わっているのは、類型論データを使っていること。普通は基礎語彙を使う。一応使わない理由を説明してある。Na–Dene に限れば同源語が豊富らしい。でも長期の接触の影響でぐちゃぐちゃ。さらに Yeniseian との対応を考えるのは大変。1 万年近くさかのぼるには、語彙の比較は厳しいよね、とか。

類型論のデータベースというと、私は WALS しか知らない。この論文は独自にデータを作っている。Na–Dene については Sherzer (1976). An areal-typological study of American Indian languages north of Mexico という本を土台にし、他の文献で補っている。Yeniseian はこれにあわせる形で、文法書を見ながら自分たちで作成。偉い。とにかくデータを作る人は偉い。

supporting information 1 (S1) に具体的な特徴量が載っている。116 種類。音韻論と形態論のみ。この部分の説明が謎。例えば特徴量の 2 番は 1-1-1 とあって何のことやら。Sherzer (1976) にあたればわかるのだろうか。

類型論データの利用は以前から疑問に思っている。モデルは個々の要素が独立に生まれて死ぬと仮定している。しかも、生死のパラメータは同じもの。語彙なら独立性と仮定してもそこまでまずくはなさそう。一方、類型論データだと、S1 を見れば要素間に依存があるのは明らか。要素間の依存性がどの程度結果に影響するか調べた方が良さそう。誰かやってないのだろうか。

データが公開されていることだし、グダグダ言ってないで (欠損値対応の) PCA にでもかけてみればいいのだろう。でも、そうすると連続値に変換されてしまう。あるいは、バイナリ化をやめて categorical に表現するということも考えられる。いずれにしても、バイナリ列を仮定する既存のツールでは扱えない。少なくとも、依存関係を直接モデル化するよりは現実的。

問題はモデル化の都合だけではない。直感的にも分からない。語であれば生死は自然に了解できる。語が作られ、やがて使われなくなる。あるいは、意味が変化して調査対象の意味で使われるようになったり、使われなくなったり。一方、類型論的特徴が発生したり、消滅するのはいったいどういうことなのか。松本克己あたりの主張も、一部の類型論的特徴が歴史的変化に対して抵抗力が強いということだけ。モデルが変化に着目している以上、どういう仕組みで変化するかを一般化した形で知っておきたい。でもそういう説明を見たことがない。

考えてみると、同じ問題は morphology (生物学用語の方で、例えば、羽を持っているか) を使った系統樹にもありそう。そっちでは何か議論はないのだろうか。

*1:この切り分けは少々強引。よく見ると North Pacific Coast Athabascan が少し離れている。

*2:日本でもこのあたりの言語を研究している人が何人かいる気がして、宮岡伯人『「語」とはなにか』を確認してみた。そこに登場する人は、どうやらみんな微妙に外しているみたい。