Hatena::Grouprekken

murawaki の雑記

2014-06-23

Evolution of the Ainu Language in Space and Time

Sean Lee, Toshikazu Hasegawa. Evolution of the Ainu Language in Space and Time, PLOS ONE, 2013.

著者は以前日本語諸方言に系統樹モデルを適用していた人。論文公開直後に見つけてつぶやいた。

その後忘れて 1 年以上が過ぎていた。最近 arch74324 氏のブログ記事を見て思い出した。

モデル自体は印欧語への適用例と同様なので省略。データと結果に焦点をしぼって気付いたことを箇条書きしてみる。

  • 誰が偉いかというとデータを作った服部四郎が圧倒的に偉い。先見の明がありすぎ。glottochronology への着目もさることながら、1950 年代に危機言語の問題に気付いてデータを採取したことが驚異的。いま同じことをやろうと思っても不可能だろう。
  • データは 1955/56 年時点でのアイヌ語 19 方言の基礎語彙。樺太が 6 方言で残りは北海道方言。
  • データとくらべてツールオーバースペック感がある。ツールがあるから動かしてみた、みたいな。おそらくもっといい加減なクラスタリング手法でも同じ形の木が得られる。単に子供の間を取る形で内部ノードの geolocation を決めても、祖語は北海道北部に落ち着きそう。
  • 現代語だけでは絶対年代を推定できない。どうしているかというと、裏技を使っている。アイヌは 15 世紀に樺太に入ったと想定し、樺太祖語が2つに分岐する時点に対して、500 BP を平均とするガウス分布をソフトな制約として与えている。この仮定の妥当性が一つの焦点。*1
  • calibration を 1 点でしか行っていないので、この時刻に関する仮定を変更しても、同じ比率のまま伸び縮みするだけだろう。
  • 祖語の年代はかなりぶれている。本文によると、中央値は 1323 BP だが、95% 区間で 820-1862 BP。*2手がかりが乏しいので仕方がない。
  • 宗谷方言の位置付けが鍵。服部・知里の原論文で指摘されているように、宗谷方言は北海道方言の中では外れ値。全体的には北海道方言だが、樺太方言に比較的近いとのこと。こういう中間的なデータが存在するときに木構造を仮定して大丈夫なのか。
  • 著者は一応先回りしている。いわく、tree-likeness を測ったら良い値だったとのこと。とは言え、推定結果では宗谷方言は早くに枝分かれしているので、祖語の位置への影響が大きい。
  • Figure 3 を見ると、北海道祖語は、宗谷宗谷以外 (旭川近辺) とのほぼ中間に位置している。大雑把に言って、北海道祖語の語彙は、宗谷宗谷以外から等距離。つまり、宗谷は保守的だと推定されいるみたい。推定された北海道祖語には宗谷樺太的要素が反映されていそう。北海道祖語の語彙の状態を確認したいところ。
  • 共通祖語の位置は、北海道樺太を結ぶ線上のどこかだと思うが、Figure 3 では判別できない。
  • これも服部・知里の論文で言及されているように、方言周圏論というか波状説の方が系統樹よりも説明しやすそう。北海道方言と樺太方言が分岐した後、北海道方言で広く多く改新が起きたけど、樺太方言が (一部については宗谷方言も) その影響をまぬがれたする。このデータを系統モデルで説明すると、論文のように樺太寄りの故地を設定せざるを得ない。
  • やはりこの規模のデータに系統モデルを適用するのは無理があるんじゃないか。系統モデルの成功例は印欧語とオーストロネシア語族。印欧語は過去のデータが豊富で地理的広がりがある。オーストロネシア語族は過去のデータはないけど、地理的広がりがあるうえ、洋上なので相互の接触が限定的。これらに比べるといかにも厳しい。
  • 論文テンプレート通りの展開。二重構造モデルが適切か、いわゆるオホーツク人の影響を加味すべきかという問いを立て、モデルの推定をもとに後者を支持する。祖語の年代と位置がオホーツク人のそれと一致するから。日本語方言を扱っていたときは年代だけで農耕の開始を論じていた。いずれにしても危うい。もっと堅実に議論すればいいのにと思う。でも、それだと注目されにくいのだろう。

2014 年 9 月 1 日追記: 同じ著者の 2014 年の論文では、アイヌ語のデータとして千島と千歳が追加されている。ただしデータは載っていない。

*1:calibration を 1 点でしか行っていないので、分岐の中央値はほぼ 500 BP になるはず。なのに、Figure 2 では 目測で 460 BP あたりに中央値がある。supporting information の XML ファイルを見ると、平均は 460 になっている。40 年のずれは何なのか。1955 年に 40 を足しても 1995 年にしかならない。謎。計算時には謎補正を行っておきながら、結果を図にするときに戻していないのではないか。

*2:やっぱり Figure 3 は 40 年ずれている。