Hatena::Grouprekken

murawaki の雑記

2011-05-08

Bayesian phylogenetic analysis supports an agricultural origin of Japonic languages

Sean Lee and Toshikazu Hasegawa. Bayesian phylogenetic analysis supports an agricultural origin of Japonic languages.

柄にもなく今話題のネタを取り上げてみる。日本語の諸方言の語彙を使って系統樹を作ったら、共通祖語の時期が 2182 年前と推定されましたという発表。

いつものようにそもそも論から。比較言語学や系統学的なことを統計的にやりたいといろんな人が思っているはず。でも、いろんな障害があってあまり進んでいない。一番の難関はデータの欠如。

伝統的な比較言語学は、語彙の比較して音韻対応を見つけるという手続きをふむ。これを計算機に扱わせることを考える。まず同源語 (cognate) を集める必要がある。これは高度に知的な作業。計算機には難しすぎる。単に語形が似ているというだけでなく、意味上の適合性を認識しないといけない。それに、人間なら「明らかに後代の借用だから除外」といった操作を臨機応変に行えるけど、それをいちいち計算機上に実装してられない。

ひとまず人手で同源語の一覧を用意したとする。次は音韻対応の発見。一応研究している人はいる。Berkeley でものすごい勢いで業績を出している集団の一員だった人が音韻変化を確率つきで抽出している。扱っているデータはロマンス諸語のラテン語イタリア語スペイン語ポルトガル語*1得られるのは、見慣れた音韻変化の表記。例えば、

w → v / # _ UNROUNDED

は、w から v への変化が、後続音が非円唇母音の場合に起きるということ。得られた音韻変化の知識を使えば、例えば、実例のない語形が確率的に復元できる。*2しかし、この一連の研究で得られるのは、現状の追認。新たな発見ではない。もちろん、動く計算モデルを示すだけで充分うれしいけど。*3そもそも同源語の一覧なんてそう手に入らない。すでに同系だと分かっている言語の集合 (印欧語族やオーストロネシア語族) しか扱えない。

少し横道にそれる。単語の比較は難しいので、別のデータを扱おうという試みもある。例えば、4月に出た Science 論文が、音素数を見れば言語のアフリカ起源がわかるという大胆な主張をして話題になっていた。普通はもっと豊富な類型論的特徴量を比較する。例えば、語順が SOV か SVO かとか、声調を持つかとか。これらの特徴量を階層クラスタリングすれば言語の系統を表す木ができるのではないかと期待する。この手法なら、例えばテルグ語ベンガル語のように (明確な) 系統関係のない言語対でも比較できる。*4この話をすると、「そんなの類型論であって系統論じゃない」というツッコミが必ず入るのだけど、そんなことは百も承知でやっているのである。

本題に戻る。音韻対応を計算機に発見させるのは大変。そこで、人間がさらに加工して、計算機が簡単に扱えるデータを用意するという話になる。音韻対応に基づく手法にはもう一つ欠点がある。祖語が仮定されたとしても時期が分からない。いつ分岐したのか。そこで出てくるのが glottochronology。いわゆる Swadesh list を使った統計処理。はるか昔に流行って廃れた研究。詳しくは知らない。知っているのは、あの服部四郎が日本語に適用してやけどを負ったという話ぐらい。

glottochronology は比較的安定的な基礎語彙の存在を仮定する。この仮定のもと、基礎語彙について同源語を集めてくる。同源語間の音韻変化を見るのではなく、単に同源語をグループ化する。例えば印欧語の「水」だと water 系の言語グループと aqua 系の言語グループといった具合。そうすると、ある言語対が「水」について同源語を使うか否かが2値で表現できる。情報が失われまくる代わりに、とても扱いやすくなる。

glottochronology のもう一つの仮定は、基礎語彙の置き換えが時間について一定割合で起きるとというもの。そうすると分岐年代が推定できる。でも、実際には置き換え割合が一定のはずがない。このもっともな反論を受けて glottochronology は廃れたのだが、最近、置き換え割合に幅を持たせたモデルがでてきた。*5こうなると人間が手計算できる範囲をこえる。計算機で豪華に Monte Carlo シミュレーションを行う。2003 年の Nature 論文印欧語の基礎語彙リストに適用して年代推定つきの言語系統樹を作って、印欧語はアナトリア起源ではないかと論じている。

ここで改めて考えてみる。どうしてそんな計算が可能なのか。モデル設計を別にすると、2種類のデータが用意されているから。ひとつは同源語をグループ化した基礎語彙リスト。そんなものが入手できるのは、印欧語ならでは。もうひとつは、いくつかの分岐年代が既知だから。例えば、「イベリア諸語とフランス語の分岐は 450AD-800AD」という制約をモデルに与えている。こうした年代の制約をいくつも与えて、推定年代の calibration を行っている。「インドイラン諸語の分岐は 1,000BC 以前」みたいな制約はオーストロネシア語族では絶対に得られない。*6

ここまでが前置き。今回の論文は、印欧語に対して行ったのと同種の操作を日本語に対して行ったというもの。モデルの詳細を把握してないけど。最大の難関はデータの確保。そのデータは著者らが自分で作っている。日本の (琉球諸語を含む) 諸方言57個について、基礎語彙の同源判定を行っている。*7Supplement 2がそのデータ。平山輝男らが組織的に全国の方言を調査したことは知っていたけど、それを計算機可読な形にするのは大変。結構苦労していることが Supplement 1 からうかがえる。*8さらに上代語と (室町期) 中世語を別資料から集めて統合している。個人的には、ともかくこのデータを作ったことが本論文の一番の貢献だと思う。*9

年代の制約。上代語は 1216-1300 YBP (年前)、中世語は 437-674 YBP。分かりにくいので 2010 から引くと、それぞれ 710-794AD、1336-1573AD。さらに京都と東京の分岐を中央値 407 YBP (1603AD)、標準偏差 135.2 年とする。本当にそれでいいのだろうか。

とりあえず結果を見る。紹介記事などは有史以前にしか触れていない。結論を急ぎすぎ。まずは歴史時代を見て、モデル出力と我々が知る歴史との関係を考察すべき。京都と東京の分岐から始めてみる。図2の目測では 1630 年頃に分岐したことになっている。本当にこれでいいのかなんとも言えない。明らかに問題なのは、現存する本土方言の中で最古の分岐で京都と東京が分離していること。モデルに与えられた年代制約が前提とするように、東京方言は東国方言を基層とし、上層言語として京都方言がかぶさっていると思われる。そうすると、関東の周縁よりも東京は京都に近いと期待される。でも結果は逆。東京は京都と一番離れている。次に離れているのが愛知岐阜の分枝。地理的な近さからすると京都と近そうなのに。論文にも少し言及があるけど、モデルが dialect continuum をうまく扱えないのではないか。モデルをちゃんと理解していないから以下は憶測。クラスタ A とクラスタ B があって、A と B が混じり合ったノードがあったとする。現在から過去に向かってクラスタリングするとき、A 内部と B 内部が先にまとまり、余った混合物を適当に最後にくっ付けているのではないか。

もう一つ気になるのが、現存するすべての本土方言が中世語以降に分岐していること。室町期の京都の言語に近い祖語があって、そこから本土の諸方言が分岐していることになる。この結果は正しいのか。誤っているとすると、有史以前を議論しても意味がない。とりあえず正しいとして話をすすめる。これは何を意味するのか。室町期のある集団が全国に広がった結果、現代本土人が形成されたのか。そんなことはない。人間の置き換えはなく、言語だけが置き換わったのか。確かに動乱の時代だけど、本土全体の言語を置き換えるほどの影響があったかは疑問。とりあえずこの結果に説明を与えるとするなら、巨大な文化的変化がなくても言語が置き換わり得るということだろうか。ついでに言えば、室町期までにすでに本土全体で日本語が話されていたことを我々は知っている。同じことが 2182 年前の日琉祖語の分岐時に当てはまったとしても不思議ではない。つまり、弥生人と融合した系統の日本語がもう一度全国を覆っただけで、縄文人も既に同系統の日本語を話していたという仮説。

やはりどう説明しても本土方言の結果が不自然。分岐の時期が上代語のあたりなら解釈しやすかったのに。考えてみると、本土方言が歴史時代にどう展開したのか実はよくわからない。万葉集のおかげで、上代の東国方言が、(少なくとも音韻・形態的には) 中央と異なっていたことが知られているぐらいか。現代の東国方言には少なくとも一度中央の方言が上層にかぶさったと解釈していいと思うのだが、典拠を忘れた。それでいうと気になるのが八丈方言。八丈方言は上代の東国方言の特徴を比較的よく残していると言われている。でも図2では100年ほど前に静岡と分岐したことになっている。面白くない。

結局、日琉祖語の分岐年代を議論しても仕方がないように思う。*10絶対年代の推定は、本土方言の年代制約を使っているのに、その本土方言の結果が妙だから。従来研究が扱ってきた印欧語とオーストロネシア語族に比べて、時間的にも空間的にもかなり小さいのが苦しいところ。

2012年2月28日追記: 言語が変化する速度はどうやって決まるのかという問題に前から興味がある。アイスランド語が異様に保守的な理由は説明できているのだろうか? そもそも言語変化の速度をどうやって測るのかという問題自体が難しい。論文は基礎語彙の置き換えを考えている。語彙以外の側面、例えば音韻体系を見ると、琉球諸方言は比較的短期間で急激に変化したのではないかという気がする。狭母音化が起きた年代は特定されているのだろうか? アクセント体系の分布がカオスなのも、短期間で急激に変化したからではないか。仮にこうした変化が急激に起きたとして、基礎語彙だけは安定的に変化したのだろうか? glottochronology は基礎語彙の置き換えが時間について一定割合で起きるを仮定しているが、実際には置き換え割合が一定ではないという反論を受けていたはず。批判論文をちゃんと読んで、具体的なデータにあたっていない。ちゃんと調べないといけないなあと思いつついまに至る。

言語以外の証拠との整合性を考える。奄美・沖縄と宮古・八重山は古くは別の文化圏で、考古学的意味で同じ文化圏に入ったのは11-12世紀頃のはず。本土の例から考えると、言語の分岐年代はこれ以降になっていると良さそう。論文の推定は、目測では960年頃になっている。やや早いが、それほど悪くないのではないかという気がしてくる。

*1:2009年の論文ではオーストロネシア語族も扱っている。

*2:もちろん、評価実験では、実例のある語形を隠して計算機に復元させる。

*3:やるべきことをひと通りモデルに詰め込むだけでこんなに複雑になるのかと感心する。何度か理解しようとして挫折した。実装できる気がしない。木構造を扱うだけで充分複雑なのに、単語間の alignment もやっているので。

*4以前の記事バルカンとかの地域的な影響を考慮に入れたモデルを紹介した。実験結果に日本語が載っていないのが残念。

*5:もちろん、通常よりもあまりに大きな/小さな変化割合にはペナルティがかかるようになっている。モデルの自由度が上がるので、系統樹上の要所要所の絶対年代があらかじめ分かっていないと期待する出力は得られないだろうと推測。

*6:2011年5月9日 追記: Science の 2009 年の論文がオーストロネシア語族を対象に似たような実験を行っていた。無文字のオーストロネシア語族に対してどうやって年代制約を入れているのかと思ったら、考古学上の推定を突っ込むという裏技を使っていた。

*7論文を読まずに誤解している人がいるみたいだが、朝鮮語は一切出てこない。日本語 (Japonic) 内部の比較である。そもそも日本語と朝鮮語の組に対して、この手法は適用できない。同源の基礎語彙リストが必要だが、日本語と朝鮮語の組に対して、そのような信頼できるデータは存在しないし、今後も出てこないだろうから。最近だと John Whitman が cognate list を作っていたが、Alexander Vovin が著書 Koreo-Japonica (2010) のなかで、そのほとんどを退けている。

*8:データを眺めると、例えば night に対して「夜」と「晩」で揺れていたり、dust に対して「埃」と「ゴミ」で揺れていたりして、どうかと思う部分はないではない。こうした問題が全体の結果にどの程度影響があるかはわからない。でも、少なくとも不一致が何に起因するかは調べたほうがよさそう。そもそもこんな近い方言同士で本当に基礎語彙に違いが出てくるのかという素朴な疑問がある。

*9:個人的には、東京外大の風間伸次郎先生が作られた Basic vocabulary (A) of Tungusic languages が使えないかと以前から思案している。ツングース諸語の基礎語彙リストがまとめられている。ただ、系統樹は作れそうだけど、年代推定は難しそう。無文字言語が多く、年代推定に使えそうな歴史的な言語は女真語と満洲語だけだから。そもそもツングース諸語の系統関係を解明しても受けが悪そう。

*10:本論文の中身に納得できない点があるというだけ。日琉祖語の分岐時期が 2000 年ぐらい前という仮説自体は、他の言語的な手がかりから判断すると、そう不自然ではない。例えばアクセントの通時的研究。日本語祖語にあって、院政期京都の体系では既に失われていた区別を琉球諸語が残しているという説が主流になっているみたい (Matsumori 氏の研究による)。一方本土の方言は、院政期京都の体系から区別を減らすことで説明できるという金田一説が基本的には覆っていないと思う。日琉祖語の分岐時期は院政期よりも前、たぶん奈良時代よりも前だと予想される。