Hatena::Grouprekken

murawaki の雑記

2015-02-26

Rate of language evolution is affected by population size

Lindell Bromham, Xia Hua, Thomas G. Fitzpatrick, Simon J. Greenhill. Rate of language evolution is affected by population size. PNAS, vol. 112 no. 7. 2015.

言語の変化速度と話者数 (人口) の関係を調べている。変化速度は基礎語彙の gain/loss により測る。結果。gain 率は人口が大きいほど高く、逆に loss 率は小さいほど高い。gain/loss をあわせた変化率には人口との相関はなさそう。

私が念頭に置いているのは琉球諸方言とアイスランド語琉球諸方言は短期間に変化しすぎで、かつ分化しすぎのように見える。*1 一方、同じ島でも、アイスランド語は冗談みたいに保守的。この現象をどう説明するか。

変化速度に影響を与えるのはどういう要因で、その結果速くなるのか遅くなるのか。これまでいろんな仮説が提起されてきた。しかし、仮説を集めてみると、てんでバラバラ。これは Bromham et al. が最初の段落でまとめている通り。なぜこんなことになっているのか。議論が定量的でなかったから。定量的でなかったのは、そのためのデータの確保が難しいから。Bromham et al. の貢献は、データのお膳立ての方法を考えて、とにかく定量的議論に持ち込んだこと。

Bromham et al. はオーストロネシア語族のポリネシア諸語を使う。ポリネシア諸語には良い条件がそろっている。まず島であること。人口や対応する面積などが求めやすい。地続きの場合にくらべて孤立している。さらに祖語の年代として考古学の知見が使える。有人化の歴史が比較的新しいから。最後に基礎語彙が Austronesian Basic Vocabulary Database*2 として整備されている。

手法。いつものように cognacy 判定により語彙をバイナリ化。語の誕生 (gain, 0→1)、死亡 (loss, 1→0) が遷移率パラメータによって確率的に決まるモデル。普通の系統推定問題だと、このパラメータ以外にも求めるべき隠れ状態がいっぱいある。系統樹トポロジーとか祖語の年代とか祖語の状態とか。今回はそのあたりを全部観測状態にして、遷移率だけを求める。さらにその遷移率が線形回帰となっている。回帰のパラメータに人口が入っている。対応する重みが人口が影響度合い。「gain 率は人口が大きいほど高い」というのは、人口パラメータに対して正の重みが推定されたということ。

データのお膳立ての方法。Bromham et al. は sister-pairs approach と呼んでいる。まず木を扱わない。言語のペアだけを考える。しかも一番近い親戚同士のみを考える。おかげで他の言語が介入する余地がない。現代語のペア A, B とその共通祖語 P だけで完結する。祖語の年代は考古学的に与える。祖語の状態も確定させる。ここが少し tricky。まず A, B で状態が異なる場合のみに着目する。A が 0、B が 1 とする。ここで、A, B 以外の言語を調べる。もし該当単語を持つ言語があるなら、P が 1 で、A が lost したとみなす。なければ、P が 0、B が gain したとみなす。

祖語の状態の割り当てにはいろんな仮定がおかれている。まず、P から分岐したあとは、A, B は独立に変化したと考える。これ自体は系統モデル一般の仮定。水平伝播はモデルの仮定に反する。次に、ある語の誕生は系統樹上で一度しか起きない。この点で確率的 Dollo モデル風。しかし、Dollo モデルなら、死亡は系統樹上の複数の箇所で起きる。つまり、P が 1 で、A, B 両方で並行的に lost して 0 になることがあり得る。今回のモデルはこの場合を考慮していない。*3

一番重要な結果は既に述べた。結果の他の部分も少し見る。図 3 にデータの fitting の度合いが図示されている。見た感じ、それほど fit してなさそう。

モデルの variant をいろいろ試しているがパッとしない。人口動態を変化させても効かない。最初に入植した世代で語をいくつか強制的に lost させても効かない。この結果は意外。遺伝学用語でアレだが、founder effect 的なことはありえるのではないかと思っていた。*4 例えば、宮古八重山に入植したのは小集団で、その人口の小ささゆえに初期に急激な変化が起きたのではないかと。今回の結果は、そうした仮説を特に支持しない。

さて、結果を疑ってみる。まず考えるのはデータ採取のバイアス。基礎語彙の調査票に従って、該当する意味を表す語を集めている。複数の語が該当する場合は複数採取。仮に小言語ほど保存状態が悪く、マイナーな語を採取し損ないやすいとする。その場合、話者が少ないほど loss 率が高いのは、データ採取の失敗で説明できるかもしれない。

次。得られた知見が仮に正しいとして、どこまで一般化できるか。ポリネシア諸語以外にもあてはまるか。具体的には 2 点。1 点目は、印欧語族のような普通の地続きの言語にも当てはまるか。2 点目はマクロな動態であり、ミクロな場合に当てはまるか。ポリネシア諸語の場合、距離にして数千キロ、時間にして 300 から 1,000 年。*5時間的には琉球諸方言とも比較できそうだが、距離が全然違う。系統樹を仮定するので水平伝播が多いとまずい。しかし、中本正智に著作を読むと、琉球諸方言の語彙はかなりの程度方言周圏論的な語彙拡散で説明できそうである。本土→首里那覇八重山といった流れが、系統上の分岐以降に頻繁に起きていた場合、モデルの仮定が成り立たない。

一番の疑問は、人口の扱い方がこれで良いか。言語を離散的に認定して、その言語の話者を数えれば良いのだろうか。うまく説明できないが、現状では、言語の認定の恣意性が効いていそう。同じ話者数だったとしても、内部で均一な場合と、分化しつつあるが別言語と認定するほどではない場合は違うのではないか。集団内の動態、個々の話者が接触する人口、例えば、通婚圏とかが効きそう。琉球諸方言とアイスランド語の違いは、そうしたところに求められそうな気がする。しかし、そうしたことを言い出すと、データがないという最初の問題に舞い戻る。

*1:適当に言っているだけでなく、そろそろ真面目に検証しないといけない。

*2:著者の Greenhill がこれの中の人

*3:ついでに言えば、P から A の間に、誕生と死亡が両方起きて、ノード上では観測できない語の存在も無視している。

*4:しかし、このアナロジーは微妙。founder effect で遺伝子多様性が失われるのは、遺伝子の変異が集団の中で分散して保持されているから。集団から小さなサンプルを取り出すと、漏れたり、頻度が偏ったりする。しかし、語彙、特に基礎語彙は個々人が一揃い保持している。人間をサンプルしても、それだけでは語彙の多様性は失われないはず。Atkinson による phoneme の serial founder effect 仮説が直感的にあり得ないのも同じ理由。

*5サモアだけ例外的に 3,000 年。