Hatena::Grouprekken

murawaki の雑記

2015-02-20

Evolved structure of language shows lineage-specific trends in word-order universals

Michael Dunn, Simon J. Greenhill, Stephen C. Levinson and Russell D. Gray. Evolved structure of language shows lineage-specific trends in word-order universals. Nature 473. (2011).

類型論の特徴量がどのように時間変化するかに最近取り組んでいたが、この先行研究を見逃していた。Dunn et al. は類型論の特徴量の中でも語順だけを扱っている。特徴量間に依存関係がある (例えば、語順が VO 型なら前置詞を使う) ことが指摘されている。疑問は、これが本当に普遍的に成り立つか。Dunn et al. の主張は、こうした依存は普遍的ではないというもの。要するに Greenberg と Chomsky に挑戦している。

類型論の従来手法は、世界中の言語からサンプルを取って調べる。実験統制という点でやや雑。言語同士が系統的に、あるいは地域的に関連している可能性がある。何らかの普遍性によって共通するのではなく、別の要因が効いている可能性を排除できているか怪しい。

Dunn et al. は全然違うやり方。語族内の変化を考える。つまり与えられた系統に沿った時間変化をモデル化する。例によって、遷移率行列を用意する。特徴量はバイナリだとすると 2x2 の行列。これに時間をかけて、exponential の肩にのせると連続時間マルコフ連鎖のできあがり。

調べる特徴量は 8 個だけ。しかも一度に 2 個の特徴量しか考えない。モデルは 2 種類。独立モデルと依存モデル。モデル同士を Bayes factor で比較して、依存モデルが充分に勝っていれば特徴量間に依存があると解釈。

独立モデルは特徴量 A と特徴量 B を別々に用意する。2x2 の遷移率行列も 2 個。

依存モデルは遷移率行列を 1 個しか用意しない。その代わり AxB の状態空間を考える。バイナリ特徴量の組だと 2x2=4 の状態。遷移率行列は 4x4。ただし、00 → 11, 01 → 10 みたいに 1 度に両方の特徴量を変化させるのは許さない。よって 4x4=16 セルのうち、4 セルは 0。パラメータに制約を加えれば、依存モデルは独立モデルになる。

原理的には 3 個以上の特徴量を考えられないわけではない。しかし組み合わせ爆発を起こすから現実的でない。

結果。Austronesian, Bantu, Indo-European, Uto-Aztecan の 4 つの木に対して別々に推論を行った結果、発見された依存が語族によってばらばらだった。だから、linguistic universals なんて嘘っぱちだと主張。

しかし、この結果は当然ではないか。4K から 9K 年ぐらいの語族の時間幅にくらべて、特徴量の変化が珍しすぎる。図 1 を見ても予想がつくが、語順はそう何度も変化するわけでない。デフォルトで 0 回。1 回、多くても 2 回ぐらいが限度。Bantu なんて、語族内ですべての言語が同じ値をとる特徴量があるせいで、一部の特徴量の組しか扱えていない。たまたま変化が多めに観測できた語族では依存が確認でき、そうでなかったら確認できなかったというだけではないか。

語族ごとに遷移率行列をわけるのではなく、パラメータを共有させてみたい。そうすれば低頻度性の問題は緩和できそう。分析に使った BayesTraits が別グループのツールだから自由に拡張できないのだろうか。もしそういうつまらない問題が原因でやっていないのだったら嫌だな。

追記: Croft et al. Greenbergian universals, diachrony, and statistical analyses. Linguistic Typology 15 (2011) で既に批判されていた。低頻度問題は 4.3 節で議論されている。4.5 節の議論は、語族間でパラメータを共有させるという私の提案と似ている。survey が全然足りてない。

追記: Linguistic Typology の同じ号に他にも反論が載っている。1st author ではないけど Hal Daumé III の名前もあった。

2015年9月15日追記: Dunn らの再反論 (筆頭著者が Levinson に代わっているが) も面白い。突っ込みどころ満載だけど。