Hatena::Grouprekken

murawaki の雑記

2015-02-19

Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution

Daniel J. Hruschka, Simon Branford, Eric D. Smith, Jon Wilkins, Andrew Meade, Mark Pagel, and Tanmoy Bhattacharya. Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution. Current Biology, 25(1), 2015.

音変化を統計的に扱う話。面白い結果が報告されているが半信半疑。音変化でも祖語の年代推定ができるとか、規則的な音変化の発生数は Poisson 分布に従うとか。

音変化の統計モデルに関しては、Bouchard-Côté et al. (2013) を取り上げたことがある。*1Bouchard-Côté et al. との違いは大きく2つ。木自体も推定し、さらに祖語の年代を推定している。Bouchard-Côté et al. は祖語の語形を正しく復元することに注力していた。Hruschka et al. のモデルも語形の推定は行っているはず (後述)。でも、論文では個々の語形は無視して、集約結果だけを議論している。

語形をそのまま扱うには、文字単位で alignment を行わないといけない。Bouchard-Côté et al. は語形の推定と文字 alignment を同時に行っていた。Hruschka et al. は最初に alignment を決めてしまう。timestamp 付きの木を推定する際には固定。そうすると、各文字は speech sound の 62 個の候補のいずれかの値をとる変数とみなせる。同源語の有無だと 0/1 の 2 種類、DNA の ACGT だと 4 種類だったのが、今回は 62 種類。DNA に対して 4x4 の遷移率行列を作るように、speech sound の 62x62 のお化けみたいな遷移率行列を作っている。データ量に対して推定すべきパラメータが多すぎるのではないかと思うところ。でも、モデルを工夫すればうまくパラメータを減らせるとのこと (該当論文はあとでちゃんと読む)。

しかし、実際のところ何やっているかいまひとつわからない。そもそも読みにくい。生物系の論文構成は滅ぼすべき因習に見える。言語処理の論文の書き方に慣れた人間からすると。Introduction は良いとして、Results が Experimental Procedures に先行する。さらに別に Supplemental Experimental Procedures がある。処理手順の記述が分散してしまって追いにくい。

語形の文字単位での alignment。言語が複数あるので multiple sequence alignment ということになる。これは全然 trivial ではない。なのに Experimental Procedures の Description of Transcribed Sound Data は短すぎる。必要な情報が載っていない。reference もないのでお手上げ。*2とりあえず疑問を並べてみる。

疑問 1。音変化がまるで文字単位の置換であるかのような素朴な story提示されているが、そんなはずはない。InDel (挿入と削除) をモデルに組み込まないと説明できない語形だらけのはず。私の推測では、最初に alignment を行った時点で 1 対 1 対応がとれない部分は捨てている。仮にそうだとすると、祖語の語形はまもとには推定されていないことになる。h → φ みたいなよくある変化を無視するのはさすがにまずい気がする。

疑問 2。cognate set (論文では etymological class とよばれている) にすべての言語の語形が入っているわけではない。進化の途中で語が失われると、子孫はその語を持たない。存在しない語をどう処理しているのかわからない。推測では、ghost word を作ってしまっている。

疑問 3。この記述が謎。

The algorithm recursively estimates the alignments, sound inventories, regular sound changes, and sporadic sound changes that maximize the likelihood function derived from this model. This yielded a 26 languages x 1,120 sites matrix.

recursive に推定ってどういうこと? なぜ alignment だけでなく sound change も推定できているのか。なのになぜ出てくるのが現代語だけの行列なのか。私の推測では、multiple sequence alignment をやるのに、距離ベースのクラスタリングとか、その手の簡易的な方法で木を作っている。そうしてできあがった木を系統推定の初期値に使っているのではないか。これはあくまで憶測で、本当のところは著者に聞いてみないとわからない。査読者は何をやってたんだろうか。もしかして生物系の人には自明なんだろうか? 少なくともこんな記述では私には再現実験ができない。

規則的な音変化の話に戻る。モデル化が独特。普通に 62x62 の遷移率行列 Q_s を作ったら、各文字 token に対してそれぞれ置換確率を考えることになる。これを sporadic sound change と論文は呼んでいる。regular sound change は各文字 type に対して働きかけるもの。そのために、特殊な遷移率行列 Q_r を用意する。まず単位行列を用意する。対角成分だけに 1 が立っているので、一切変化しない。次に、音変化に対応する対角要素を 0 にして、代わりに別の要素を 1 にする。すると強制的に置換が行われる。こういう特殊なことをされると、半可通はすぐに不安になる。これって time-reversible なんだっけ? Kolmogorov に立ち戻って確認しないといけない。

Q_s は全体で一個だけ。Q_r は各枝ごとに一般に複数個用意する。変化が起きた時刻 t も推定する。ある枝で k 回規則的な音変化が起きた場合、k 個の Q_r が使われる。音変化の順序関係をモデルが考慮していることになる。

結果。規則的な音変化をモデルに組み込んだほうが、そうでない場合よりよい系統樹が得られたと主張。見れば確かにそれっぽいが、定量的評価はない。言語学者が作った系統樹があれば、(それが二分木でなかったとしても) 定量的評価する手法はあるのだけど。図 3 の読み方はわからない。図 4 あたりの主張するところでは、62 個の音を独立に扱っているけど、ちゃんと自然な音変化が浮かび上がってきた。有声化とか。

一番の驚きは年代推定がそれなりにできていること。sporadic change だけのモデルは祖語を古く見積もりすぎるが、sporadic change + regular change だと他の証拠と整合する。calibration に使っているのは 1 点だけ。このデータセットでたまたまうまくいっただけではないかという疑念が拭いきれない。複数のデータセットで検証してほしい。

しかし、モデルを見ると、年代推定に使われているのは sporadic change の Q_s。regular change の Q_r は、天変地異のように、ある時刻に決定的に作用する。時間に関わる要素ではない。直感的に言うと、規則的変化で説明できない変化の割合が枝の長さに対応しているということ。規則的な音変化では、系統推定も年代推定も難しいだろうという見通しを私は持っていた。ところが、Hruschka et al. は規則的ではない部分を使ってきた。盲点である。しかし、それで良いんだろうか。少なくとも、言語学の議論でこんなのを見たことがない。

もう一つ、面白いのは、規則的な音変化が普通の確率的事象だという主張。時間に対して一定割合で発生する。だから一定時間内に発生する事象の数は Poisson 分布に従う。人間の活動は結構非 Poisson 的ではないかという議論が昔からあるけど、規則的な音変化は Poisson 分布でうまく説明できている。直感的には、great vowel shift みたいな玉突きが burst を起こして非 Poisson 的になりそうだが。これも他のデータセットによる検証を望む。

考えてみると、そもそも規則的な音変化の発生時刻を特定するための手がかりはとぼしい。単にモデルが発生時刻を確率的に散らせた結果として Poisson 的になっているのではないか。言い換えると、仮に規則的な音変化が burst を起こしていたとしても、モデルがそれを正しく推定できないのではないか。burst を起こす人工データを生成して検証した方が良さそう。

最後にデータセットについて。テュルク諸語 26 言語。出典は Sergei Starostin の An Etymological Dictionary of Altaic Languages*3この辞書は Vovin が批判しまくっているということで敬遠してきた。批判はアルタイ仮説の立証に集中している。テュルク諸語に閉じた部分の業界的な評価を知りたい。

*1:Hruschka et al. は Bouchard-Côté et al. (2013) を 1 つの段落で 2 回引用しているだけ。関連性の割に扱いが悪い。

*2:別の箇所にさらっと the alignment permits metathesis とか書いてある。本当に何をやっているんだ?

*3:著者のうち 4 人が所属している Santa Fe Institute をどこかで見たことがあると思ったら、Starostin 系の研究に絡んでいるのだった。