Hatena::Grouprekken

murawaki の雑記

2015-09-26

Support for linguistic macrofamilies from weighted sequence alignment

Gerhard Jäger. Support for linguistic macrofamilies from weighted sequence alignment. PNAS. 2015.

単語対の文字列的な類似度を定義する。各言語は単語の集合で表現される。言語対の距離は、単語集合同士を比較して、単語対の類似度の平均を用いて定義する。この距離を使って、昔ながらの距離ベースのクラスタリングを行って系統樹を作る。この手続きをユーラシアの言語約 1K 個に適用したところ、既存の語族群の上に大語族 (macrofamily) が作られた。それらの大語族を言語学で過去に提案された (怪しげな) 大語族と関連付けて議論している。

著者は Automated Similarity Judgment Program (ASJP) 一派の人。大規模なデータベースを頑張って作っているのは偉い。しかし、正直言って筋が悪い。

なぜこの論文を通してしまったのか理解に苦しむ。なぜ提案する手続きでうまくいくと期待できるかが説明されない限り、この研究は叩き潰すしかない。

まずはこの研究の位置づけから。広いくくりで言うと、この研究は語彙ベースの系統推定に分類できる (他の方法は、例えば言語類型に基づくもの)。語彙ベースの系統推定には。この研究以外に以下も含まれる。

[B] との違いは、音法則の中でも音対応、要するに現代語同士の対応を見ていること。[B] は音変化 (親から子への変化) をモデル化している。だから祖語の状態が推定できる。つまり、過去から現在への歴史的変化を直接説明している。これに対し、音対応は間接的な手がかり。祖語から分岐した 2 つの子孫において別々に音変化が起きた結果。音対応は歴史的変化を説明しない。だから、これに手続き的な操作を加えた結果出てくるものが何なのかわからない。Materials and Methods を見るとわかるが、謎パラメータつきの謎手続きを何段階も繰り返す。[B] の洗練されたモデルに比べると見劣りする。

[G] との違いは、同源語 (cognate) の扱い。[G] は専門家が cognate か否かを 0/1 で判定し、言語をバイナリ列で表現する。言語変化は 0 -> 1 あるいは 1 -> 0 の遷移でモデル化される。大幅に簡略化されてはいるものの、やはり過去から現在への歴史的変化を直接説明している。これに対し、この研究は、単語同士の関係を 0/1 ではなく連続値で表現する。この連続値が何を意味するかも分からない。語源的に無関係な単語対の類似度なんてノイズでしかない。個別には怪しくても 40 個集めて平均すれば使えるのではないかという希望的観測しか提示されていない。*1

さて、語彙ベースの手法であることを踏まえると、大語族の推定の怪しさは明らか。この研究は、提案手法によって既知の語族をうまく再現できたと主張している。しかし、そもそも既存の語族は語彙ベースの手法 ([H]) で作られたものである。そして、大語族は、語彙ベースの手法ではうまく作れなかったからこそ大語族と呼ばれているのである。前者が再現できただけでは、後者の推定は正当化できない。これが、例えば Pagel et al. (PNAS, 2013) であれば、ultraconserved な単語が存在するという主張にもとづいて大語族を構築している。つまり、大語族の推定が正当化されているし、その妥当性を検証しようと思ったら、ultraconserved とされる具体的な単語の妥当性を検証すれば良い。

もし何かやるとしたら、この研究を叩き潰す方向の検証。大語族を構成する語族間では、ろくに同源語を共有しているとは思えない。では、出てきた距離は一体何に左右されているのか。まず借用が効いていそう。あとは、素朴には、音素体系と音節構造が似ていたら、言語同士の距離も近くなりそう。ただし、この研究が使っている calibrated similarity は、名前の通り、その影響を補正するような類似度尺度になってはいる。何が起きているかを知るには、実際にデータを見るしかなさそう。

*1:考え方としては Greenberg の mass comparison に近いと思うのだが、その文脈では Greenberg を引いていない。