Hatena::Grouprekken

murawaki の雑記

2015-02-26

Rate of language evolution is affected by population size

Lindell Bromham, Xia Hua, Thomas G. Fitzpatrick, Simon J. Greenhill. Rate of language evolution is affected by population size. PNAS, vol. 112 no. 7. 2015.

言語の変化速度と話者数 (人口) の関係を調べている。変化速度は基礎語彙の gain/loss により測る。結果。gain 率は人口が大きいほど高く、逆に loss 率は小さいほど高い。gain/loss をあわせた変化率には人口との相関はなさそう。

私が念頭に置いているのは琉球諸方言とアイスランド語琉球諸方言は短期間に変化しすぎで、かつ分化しすぎのように見える。*1 一方、同じ島でも、アイスランド語は冗談みたいに保守的。この現象をどう説明するか。

変化速度に影響を与えるのはどういう要因で、その結果速くなるのか遅くなるのか。これまでいろんな仮説が提起されてきた。しかし、仮説を集めてみると、てんでバラバラ。これは Bromham et al. が最初の段落でまとめている通り。なぜこんなことになっているのか。議論が定量的でなかったから。定量的でなかったのは、そのためのデータの確保が難しいから。Bromham et al. の貢献は、データのお膳立ての方法を考えて、とにかく定量的議論に持ち込んだこと。

Bromham et al. はオーストロネシア語族のポリネシア諸語を使う。ポリネシア諸語には良い条件がそろっている。まず島であること。人口や対応する面積などが求めやすい。地続きの場合にくらべて孤立している。さらに祖語の年代として考古学の知見が使える。有人化の歴史が比較的新しいから。最後に基礎語彙が Austronesian Basic Vocabulary Database*2 として整備されている。

手法。いつものように cognacy 判定により語彙をバイナリ化。語の誕生 (gain, 0→1)、死亡 (loss, 1→0) が遷移率パラメータによって確率的に決まるモデル。普通の系統推定問題だと、このパラメータ以外にも求めるべき隠れ状態がいっぱいある。系統樹トポロジーとか祖語の年代とか祖語の状態とか。今回はそのあたりを全部観測状態にして、遷移率だけを求める。さらにその遷移率が線形回帰となっている。回帰のパラメータに人口が入っている。対応する重みが人口が影響度合い。「gain 率は人口が大きいほど高い」というのは、人口パラメータに対して正の重みが推定されたということ。

データのお膳立ての方法。Bromham et al. は sister-pairs approach と呼んでいる。まず木を扱わない。言語のペアだけを考える。しかも一番近い親戚同士のみを考える。おかげで他の言語が介入する余地がない。現代語のペア A, B とその共通祖語 P だけで完結する。祖語の年代は考古学的に与える。祖語の状態も確定させる。ここが少し tricky。まず A, B で状態が異なる場合のみに着目する。A が 0、B が 1 とする。ここで、A, B 以外の言語を調べる。もし該当単語を持つ言語があるなら、P が 1 で、A が lost したとみなす。なければ、P が 0、B が gain したとみなす。

祖語の状態の割り当てにはいろんな仮定がおかれている。まず、P から分岐したあとは、A, B は独立に変化したと考える。これ自体は系統モデル一般の仮定。水平伝播はモデルの仮定に反する。次に、ある語の誕生は系統樹上で一度しか起きない。この点で確率的 Dollo モデル風。しかし、Dollo モデルなら、死亡は系統樹上の複数の箇所で起きる。つまり、P が 1 で、A, B 両方で並行的に lost して 0 になることがあり得る。今回のモデルはこの場合を考慮していない。*3

一番重要な結果は既に述べた。結果の他の部分も少し見る。図 3 にデータの fitting の度合いが図示されている。見た感じ、それほど fit してなさそう。

モデルの variant をいろいろ試しているがパッとしない。人口動態を変化させても効かない。最初に入植した世代で語をいくつか強制的に lost させても効かない。この結果は意外。遺伝学用語でアレだが、founder effect 的なことはありえるのではないかと思っていた。*4 例えば、宮古八重山に入植したのは小集団で、その人口の小ささゆえに初期に急激な変化が起きたのではないかと。今回の結果は、そうした仮説を特に支持しない。

さて、結果を疑ってみる。まず考えるのはデータ採取のバイアス。基礎語彙の調査票に従って、該当する意味を表す語を集めている。複数の語が該当する場合は複数採取。仮に小言語ほど保存状態が悪く、マイナーな語を採取し損ないやすいとする。その場合、話者が少ないほど loss 率が高いのは、データ採取の失敗で説明できるかもしれない。

次。得られた知見が仮に正しいとして、どこまで一般化できるか。ポリネシア諸語以外にもあてはまるか。具体的には 2 点。1 点目は、印欧語族のような普通の地続きの言語にも当てはまるか。2 点目はマクロな動態であり、ミクロな場合に当てはまるか。ポリネシア諸語の場合、距離にして数千キロ、時間にして 300 から 1,000 年。*5時間的には琉球諸方言とも比較できそうだが、距離が全然違う。系統樹を仮定するので水平伝播が多いとまずい。しかし、中本正智に著作を読むと、琉球諸方言の語彙はかなりの程度方言周圏論的な語彙拡散で説明できそうである。本土→首里那覇八重山といった流れが、系統上の分岐以降に頻繁に起きていた場合、モデルの仮定が成り立たない。

一番の疑問は、人口の扱い方がこれで良いか。言語を離散的に認定して、その言語の話者を数えれば良いのだろうか。うまく説明できないが、現状では、言語の認定の恣意性が効いていそう。同じ話者数だったとしても、内部で均一な場合と、分化しつつあるが別言語と認定するほどではない場合は違うのではないか。集団内の動態、個々の話者が接触する人口、例えば、通婚圏とかが効きそう。琉球諸方言とアイスランド語の違いは、そうしたところに求められそうな気がする。しかし、そうしたことを言い出すと、データがないという最初の問題に舞い戻る。

*1:適当に言っているだけでなく、そろそろ真面目に検証しないといけない。

*2:著者の Greenhill がこれの中の人

*3:ついでに言えば、P から A の間に、誕生と死亡が両方起きて、ノード上では観測できない語の存在も無視している。

*4:しかし、このアナロジーは微妙。founder effect で遺伝子多様性が失われるのは、遺伝子の変異が集団の中で分散して保持されているから。集団から小さなサンプルを取り出すと、漏れたり、頻度が偏ったりする。しかし、語彙、特に基礎語彙は個々人が一揃い保持している。人間をサンプルしても、それだけでは語彙の多様性は失われないはず。Atkinson による phoneme の serial founder effect 仮説が直感的にあり得ないのも同じ理由。

*5サモアだけ例外的に 3,000 年。

2015-02-20

Evolved structure of language shows lineage-specific trends in word-order universals

Michael Dunn, Simon J. Greenhill, Stephen C. Levinson and Russell D. Gray. Evolved structure of language shows lineage-specific trends in word-order universals. Nature 473. (2011).

類型論の特徴量がどのように時間変化するかに最近取り組んでいたが、この先行研究を見逃していた。Dunn et al. は類型論の特徴量の中でも語順だけを扱っている。特徴量間に依存関係がある (例えば、語順が VO 型なら前置詞を使う) ことが指摘されている。疑問は、これが本当に普遍的に成り立つか。Dunn et al. の主張は、こうした依存は普遍的ではないというもの。要するに Greenberg と Chomsky に挑戦している。

類型論の従来手法は、世界中の言語からサンプルを取って調べる。実験統制という点でやや雑。言語同士が系統的に、あるいは地域的に関連している可能性がある。何らかの普遍性によって共通するのではなく、別の要因が効いている可能性を排除できているか怪しい。

Dunn et al. は全然違うやり方。語族内の変化を考える。つまり与えられた系統に沿った時間変化をモデル化する。例によって、遷移率行列を用意する。特徴量はバイナリだとすると 2x2 の行列。これに時間をかけて、exponential の肩にのせると連続時間マルコフ連鎖のできあがり。

調べる特徴量は 8 個だけ。しかも一度に 2 個の特徴量しか考えない。モデルは 2 種類。独立モデルと依存モデル。モデル同士を Bayes factor で比較して、依存モデルが充分に勝っていれば特徴量間に依存があると解釈。

独立モデルは特徴量 A と特徴量 B を別々に用意する。2x2 の遷移率行列も 2 個。

依存モデルは遷移率行列を 1 個しか用意しない。その代わり AxB の状態空間を考える。バイナリ特徴量の組だと 2x2=4 の状態。遷移率行列は 4x4。ただし、00 → 11, 01 → 10 みたいに 1 度に両方の特徴量を変化させるのは許さない。よって 4x4=16 セルのうち、4 セルは 0。パラメータに制約を加えれば、依存モデルは独立モデルになる。

原理的には 3 個以上の特徴量を考えられないわけではない。しかし組み合わせ爆発を起こすから現実的でない。

結果。Austronesian, Bantu, Indo-European, Uto-Aztecan の 4 つの木に対して別々に推論を行った結果、発見された依存が語族によってばらばらだった。だから、linguistic universals なんて嘘っぱちだと主張。

しかし、この結果は当然ではないか。4K から 9K 年ぐらいの語族の時間幅にくらべて、特徴量の変化が珍しすぎる。図 1 を見ても予想がつくが、語順はそう何度も変化するわけでない。デフォルトで 0 回。1 回、多くても 2 回ぐらいが限度。Bantu なんて、語族内ですべての言語が同じ値をとる特徴量があるせいで、一部の特徴量の組しか扱えていない。たまたま変化が多めに観測できた語族では依存が確認でき、そうでなかったら確認できなかったというだけではないか。

語族ごとに遷移率行列をわけるのではなく、パラメータを共有させてみたい。そうすれば低頻度性の問題は緩和できそう。分析に使った BayesTraits が別グループのツールだから自由に拡張できないのだろうか。もしそういうつまらない問題が原因でやっていないのだったら嫌だな。

追記: Croft et al. Greenbergian universals, diachrony, and statistical analyses. Linguistic Typology 15 (2011) で既に批判されていた。低頻度問題は 4.3 節で議論されている。4.5 節の議論は、語族間でパラメータを共有させるという私の提案と似ている。survey が全然足りてない。

追記: Linguistic Typology の同じ号に他にも反論が載っている。1st author ではないけど Hal Daumé III の名前もあった。

2015年9月15日追記: Dunn らの再反論 (筆頭著者が Levinson に代わっているが) も面白い。突っ込みどころ満載だけど。

2015-02-19

Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution

Daniel J. Hruschka, Simon Branford, Eric D. Smith, Jon Wilkins, Andrew Meade, Mark Pagel, and Tanmoy Bhattacharya. Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution. Current Biology, 25(1), 2015.

音変化を統計的に扱う話。面白い結果が報告されているが半信半疑。音変化でも祖語の年代推定ができるとか、規則的な音変化の発生数は Poisson 分布に従うとか。

音変化の統計モデルに関しては、Bouchard-Côté et al. (2013) を取り上げたことがある。*1Bouchard-Côté et al. との違いは大きく2つ。木自体も推定し、さらに祖語の年代を推定している。Bouchard-Côté et al. は祖語の語形を正しく復元することに注力していた。Hruschka et al. のモデルも語形の推定は行っているはず (後述)。でも、論文では個々の語形は無視して、集約結果だけを議論している。

語形をそのまま扱うには、文字単位で alignment を行わないといけない。Bouchard-Côté et al. は語形の推定と文字 alignment を同時に行っていた。Hruschka et al. は最初に alignment を決めてしまう。timestamp 付きの木を推定する際には固定。そうすると、各文字は speech sound の 62 個の候補のいずれかの値をとる変数とみなせる。同源語の有無だと 0/1 の 2 種類、DNA の ACGT だと 4 種類だったのが、今回は 62 種類。DNA に対して 4x4 の遷移率行列を作るように、speech sound の 62x62 のお化けみたいな遷移率行列を作っている。データ量に対して推定すべきパラメータが多すぎるのではないかと思うところ。でも、モデルを工夫すればうまくパラメータを減らせるとのこと (該当論文はあとでちゃんと読む)。

しかし、実際のところ何やっているかいまひとつわからない。そもそも読みにくい。生物系の論文構成は滅ぼすべき因習に見える。言語処理の論文の書き方に慣れた人間からすると。Introduction は良いとして、Results が Experimental Procedures に先行する。さらに別に Supplemental Experimental Procedures がある。処理手順の記述が分散してしまって追いにくい。

語形の文字単位での alignment。言語が複数あるので multiple sequence alignment ということになる。これは全然 trivial ではない。なのに Experimental Procedures の Description of Transcribed Sound Data は短すぎる。必要な情報が載っていない。reference もないのでお手上げ。*2とりあえず疑問を並べてみる。

疑問 1。音変化がまるで文字単位の置換であるかのような素朴な story提示されているが、そんなはずはない。InDel (挿入と削除) をモデルに組み込まないと説明できない語形だらけのはず。私の推測では、最初に alignment を行った時点で 1 対 1 対応がとれない部分は捨てている。仮にそうだとすると、祖語の語形はまもとには推定されていないことになる。h → φ みたいなよくある変化を無視するのはさすがにまずい気がする。

疑問 2。cognate set (論文では etymological class とよばれている) にすべての言語の語形が入っているわけではない。進化の途中で語が失われると、子孫はその語を持たない。存在しない語をどう処理しているのかわからない。推測では、ghost word を作ってしまっている。

疑問 3。この記述が謎。

The algorithm recursively estimates the alignments, sound inventories, regular sound changes, and sporadic sound changes that maximize the likelihood function derived from this model. This yielded a 26 languages x 1,120 sites matrix.

recursive に推定ってどういうこと? なぜ alignment だけでなく sound change も推定できているのか。なのになぜ出てくるのが現代語だけの行列なのか。私の推測では、multiple sequence alignment をやるのに、距離ベースのクラスタリングとか、その手の簡易的な方法で木を作っている。そうしてできあがった木を系統推定の初期値に使っているのではないか。これはあくまで憶測で、本当のところは著者に聞いてみないとわからない。査読者は何をやってたんだろうか。もしかして生物系の人には自明なんだろうか? 少なくともこんな記述では私には再現実験ができない。

規則的な音変化の話に戻る。モデル化が独特。普通に 62x62 の遷移率行列 Q_s を作ったら、各文字 token に対してそれぞれ置換確率を考えることになる。これを sporadic sound change と論文は呼んでいる。regular sound change は各文字 type に対して働きかけるもの。そのために、特殊な遷移率行列 Q_r を用意する。まず単位行列を用意する。対角成分だけに 1 が立っているので、一切変化しない。次に、音変化に対応する対角要素を 0 にして、代わりに別の要素を 1 にする。すると強制的に置換が行われる。こういう特殊なことをされると、半可通はすぐに不安になる。これって time-reversible なんだっけ? Kolmogorov に立ち戻って確認しないといけない。

Q_s は全体で一個だけ。Q_r は各枝ごとに一般に複数個用意する。変化が起きた時刻 t も推定する。ある枝で k 回規則的な音変化が起きた場合、k 個の Q_r が使われる。音変化の順序関係をモデルが考慮していることになる。

結果。規則的な音変化をモデルに組み込んだほうが、そうでない場合よりよい系統樹が得られたと主張。見れば確かにそれっぽいが、定量的評価はない。言語学者が作った系統樹があれば、(それが二分木でなかったとしても) 定量的評価する手法はあるのだけど。図 3 の読み方はわからない。図 4 あたりの主張するところでは、62 個の音を独立に扱っているけど、ちゃんと自然な音変化が浮かび上がってきた。有声化とか。

一番の驚きは年代推定がそれなりにできていること。sporadic change だけのモデルは祖語を古く見積もりすぎるが、sporadic change + regular change だと他の証拠と整合する。calibration に使っているのは 1 点だけ。このデータセットでたまたまうまくいっただけではないかという疑念が拭いきれない。複数のデータセットで検証してほしい。

しかし、モデルを見ると、年代推定に使われているのは sporadic change の Q_s。regular change の Q_r は、天変地異のように、ある時刻に決定的に作用する。時間に関わる要素ではない。直感的に言うと、規則的変化で説明できない変化の割合が枝の長さに対応しているということ。規則的な音変化では、系統推定も年代推定も難しいだろうという見通しを私は持っていた。ところが、Hruschka et al. は規則的ではない部分を使ってきた。盲点である。しかし、それで良いんだろうか。少なくとも、言語学の議論でこんなのを見たことがない。

もう一つ、面白いのは、規則的な音変化が普通の確率的事象だという主張。時間に対して一定割合で発生する。だから一定時間内に発生する事象の数は Poisson 分布に従う。人間の活動は結構非 Poisson 的ではないかという議論が昔からあるけど、規則的な音変化は Poisson 分布でうまく説明できている。直感的には、great vowel shift みたいな玉突きが burst を起こして非 Poisson 的になりそうだが。これも他のデータセットによる検証を望む。

考えてみると、そもそも規則的な音変化の発生時刻を特定するための手がかりはとぼしい。単にモデルが発生時刻を確率的に散らせた結果として Poisson 的になっているのではないか。言い換えると、仮に規則的な音変化が burst を起こしていたとしても、モデルがそれを正しく推定できないのではないか。burst を起こす人工データを生成して検証した方が良さそう。

最後にデータセットについて。テュルク諸語 26 言語。出典は Sergei Starostin の An Etymological Dictionary of Altaic Languages*3この辞書は Vovin が批判しまくっているということで敬遠してきた。批判はアルタイ仮説の立証に集中している。テュルク諸語に閉じた部分の業界的な評価を知りたい。

*1:Hruschka et al. は Bouchard-Côté et al. (2013) を 1 つの段落で 2 回引用しているだけ。関連性の割に扱いが悪い。

*2:別の箇所にさらっと the alignment permits metathesis とか書いてある。本当に何をやっているんだ?

*3:著者のうち 4 人が所属している Santa Fe Institute をどこかで見たことがあると思ったら、Starostin 系の研究に絡んでいるのだった。

2015-02-13

対人行動の普遍性と個別性

かつて同じ時期に同じ研究室にいた人が、人間の能力について最近楽しそうに書いている。触発されて私も書いてみる。彼の焦点は対人行動の普遍性、というか生得的能力にある。私はむしろ個別性に興味がある。この世界には異なる文化が存在する。同じ人間であっても、育てる環境によって異なる行動規範を持つにいたる。人間はどうやって適応しているのか。

とりあえず検討すべき問題を書いてみたものの引っかかる。「行動規範」という用語がいまひとつ。人間が少数の規則演繹的に適用して行動しているように聞こえる。そうとは限らないし、おそらくそうではないだろう。中で何が起きているかによらない用語が必要。人間に事例を与え続けたら、未知の事例に対しても適切に行動できるようになるという現象だけを指したい。ひとまず代わりに「行動能力」と呼ぶことにする。私の見方は完全に言語からの類推だが、世の中には対人行動を直接研究している心理学の人がいるはず。今回はそういう研究を調べずに、思いつきを書き散らす。

なぜこの問題を考えるか。ひとつには、自分の行動能力がいまひとつだと認識しているから。対人行動が表層的な事例ベースになっていて、あまり汎化できてないような気がする。だから例外に対処できない。あらかじめ事例をためていない場合は大抵失敗する。そして、それがわかっているから、新しい対人行動には慎重になる。行動しないという行動が無色なら良い、色のついた行動からの選択を迫られるとつらい。

彼の議論だと、ここから一直線に生得的能力の欠落に持っていく。私はそこは疑問に思っている。幼児を観察していると生得性に注目するのは無理もない。だが、私にとっては、既に大人になってしまった自分の問題である。

疑問に思う理由が、冒頭で述べた異文化の存在。異文化に属す人間の行動はすぐには理解できないものだし、だから文化人類学なんて学問が存在する。日本で生まれ育ったら、ポトラッチをやるようにはならないけど、チヌークとして育ったらやるようになるのだろう。あたかもそれが当然のことのように。個別の行動や、そのもとになる行動能力にはそこまで普遍性はない。

そう考えると、生得的能力は2つに細分化できそう。一つは、身体に直接的に組み込まれた行動能力。もう一つは、事例を受け取って自然に汎化する能力。前者ばかりでなく、後者に問題がある可能性も考えてみた方が良いのではないか。

30年程生きているけど、あいかわらず世の中は理解できない対人行動であふれている。そうしたとき、ポトラッチポトラッチと2回唱え、とりあえず事例として記録しておく。ある程度事例がたまったら、それがどういう現象なのか分析できないかなと思いつつ。