Hatena::Grouprekken

murawaki の雑記

2011-02-10

Indus "Script" Controversy

インダス「文字」が自然言語を表しているか否かという論争。なかでも、言語説を支持する証拠を示したとされる Science 論文をめぐる論争。

時系列は以下の通り。

Science 論文を紹介する Wired の記事を見かけた記憶があるけど、完全に忘れていた。*1論争の存在に気づいたのは Computational Linguistics に飛び火したおかげ。インダス文字についてほとんど何も知らなかったけど、面白そうだったので少し調べてみた。*2

論争のそもそもの始まりは Farmer, Sproat and Witzel の 2004年の論文。インダス「文字」は言語を表したものではなく、したがって文字ではなくただの記号であると主張。実は Computational Linguistics に批判を載せた Sproat は、この論文の第2著者。

まず出てくる疑問。インダス「文字」が表すものが言語でなければいったい何か。人が作った記号で、かつ linearity があるもの。思いつくのは楽譜とか。さらに古代人が作ったという条件を加える。想像がつかない。Farmer+ (2004) は二つ例を挙げている。*3

  • Vinča symbols。石器時代の南東欧の出土物に刻まれた記号。よく知らないし論文もあまり説明しない。
  • Near Eastern symbol systems。呼び方が大雑把なのは、複数の集団が使ったからか。

特に後者について、インダス文字との共通性を指摘している。うだうだ説明するより実例を見たほうがはやい。

絵文字っぽいのは言語ではない。言語は楔形文字の方。1番上はともかく、2番目と3番目は、楔形文字を隠して文字ですと言われたら信じてしまいそう。Farmer+ (2004) はインダス「文字」もこれの同類だろうと言っている。

これらの記号は、基本的には神を表す。ただし連想ゲームで意味的に拡張しまくり。おまけに意味は時代によっても変化する。記号と意味の対応が言語よりもずっと流動的。しかし、言語が一般に持つ性質を満たす。

  • linearity をもつ (ものもある)
  • Zipf の法則 (Zipf-Mandelbrot 分布) が成り立ち、高頻度の記号と低頻度の記号が混在
  • 記号の並びが完全に固定でもランダムでもない

考えて見れば、言語学をやると linearity が根本原理のように言われるけど、別に linearity を持つものは言語に限らない。Zipf の法則もそう。ということで残る並びが問題になる。Farmer+ 2004 にはちゃんと書いてなかったけど、Sproat の反論は並びについて議論している。曰く、高位の神の記号を前に持ってくる傾向がある。といっても、完全な序列が決まっているわけはないし、使われる記号には出入りがある。結果として、完全に固定でもランダムでもない、なにがしかの構造を持った列になっている。

こんな感じで、記号列が言語か非言語かという問題は、微妙なところを突いている。計算言語学でも自然言語処理でも、ほぼすべての場合に、そもそも言語だと分かっているデータを扱っている。言語と非言語を分類する問題なんてなかなかない。

以上を踏まえて Rao+ の Science 論文を読む。「なんだこれは」と言いたくなる。表題は Entropic Evidence for Linguistic Structure in the Indus Script。記号 (文字) bigram の conditional entropy を見れば言語と非言語を識別できると主張。

問題は比較対象の Nonling type 1 と Nonling type 2。これらは実は人工データ。type 1 は Vinča symbols を、type 2 は kuruddu の deity symbols をモデル化していると主張する。しかし、恣意的に作った極端なモデルで、実在の記号を反映していないと Sproat が反論。特に、type2 は等確率 (equiprobable) のモデルで、Zipf の法則すら満たさない。

Rao+ は他の比較対象として、DNA や protein も扱う。何か意味があるのだろうか。比較対象としては、人間が作った記号列で、もっと言語か非言語か微妙なものを持ってくるべき。ついでに言えば、非言語説の人は、非言語記号システムの他の例をもっと示してほしい。私の判断では、Science 論文の是非に関する論争では Sproat に分がある。より広い、インダス「文字」が何かという議論については判断を保留。

言語の他の性質として syntax が考えられる。入れ子構造を持っているとか。問題はインダス「文字」の記号長は平均4.6と短いこと。複雑な構造を持った例がなさそう。そもそも単語列も同定出来ていない状態では、木構造などわかりそうにない。ついでに言うと、教師なし単語分割も厳しい。教師なし単語分割では、1万文ぐらいで小規模だと言っている。インダス「文字」資料はもっと小さい。複雑な統計モデルを適用するにはデータが小さすぎる。「こんな単純な道具で21世紀を戦えるのか」と Science 論文を最初見たとき思ったけど。駄目押しは、時間幅が数百年あること。そもそも単一モデルで説明できるデータではなさそう。

おまけ。Rao+ 2004 は頻度に基づく確率の算出時に modified Kneser-Ney smoothing を使っている。工学の人は呪術的に確率を操作しても、精度が上がれば正義なので良い。一方、こういう科学っぽい議論で気軽に smoothing して本当に良いのか。同じグループの PNAS の論文では、求めた確率値を表に載せている。うちの分野ではこんなものを見たことがない。確率は単なる便宜的な値であって、真の確率を表しているとは誰も思ってなさそう。

modified Kneser-Ney smoothing の派生元の interpolated Kneser-Ney は、理論的には、階層 Pitman-Yor 過程の特殊形であることが示されている。つまり (1) 宗派は Bayesian で、(2) 事前分布は Pitman-Yor 過程と解釈できる。言いかえれば、the rich get richer で discounting が入るという仮定をデータに対して持っていることになる。Rao+ は中立な立場で実験していることになっているはずなのだが。情報を持たない事前分布も試すべきではないか。

2015年1月29日追記: Sproat が Language 誌で本格的な比較結果を報告しているのを見つけた。

*1:改めて Wired の記事を読んでみると、記者は良くわかってなさそう。

*2:この投稿は、研究室で持ち回りの smalltalk で話した内容。

*3:もう一つ、斜め読みしていて非言語データかと思ったのが Scottish heraldric blazons。blazon は紋章を言語で説明したものだけど、とても形式的な記述らしい。よくわからないが、テキストの term の頻度を見ているのか。元データはおそらくこのページ