Hatena::Grouprekken

murawaki の雑記

2016-12-10

UNESCO Atlas of the World's Languages in Danger の悲惨さとそれに関連するいくつか

Christopher Moseley ed. 2010. Atlas of the World’s Languages in Danger, 3rd edition. UNESCO Publishing. (online version).

UNESCO から出ている、世界の危機言語を地図に示した本。以下、危機言語本とよぶ。UNESCO を権威としてありがたがる人をいまでも時々見かける。彼らは現物を確認したことがあるのだろうか。実は、この本の日本に関する部分は、目を覆うばかりの悲惨な品質。本記事ではまずはこの本がいかにひどいか示す。

危機言語の保存というのは政治運動。なぜそんなものを取り上げるかというと、運動家*1が権威づけに利用しようと、言語研究 (特に系統や分類に関するもの) の成果に対して誤解、曲解、恣意的選択を行っているから。アホなことばかり言っていると槍が飛んでくるくらいが健全な状態だと思うが、当の研究者の対応は微温的。私の研究的な立ち位置*2は運動家と変わらないくらい周辺的だが、気づいてしまったからには書いてみることにする。

この話題を思い出したのは「種問題」ははてしなく続くというブログ記事を今年の9月に見かけたから。*3「言語多様性」という怪しげな政治的概念は「生物多様性」から借りてきたものだと思うが、生物側でも政治への対処が大変そうである。ただ、言語側には生物側とはおそらく事情が違う部分もある。昨今の言語研究の流行はこの手の政治運動にとって都合の悪い方向を向いている。この点にも触れる。

危機言語本の粗雑さ

危機言語本は2009年2月にオンライン版が発表されたのが最初で、本の出版は翌年にずれこんだようである。3rd edition となっているように、UNESCO からこの種の本が出るのは3度目。第3版といっても一から書き直された別物。第1版、第2版の編者はオーストラリアの Stephen Wurm だったが、Wurm は第2版が出版された年に亡くなっていて、第3版は同じくオーストラリアの Christopher Moseley が引き継いでいる。私が確認したのは第2版*4と第3版で、第1版は未見。

危機言語本の日本における受容は、日本には8つの危機言語があるという主張に焦点があてられている。すなわち、Ainu (Hokkaido), Hachijō, Amami, Kunigami, Okinawan, Miyako, Yaeyama, Yonaguni。今回はアイヌ八丈島は置いておく。問題は残り、いわゆる琉球諸語。一番の問題は言語認定の恣意性だが、その前に、危機言語本がこれらの「言語」をいかに粗雑に扱っているか見ておく。

atlas というのは地図を集めたもので、説明文をともなうことが多い。危機言語本の紙版も地図の他に本文がついていて、むしろこちらの方に紙面を割いている。本文は全体的な説明のあとに、地域別の説明 (Europe and the Caucasus, Greater Pacific area, North-east Asia など) が続いている。

では、問題の「言語」、例えば Amami はどのように説明されているのだろうか? 驚くなかれ、実はまったく出てこないのである。地図以外は、末尾の索引に載っているだけ。日本が載っていてもおかしくない章は North-east Asia と Greater Pacific area だが、いずれにも登場しない。

North-east Asia の章は Juha Janhunen が担当。Juha Janhunen はウラル語族アルタイ諸語を手広くやっている言語学者。この章では、Siberia の節で系統不明の弱小言語群を説明しているが、そこでついでにアイヌ語に言及している。それより南の話は出てこない。

Greater Pacific area の章は Darrell T. Tryon が担当。冒頭で以下のように宣言する。

The Greater Pacific area comprises Japan, Taiwan (China), the Philippines, insular Malaysia, Indonesia, Papua New Guinea, the Solomon Islands, Vanuatu, Fiji, Micronesia, Polynesia, Australia and New Zealand, as well as Hawaii.

しかし、日本については以後一切言及がない。なお、Darrell T. Tryon の専門はオーストロネシア語族

ちなみに第2版では Greater Pacific Area の章に Japan の節があって、The Japanese langauge of Japan と Ainu を簡単に紹介していた。第3版になってむしろ後退している。

ここまでくればわかったと思うが、危機言語業界 (?) には南北の縄張りがあって、辺境にあたる日本はぞんざいな扱いを受けている。

扱いの雑さを示す証拠はまだまだある。オンライン版は Google Maps を使っているから気づかないが、紙の地図は複数枚にわかれている。日本はちょうど南北の境界になっていて、八重山・与那国だけ別の地図にわけるという嫌がらせを受けている。大判の世界地図もあるが、言語が密集している地域は拡大図を載せている。そう、お察しの通り、八重山・与那国は台湾の拡大図に押し込まれている。

いったい誰の責任だろうか? 紙版ではそれがわからない。Contributers という章に貢献者一覧が載っているが、分担を書いていない。

オンライン版は言語ごとに貢献者と出典を載せている。Amami から Yonaguni までの貢献者はすべて Tapani Salminen。「お前誰やねん」とつっこまざるをえない。このあたりの言語を扱った論文でこの人が引用されているのを見たことがない。それもそのはず、貢献者欄で a specialist of Finno-Ugrian studies と紹介されており、本文の Europe and the Caucasus の章を担当している。要するに非専門家危機言語本というのは世界中からマイナーなところだけ集めてくる事業だから、難しいのだとは思うが、もう少し何とかならなかったのか。

出典として以下の3つを挙げる。

言語学者の論考は一番上の上村幸雄のだけ。残り2つは、こんなもの引用して恥ずかしくないのかと思う悲惨な代物だが、それについてはまた機会があれば取り上げる。ここで問題にすべきは、出典になっていないこと。すなわち、危機言語本の以下の主張は、上記の文献に対応物を見いだせない。

Uemura (2003) において、Amami (the dialects of the Amami region) は奄美群島全体を範囲とする。同様に、Okinawa(n) は沖縄本島 (及び附属島嶼) を指す。国頭地方の諸方言は North Okinawa dialects とよんでいる。当然ながら、奄美群島南部沖縄本島北部の総称として Kunigami を使うことはない。結局、危機言語本におけるこれらの「言語」の出典は不明のまま。

そもそも言語をどうよぶかなんて、大言語を扱っている限り当たり前すぎるが、マイナー言語を扱っているとそうもいかない。Glottolog という大規模な言語目録を作成している Martin Haspelmath が、最近命名方針を整理している。11ある方針の5番目がこの問題に関連する。

New language names are not introduced unless none of the existing names is acceptable for some reason.

話者が嫌っているとか、そういう特別な理由がないかぎり、先行研究が採用した名前を尊重すべきであり、勝手な命名をして混乱をもたらすなということ。まあ当たり前の話。そして、危機言語本は、そんな当たり前のこともできていない。

この3つの命名はいずれもひどい。地理的に国頭に含まれない鹿児島県沖永良部島与論島をひっくるめて Kunigami とよぶのは、大国主義 (?) 的で、無神経にもほどがある。こんなことをやりながら言語多様性をうたうなど笑止千万

問題はこれにとどまらない。認定された「言語」の範囲にも問題がある。この問題を実感するには、遠回りになるようだが、研究史を振り返るとよい。

研究史 (1): ISO 639-3 言語コードとその出典

危機言語本は無視しているが、これらの言語群に対する研究には膨大な蓄積がある。挙げていくときりがないし、私がまだ把握していないものも多い。ここでは国際的に知られているものに絞って紹介する。

ISO 639-3 言語コードというものがある。国際標準っぽいし、実際そうなのだが、登録作業SIL International という民間団体が行っている。そして、登録内容は SIL が発行している Ethnologue という言語目録に載っている。*5

危機言語本認定の「言語」には、対応する ISO 639-3 言語コードが記載されている。例えば、Amami に対して ryn, ams, kzg。これに限らず、Ethnologue は、いわゆる琉球諸語に対して、全部で11の言語コードを付与している。これの出典は明らかに以下の文献。

S.A. Wurm and Shirô Hattori ed. 1981-1983. Language atlas of the Pacific area.

1人目の編者は危機言語本第1版、第2版の編者でもある。2人目は言わずと知れた服部四郎。この文献は地図のシートを束ねたもので、裏面に説明文がある。Maps of the Japan Area の Sheet 28 Ryūkyūan Dialects が元ネタ。担当者は、仲宗根政善、上村幸雄、外間守善中本正智。この分野の第一人者が勢揃いしている。そして Introduction を服部四郎が書いている。1980年頃の研究の到達点と見てよい。

この説明文の重要なところは、集落 (シマ) ごとに異なる方言があることを強調している部分。分類をはじめる前に、

enourmous number of small dialects

we could even say that every hamlet has its own.

説明する。そして、仲宗根政善の母が生前、今帰仁与那嶺からそれほど遠くない名護に行ってみたいと願っていたが一生叶わなかったという有名なお話が、各シマの孤立っぷりを示す例として挿入されている。さらには、分類について議論したあと、最後に

It is not surprising at all that the Yaeyama Islands have so many isolated dialects when one recalls the fact that every hamlet has its own dialect even on such a small flat island as Kikai in the north.

と繰り返す念の入れよう。異常なまでの言語多様性は、実際、言語の保存を行う上で、重要で、難しい性質である。この問題へ言及しているか否かは保存運動のまともさを判定するテストとして使える。この問題に触れないのは論外だし、軽視する奴は詐欺師だと思えばよい。

さて、分類だが、どういう基準で行うかも重要。服部は「全体的な構造」に従って方言をグループに分類すると宣言する。

classify the dialects into several groups in terms of overall structures

つまり、何が重要な違いで何がそうでないかについて、研究者直観以上に何かあるわけではない。牧歌的な話。日本の他の地方を見ても、Sheet 26 Ainu Area: Hokaidō and Southern Sakhalin では、服部・知里による言語年代学に基づく基礎語彙共有率を使って方言間に線を引いている。Sheet 27 Japanese Dialects では上野善道がアクセント体系によって本土諸方言を分類している。一貫性も何もあったものではない。

結論として、地図には日本と台湾を分離する Language Boundary がまず引かれている。日本内部には5種類の Dialect Boundaries が設定されている。Level No. 1 が本土琉球を分離し、Line No.2 が Northern (Amami-Okinawan) と Southern (Sakishima) を分離する。ここから先は論争があったことが記されている。奄美群島徳之島沖永良部島の間に Line No.3 が引かれている。もともと上村が Line No.4 を提案していたが、仲宗根が Line No.3 を提案し、中本、外間、服部が賛成して採用されたという。与論島沖縄本島の間の線は中本が Line No.3 とすることを提案したが、外間が否決したという。

そもそも線の基準が謎だが、下位の線は以下のように説明される。Line No. 4 は mutual communication generally impossible or very difficult で、Line No.5 は noticeable dialectal difference which is not so great as to cause impossibility of mutual communication という。

Ethnologue は Line No.4 以上を言語認定していることになる。参考までに服部らが地図に載せた名称を載せておく。上位が Group。

  • Amami-Okinawan Group
  • Sakishima Group

その下に Dialects。もちろん複数形である。

  • Kikai Dialects
  • Northern Amami-Ōshima Dialects
  • Southern Amami-Ōshima Dialects
  • Toku-no-shima Dialects
  • Oki-no-erabu Dialects
  • Yoron Dialects
  • Kunigami Dialects
  • Central Okinawan Dialects
  • Miyako Dialects
  • Yaeyama Dialects
  • Yonaguni Dialects

さらに宮古Line No.5 で細分類されている。

  • Miyako-jima Dialects
  • Irabu-jima Dialects
  • Tarama-Minna Dialects

線は引かれていないが、いくつかの集落に ▲ が記されており、isolated characteristics when compared with the neighboring dialects と説明される。奄美大島の佐仁、喜界島の小野津、沖縄の久高、鳥島は本文に説明がある。宮古大神説明がない。八重山には ▲ が記入しまくってある。執筆時点では分類を確立するには調査不足だっただけではないかという印象を受ける。

あと、意外と重要なのは、分類以外の線も引いてあること。Sphere of strong/less strong/weak influence of the Shuri Dialect という 3 種類の線が引いてある。同様に奄美大島の名瀬方言も影響圏を図示。

まとめ。

  • 服部らは「全体的な構造」、要するに言語学者の直観によって分類を行っている。
  • Ethnologue は危機言語本よりも細かい粒度で言語を認定している。おおよそ島単位。
  • 服部らは Amami-Okinawan を南北で2分割して、その境界徳之島沖永良部島の間に引いている。この分類は珍しいし、作成者の間でも議論があった。
  • 危機言語本の Amami に相当するグループが設定されているが、名前は与えられていない。仕方がないので Ethnologue は Northern Amami-Okinawan とよんでいる。Amami-Okinawan の北半分という意味であって、地理的意味での沖縄は範囲外。
  • 危機言語本の Kunigami に相当するグループはない。Kunigami は国頭地方の諸方言を指す。
  • 危機言語本の Okinawan に相当するグループは Central Okinawan とよばれている。

研究史 (2): Uemura (2003)[1992]

危機言語本で出典として挙げられていた Uemura (2003) は、元は『言語学辞典』の「琉球列島の言語」という項目で、これを英訳したもの。

上村幸雄は上述の Language atlas of the Pacific area の作成者の一人であり、唯一存命である。Uemura (2003) は出版時期こそ比較的最近だが、旧世代研究者

基本認識はこれ。

A detailed classification would see that each community in the archipelago has its own dialect, but more roughly put there are large dialect divisions just about between each large island.

上村は琉球王国覇権を強調しすぎているきらいと、言語と方言の用語の区別に拘泥しすぎている印象があるが、そこまで変なことは言っていない。分類の節に入る前に言語の数について簡単に議論している。

If, when deciding whether two related languages or dialects should be called languages or dialects, one focusses only on mutual intelligibility and linguistic differentiation, then the term 'Ryūkyūan language' would be appropriate. If one looks at major differences between dialects on the Ryūkyū archipelago in the phoneme inventory and the like, then at least two languages (Northern Ryūkyūan and Southern Ryūkyūan), or even five languages (Amami, Okinawan, Miyako, Yaeyama, Yonaguni) could be recognised, and one could speak of the Ryūkyūan languages.

原文は日本語で、単複が曖昧なので、訳者 (Wayne Lawrence) の解釈が入っているように思う。音素目録とかの違いで分類するというのと相互理解可能性との関係が不明瞭。ともかく、Kunigami は数に入っていないし、Amami, Okinawan の範囲も、明示はしていないが、常識的には奄美群島沖縄諸島に対応するのだろう。

分類に関する議論は Subclassification of the Ryūkyūan language という節に書かれている。この節では分類基準を明示していない。大きく Amami-Okinawa Dialect Group と Miyako-Yaeyama Dialect Group に分けるところ、Miyako-Yaeyama を Miyako, Yaeyama, Yonaguni に 3 分割するところは以前と同じ。Amami-Okinawa Dialect Group の下位分類が違う。この節の構成はちょっと面白い。上村はまず8つの下位分類を示す。例によって dialects と複数形。

  1. Kikai-jima dialects
  2. North Amami Ōshima dialects
  3. South Amami Ōshima dialects
  4. Tokunoshima dialects
  5. Okinoerabu dialects
  6. Yoron dialects
  7. North Okinawa dialects
  8. South Okinawa dialects

服部らからの目立った違いは Central Okinawan が South Okinawa になっていることぐらい。

そのうえで、中間的な分類を提案していく。まず 2-3-4 と 5-6-7 が音素体系的に対立すると言う。前者に名前はつけないが、後者は Okinoerabu-Yoron-Northern Okinawa group とよんでいる。この範囲を指す包括的名称が存在しない以上、上村が3つの名前を並置したのは自然。狂っているのは危機言語本の Kunigami という命名の方。

1 の喜界島は 5-6-7 と同じ音韻的特性を持つと上村は言う。1-5-6-7 というグループを提案しない理由を説明していない。喜界島の北端の3つの集落だけその特性を持たないので、扱いに困っているのだろう。一連の議論の最後に 5-6-7 と 8 は対立すると説明する。

この次に別の中間的分類を提案する。奄美群島 1-6 と沖縄諸島 7-8 の対立。上村は、この対立は17世紀初頭に薩摩藩奄美の直轄支配を始めて以降の歴史を反映しているとして、

a subdivision on these principles does not reflect the genetic relationships among the dialects.

と主張する。唐突に genetic という議論が登場する。まるで、それまでの分類は系統的関係を求めていたかのような口ぶり。議論が混乱している。

まとめ。

  • Uemura (2003) は音素目録とかの違いで分類すると言いつつ、後になって genetic relationships がどうこうと言い出すなど、議論が混乱している。
  • Uemura (2003) は言語の数は2つ (Northern Ryūkyūan and Southern Ryūkyūan) あるいは5つ (Amami, Okinawan, Miyako, Yaeyama, Yonaguni) と主張しており、6つ認定する危機言語本と一致しない
  • Amami-Okinawa の下位分類は、Ethnologue と同じく、おおよそ島単位。中間的な分類は、言語学者が操作する抽象的な単位というニュアンスがうかがえる。
  • 危機言語本の Amami の相当するグループは (喜界島を無視すると) 設定されていると言えなくもないが、名前は与えられていない。
  • 危機言語本の Kunigami に相当するグループは Okinoerabu-Yoron-Northern Okinawa とよばれている。
  • 危機言語本の Okinawan に相当するグループは South Okinawa とよばれている。

研究史 (3): Glottolog と Pellard (2009)

さて、前置きが長くなったが、ここからが本番。実は、Uemura (2003) 以降、あるいは危機言語本のオンライン版が出た後に、状況が一変している。最近の成果は Glottolog に反映されている。

既に触れたように、Glottolog は大規模な言語目録で、ISO 639-3 (Ethnologue) と同じように言語にコード (Glottocode) を割り振っている。統計的研究を行う際、複数の言語データベースを統合することがあるが、言語コード名寄せに利用できる。私も以前は ISO 639-3 を使っていたが、情報が古すぎて前処理時地獄に苦しめられた。最近は Glottocode を使っている。

さて、Glottolog の琉球諸語の分類はこれまで見たものとは全然違う。

  • North Ryukyuan
    • Amami
      • Kikai
      • Nuclear Amami
        • Okinoerabu-Tokunoshima
        • Oshima
          • Northern Amami-Oshima
          • Southern Amami-Oshima
      • Yoron
    • Okinawa
      • Central Okinawan
      • Kunigami
  • Ryukyu Sud
    • Macro-Yaeyama
      • Yaeyama
      • Yonaguni
    • Miyako

ほぼ二分木になっていてやたら階層が深かったり、、Yaeyama, Yonaguni をまとめた Macro-Yaeyama があったり、Ryukyu Sud という謎のフランス語があったり。North Ryukyuan が Amami と Okinawa に二分されているところが新しい。沖縄を南北に分割するのはこれまで通りだが、奄美の中の分類は何が起きたのか理解できないくらい違う。

Glottolog は Pellard (2015) を出典とするが、この文献には分類結果だけが書いてあって議論はない。議論は以下の博士論文にある。

Thomas Pellard. 2009. Ōgami: Éléments de description d'un parler du Sud des Ryūkyū. Linguistique. Ecole des Hautes Etudes en Sciences Sociales (EHESS).

表題の通り宮古大神方言を記述したものだが、9章前半で琉球諸語の分類を議論している。この論文は私の最近の趣味の研究にも関連していて面白い。言語学者が生物学由来の統計的系統モデルを使っているという驚きの内容。ただ、この21世紀に学術研究の成果をフランス語で発表されても困る。英語版を出して欲しいところ。

Pellard (2009) の一番の貢献は、何のために分類するかを明確にしたこと。系統樹を作ることに特化している。Pellard (2009) 以前の分類は、現代語群をそれらが持つ特徴群の類似度 (あるいはその反対の距離) によって階層的にクラスタリングしていた。しかし、何を類似度とすべきかに明確な基準がなかったし、そもそも唯一の正解が存在する性質の問題ではない。だから矛盾する証拠が見つかったときに何を優先すべきか不明だった。系統樹を作るという目的を定めると、基準が明確化する。すなわち、ある言語対が同じ特徴を持っている理由は以下の4つに分類できる:

  • 偶然の一致
  • 普遍的に起こりやすいから
  • 接触の影響
  • 共通祖先から引き継いだから

系統樹を作るために必要な特徴は最後の一つだけ。残りの特徴は邪魔なので捨てるべきということになる。

この方針は、分類のための特徴として何を採用するかにも影響する。以前は音韻的な分類が採用されていたが、Pellard (2009) はこれを却下する。例えば、p > ɸ > h や k > h が Amami-Okinawa の分類に採用されていたが、これらは起きやすい変化なので、独立に起きたか、接触による影響の可能性が高い。ちゃんと系統樹を作るには、共通祖先から引き継ぐ可能性が高い特徴に着目しなければならない。

Pellard (2009) は不規則な音変化、基礎語彙の発生、意味変化など、計70個を特徴として採用し、統計的系統モデルによって系統樹を作っている。Pellard (2009) の特徴はバイナリという点では Gray-Atkinson 系の同源語特徴と同じだが、中身はかなり違う。Pellard (2009) のデータでは、共通祖語の段階では 0 であり、系統樹上のどこかで一度だけ不規則な変化が起きた (0 > 1) ような特徴が集められている。特徴の喪失 (1 > 0) は、モデルの上では系統樹上の複数の箇所で起こり得ることになっているが、その確率は低い。

Pellard (2009) は最近流行りの Bayes モデルではなく、PHYLIP という大昔からあるソフト (具体的なモデルは cliquedollop) を使っている。それは別に悪いことではない。この研究の肝はデータの作り方にあるから。Pellard (2009) が採用した特徴は、偶然の一致の可能性が低いし、不規則変化を見ているので普遍性もない。ただ、個別の特徴をある言語が持つに至った要因が接触 (横) か系統 (縦) かを識別するための手掛かりが欠けている。仕方がないので、特徴群全体をうまく説明するような系統樹を探している。このあたりは改良の余地がある気がする。

得られた系統樹は、Glottolog のものと大体同じだが、いくつか重要な違いがある。

  • 奄美沖縄は安定的に分離されている。Uemura (2003) はこの区分は genetic な関係ではないと主張していたが、Pelleard (2009) はこれこそが genetic な関係という主張。
  • Amami-Okinawa (Northern Ryukyuan、Glottolog の North Ryukyuan) は従来自明のものとされていたが、このノードはできたりできなかったりする。Pellard (2009) は図9.5で、? という謎ノードを描いている。ただし、Pellard (2015) は Northern Ryukyuan を復活させている。
  • Pellard (2009) では喜界島はそもそもデータに含まれていない。Glottolog が Kikai を Amami の子供にしている根拠は不明。
  • Glottolog の Nuclear Amami, Okinoerabu-Tokunoshima にあたるノードに Pellard (2009) は名前をつけていない。
  • Pellard (2009) は Okinawa を Nord と Sud に分割しており、Glottolog の Kunigami と Central Okinawan という名前は Pellard (2009) に基づかない。Pellard (2015) はそもそも Okinawa よりも下の分類を載せていない。

まとめ。

  • Pellard (2009) は系統樹を作るという明確な目的のもと分類している。
  • 言語と方言の違いなんてものはこの議論と無関係であり、無視されている。
  • 危機言語本の Amami に相当するノードは存在しない。系統樹上でずたずたに分断されている。
  • 危機言語本の Kunigami に相当するノードも存在しない。
  • 危機言語本の Okinawan に相当するノードは Okinawa Sud とよばれている。

ここ数年で出版された文献は、Pellard (2009) をもとにした Pellard (2015) の系統樹を採用している印象がある。Pellard (2015) を収録した Handbook of the Ryukyuan Languages田窪行則編. (2013).『琉球列島の言語と文化』、田窪行則ほか編. (2016). 『琉球諸語と古代日本語』など。よく考えると、すべて Pellard が関わっているけど。

言語研究と保存運動の乖離

ここまで延々と従来研究を紹介してきた。見てわかるように、危機言語本が認定する「言語」は、名前がまずいだけでなく、学説によっては存在すら否定されている。Pellard (2009) のおかげで最近は特に旗色が悪い。ただし、Pellard (2009) が決定版かというとそんなことはない。今後の研究の進展によってこの説が上書きされる可能性が高い。重要なのは、そういう学術論争の対象となるような抽象的かつ不安定な単位でしかないこと。話者がその存在を想像するような地に足の着いたまとまりではない。そんなものを保存運動に持ち出して何の意味があるのか。学問を権威づけに利用して、自分たちが望む単位を話者に押し付けたいのだろうか。

具体的な分類が今後どうなるかは別として、分類方針の転換は覆らないだろう。昔のような現代語のまとめあげは流行らない。明確な基準の存在しない不良設定問題であり、複数の対立する説のなかからどれを選ぶべきか決められない。系統樹なら、何が正解かはともかく、何をすべきかは明確。

言語研究の系統樹への指向は、保存運動にとって都合が悪い。以前なら、分類の結果得られる中間ノードは、いくつかの現代語をまとめあげた現代のまとまりだった。系統樹における中間ノードは祖語である。昔の言語であって現代語ではない。現代語のまとめあげなら、面を被覆しないとサマにならないが、系統分類はそうでもない。点と点の関係を議論すれば充分に研究になる。実際、Pellard (2009) のデータには喜界島が欠けている。

目的の明確化とともに手法も先鋭化している。本質主義の色彩すら帯びている。Pellard (2009) の議論にあるように、ある言語対が共有する特徴のうち系統分類に必要なのは共通祖先から引き継いだものだけ。他の特徴は分類のさまたげとなるので排除する。系統樹作成に使われたアルゴリズム (clique と dollop) は、単純な距離に基づくクラスタリングとはまったく異なる結果を吐き得る。ある言語対が似ていると素朴に思っていたら、その類似は本質的ではないと怒られて、別の差異を持ち出されるのである。

それで言うと、Uemura (2003) のように「琉球王国」を持ち出すのは筋が悪いし、服部らの地図に示された「首里方言の影響圏」なんてものは排除の対象である。いわゆる琉球諸語内部の分岐は、明らかに琉球王国の誕生に先行する。琉球王国の影響で生じた接触は、系統樹を作る立場からするとノイズでしかない。

こうして議論が整理されてくると、「琉球」という命名が失敗に思えてくる。歴史的には「琉球」はそんなに広い範囲を指す言葉ではない。もともと「琉球」は沖縄本島のこと。*6訳語系の資料を見ると、漢語の「琉球」を琉球語(?)では一貫して「沖縄」と翻訳している。琉球王国が征服した奄美宮古八重山は、琉球の属領ではあっても琉球の一部という感じはない。つまり「琉球」とは琉球王国であり、系統樹作成に際して排除すべき対象である。そうして頑張って「琉球」を取り除いて残ったものを「琉球」とよぶのはいかにも都合が悪い。同じように「琉球」以前の姿を追い求める傾向にある民俗学にならって「南島」とよぶのがよいと思う。*7

言語研究と保存運動の乖離はこれにとどまらない。昔の研究はいかにもな方言調査だったが、最近は普通に記述言語学をやるようになっている。文法、辞書、テキストをそろえて体系的に記述しようという方向。上述の Pellard (2009) は宮古大神方言を記述したものだし、他にもひたすら奄美大島の湯湾方言をやったり、与那国方言をやったりしている人がいる。驚くほどストイック。

ここで問題になるのは、集落ごとに異なる方言があること。危機言語本のいう「言語」は一つの体系ではない。相互理解可能性はここでは関係ない。原理主義的には、別の体系があれば別に記述すべきということになる。与那国島なら内部の差異が少ないから一つで良いかもしれないが、奄美大島ならそうもいかない。実際、記述系の人は、大神とか湯湾のような集落を対象にしている。

調査対象の集落の選定も保存運動に都合が悪い。奄美大島北部の中心は名瀬だが、調査対象に選ばれたのは宇検村湯湾のようなど田舎。おそらく方言の残存状況を考慮してのことだろう。大神が選ばれる理由は簡単で、めずらしい特徴を持っているから。いずれにしても、危機言語本の認定する「言語」をまとめあげる求心力を持たない。そもそも、喜界島のように、同程度の威信の方言が林立していて中心が存在しない場所もある。あるいは、危機言語本が奄美大島徳之島、喜界島を範囲として Amami を認定していることに従うと、喜界島はまるごと奄美大島徳之島と一体化させなければならないのだろうか。そんな馬鹿な話はない。

ここまではいわゆる琉球諸語を議論してきたが、ここで挙げた諸問題は何も琉球諸語に限ったものではない。系統分類でもめている言語群なんて世界中にある。記述の対象が「言語」よりも下位の単位になることもありふれている。

Glottolog のような最近の言語目録はこうした状況を前提とした設計になっている。Glottolog の設計を議論する Nordhoff and Hammarström (2011) は、言語と方言の区別なんて言語学者にとってはどうでも良いと宣言する。

The question of what is a dialect and what is a language is a very old one, and up to now, there are no agreed upon criteria how to resolve it. While it is a hotly debated topic among the general public, there is general consensus among linguists that this question is of relatively minor interest.

そして languoid という概念を導入する。

Languoids replace the traditional concepts of dialects, languages, and language families in the Glottolog/Langdoc project. Languoids are mathematically sets, which can contain other languoids, or doculects. Languoids may not be the empty set.

例えば、Yuwan, Amami Ōshima, Ryukyuan などは一律に languoid。

趣旨は同じだが、Gord and Cysouw (2013) はさらに議論を先鋭化させている。念頭にあるのは、ちょうどここまで見てきたような分類をめぐる混沌とした状況。

However, consensus about the identification of languages is often hard to achieve and, moreover, often turns out to be incorrect as new facts becomes known. Therefore, we expect that language experts will never be fully satisfied with the range of decisions that are taken to develop a standard like ISO 639-3, especially with regards to the delineation of groups of closely related speech variants into specific languages. In some cases, it may be that a given expert simply disagrees with current consensus. In others, it may be that a lack of information has made that consensus inherently fragile, and everyone agrees that it could change quite abruptly if more was known about the linguistic situation of a specific group or area.

そこで過激な解決策が提案される。言語目録を作る上で一番の基礎であり、論争の少ないところまでさかのぼる。ある文献である言語が説明されているということ自体が争われる可能性は低い。ある文献で説明されたある言語を doculect とよぶことにする。文献の数だけ doculect がある (一度に複数の言語が説明されていればそれ以上)。doculect A, doculect B, doculect C が同じものを指していることが自明の場合もあるだろう。その場合は、{A, B, C} という集合で languoid a が定義される。A と B は同じだが C は違うという主張があった場合は、a と並行して languoid b := {A, B}, languoid c := {C} をたてる。文献上は a と b が同じ名前でよばれる場合があるかもしれない。ちょうど危機言語本が既存の言語名を別の意味で使って混乱をもたらしているように。仕方がないので doculect や languoid には ID をふって ID で管理する。あと、厳密に書くのは大変なので、ここでは「言語」とよんだけど、もちろんそれは方言かもしれない (あるいは語族かもしれない)。そんなのどうでもよいし。

おわりに

危機言語本はあっけにとられるほど雑に日本を扱っている。危機言語業界において日本は南北の縄張りのはざまに位置するから。その内容はこれまでの研究経緯を無視していて、混乱をもたらすだけの有害無益なもの。しかも直後に出た研究成果によってオワコン化している。悲惨の極み。

個別の事例以前に、「言語」を認定していくという設計方針自体が実態にそぐわない。危機言語本のいう「言語」は、学術論争の対象となるような抽象的かつ不安定な単位でしかない。議論の出発点は、集落 (シマ) ごとに言語が異なるという現実を直視することであるべき。

保存運動において言語と方言の区別は本質的ではない。そもそも境界事例の扱いに困ってえいやと基準を決めるのは分類問題の常。この世界には一方には言語とよべる実体がありそうだし、もう一方には方言とよべる実体もありそうである。そこまではよいのだが、対象を網羅しようと思ったら、どこかで線引きをしないといけない。相互理解可能性というのはそういう文脈で登場する基準に過ぎない。「本土では東北から九州まで相互理解可能性の連鎖が途切れないが、琉球諸島では途切れる」と得々と語っても、知性の欠如をさらすだけ。当の話者からすれば、「だからどうした」というほかない机上の空論

そんなこんなで、危機言語本やそれに群がっている人がアホなのは明らかだと思うのだが、正面からの批判を意外なほど見かけない。私が知る限りでは、西岡敏が懸念を表明しているくらい。例えば、呉人恵編『日本の危機言語』所収の西岡 (2011) では次のようにいう。

問題はこれらの「~語」がいったい何を指すかである。さきほども述べたように,琉球諸島で話されていることばは,集落ごとに異なる。それを「~語」という言い方でくくった場合,危機言語の中でも,より有力な言語のみを滅亡から救い,より弱小な言語を見捨てることにつながって行くのではないかという懸念が生ずる。

一応他にも、「~方言」から「~語」へのラベルの張り替えは問題の本質から目をそらすだけという別の人の批判も見た記憶がある。しかしいかにも手ぬるい。変なことを言っている人がいて、それが影響力を持っている場合には、ちゃんと滅ぼしておくのが世界平和のためだと思うけど。

ただ、言語研究者危機言語本の枠組みに従っている感じはなく、単にスルーしているように見える。だいたい『日本の危機言語』からして、有名どころの水海道方言を入れたり、あえて東京弁を取り上げたりして、危機言語本の枠組みをあからさまに無視している。いわゆる琉球諸語の研究者も、危機言語本の「言語」を無視し、集落を単位として粛々と記録と継承に取り組んでいるように見える。例えば、田窪行則編『琉球列島の言語と文化』がまさにそんな感じ。

保存の単位を何にするかは究極的には話者に委ねるほかない。通じようと通じまいと、話者が同じと思えば同じだし、違うと思えば違うのだろう。もちろん話者は複数いないと始まらないし、「我々」というのは曲者である。n人をグループ化する方法の総数はベル数とよばれ、たった6人で203通りに膨れ上がる。さらには非対称性もある。集団 A は集団 B を「我々」の一部だと主張し、B は A とは別だと主張するというようなことは普通に起こりえる。一般には話者が多いほど保存に成功する確率は高まると期待される。表記の確立や教育の問題で、どのみち標準化は避けられない。保存を成功させるには、大勢の人間を同じ方向に動かさないといけない。それはまさに政治運動なわけだが、私がひとまず運動家とよんだ人々はなぜかそこを避けている。不思議に思っていろいろ理由を考えてみた。遅れた人々を啓蒙する進歩的な自分に酔っているだけで、泥臭い仕事を嫌っているのかと最初は思った。しかし、どうもそれだけではない気がする。そもそも話者のほとんどいない言語を子供に継承させるのは、経済的に非合理的な選択。非合理的選択をさせるためには非合理的な何かが必要で、それはナショナリズムにとてもよく似たもの。ところが保存運動 (のイデオロギー) にはまるような「進歩的」な人はナショナリズムは悪というドグマに縛られていて、自己矛盾を抱え込んでいるのではないか。「言語多様性」は苦し紛れに作られた概念だろう。この概念を危機言語話者に向けるのは冷静に考えるとひどい。たまたま辺鄙なところに生まれてしまったら、全体への奉仕を強要されるということを意味するのだから。

言語研究からは相当離れてしまったことだし、今回はこのあたりで打ち切る。頭が整理されたまた続きを書くかも。

*1:とりあえず運動家とよぶことにしたが、あまり適切でない気もしている。というのも、彼らが本当に言語を保存したがっているとはとても思えない。保存について議論すること自体が目的化しているように見える。

*2:私がやっているのは言語現象統計モデル化。言語の記述などにはまったく手を出していないし、そうした研究者との接点もほとんどない。

*3:またブログ記事を書くのに3ヶ月もかかってしまった。

*4:ちなみに、第2版は UNESCO/Japan Trust Fund for the Preservation of the Intangible Cultural Heritage の資金提供で作成されたとのこと。

*5:SIL はキリスト教布教という不純な目的を持った団体なので、この体制はいかがなものかと思っている。

*6:より古い「流求」についてはここでは考えない。

*7:英語だと意味的に Austronesian とかぶるので、訳さずにそのまま Nantō を採用すればよい。

2016-11-03

Hmong-Mien Langage History

Martha Ratliff. (2010). Hmong-Mien Language History.

なぜか一般受けした駄文を一時の気の迷いで書いてしまったが、平常運転に戻る。本の紹介。それも、アフィれない程度に入手困難な本。

モン・ミエン語族に関する本。現代語の紹介とかぬるい話は抜きにして、ひたすら Proto-Hmong-Mien を再構。現時点で最新に近いと思われる。*1

話の前提として、上古音 (Old Chinese) 再構問題がある。最近の定番は Baxter and Sagart. (2014). Old Chinese: A New Reconstruction (再構結果はウェブで公開されている)。*2 この本にあるように、Old Chinese が類型論的にクメール語のような構造を持っていたことはほぼ確実。すなわち

  • 声調はなかった。中古音の平声 (A) は *-∅;、上声 (B) は *-ʔ、去声 (C) は *-h (< *-s)、入声 (D) は -p, -t, -k に由来する。
  • 音節とは限らない。例えば、「壯」が *k.dzraŋ で、「脰」が *kə.dˤok-s。具体的には tightly attached preinitial consonants と loosely attached presyllables の 2 種類が想定されている。完全な音節の前に、単純な構造の弱い音節 (あるいはそのようなもの) が先行する。クメール語説明では sesquisyllabic という用語を見るが、Baxter and Sagart (2014) はこの用語を使わない。こうした語はおそらく元は 2 音節語にさかのぼる。
  • 派生接辞を盛んに用いる。接尾辞 *-s で動詞から名詞を派生させたり、接頭辞 *N- で他動詞から状態の自動詞を派生させたり。

こうした特徴は典型的にはクメール語に見られる。同じオーストロアジア語族のなかでは、ベトナム語は声調言語で単音節孤立語。でも、オーストロアジア祖語にまでさかのぼらなくても、Vietic の親戚に sesquisyllabic で派生形態素を持つ非声調言語が見つかる。Kra-Dai は Proto-Tai の時点で sesquisyllabic だったらしい。派生接辞の話は聞かないけど。

では、大陸部東南アジア (MSEA) 言語連合*3のなかで、残る Hmong-Mien はどうか。Ratliff (2010) によると、上述の Old Chinese の特徴は Proto-Hmong-Mien にもあてはまる。声調はなかった。Ratliff (2010) は disyllabism と言っているが、Baxter and Sagart (2010) が Old Chinese について言っているのと同様に、tight *NC- と loose *N-C- の 2 種類が存在した。派生接辞はというと、漢語の場合と同じような doublet が存在するので、接辞の痕跡を見ているっぽい。

面白い議論が 2 つ。一つは声調発生 (tonogenesis) の時期 (Chapter 3)。鍵となるのは漢語からの借用語。Hmong-Mien に見られる漢語からの借用語には、両者の間で tone category が一致するものがある。一次的な ABCD の分化だけでなく、語頭の有声無声の対立が高低に転化したと推測される二次的分化 (A1, A2, B1, B2, ...) も対応する。借用元 (漢語) と借用先 (Hmong-Mien) はどの段階だったか。tonal か atonal かで 2x2=4 通りの組み合わせが候補に挙がる。Ratliff (2010) は他の言語間の借用事例を見ながら、その一つ一つ検討する。その結果、声調が規則的に対応し得るのは双方が atonal な場合だけだと主張する。なお、従来の説では、声調のシステムそのものが漢語から Hmong-Mien に借用されたと考えられていたとのこと。Ratliff (2010) に従うと、そうした借用は Old Chinese の時期に発生し、その後、tonogenesis が並行的に起きたことになる。それはそれで不思議な話。

ここからは私の妄想。超大雑把に言って、MSEA 型の tonogenesis は

disyllabic (atonal) -> sesquisyllabic (atonal) -> monosyllabic (tonal)

という過程をたどったことになる。狭義の tonogenesis は最終段階にすぎない。その前段階として、少なくとも sesquisyllabic になっていることが、狭義の tonogenesis の条件 (precursor) となる。sesquisyllabic というのも変わった特徴であって、MSEA の地域的特徴と言える。漢語Kra-Dai の大半、Vietic のいくつは、Hmong-Mien は MSEA の核だけど、その周辺に、クメール語や、別の過程を経て tonal になった sesquisyllabic なビルマ語が存在する。オーストロネシア語族はその外側に位置する。Austronesia と Kra-Dai を兄弟とする仮説はおそらく正しいと私は思うし、そうでなかった場合も、両者の接触があった可能性は高い。広義の tonogenesis は Proto-Austronesian が離れてから発生したということになるか。そして日本語はさらにその外側にいる。稲作とか、文化的には関係があってもおかしくなさそうなのに、言語的にも遺伝的にもまったく無関係っぽいのが不思議なところ。

もう一つ面白いのは numeral classifier に関する議論。Hmong-Mien は numeral classifier を義務的に使うらしい。しかし、Ratliff (2010) は、助数詞のシステム自体を漢語から借用したと推測する。それどころか、Old Chinese においても商周時代の助数詞の使用は限定的であり、この地域における classifier の発達は同時期に起きたかもしれないと推測する。Hmong-Mien には numerical classifier と機能的にかぶるところが多い classifying prefix というのがある。接頭辞の起源が古いことを考えると、後者の方が古いはず。文法化という面では、noun => classifier と class noun => prefix は起きているが、class noun => classifier が起きていないとか。あと、Aikhenvald (2000) を引いて classifier system は通言語的に借用しやすいと言っている。ここはよくわからない。助数詞を使うシステムが既にある言語が新たな助数詞を借りるのが容易という話なのか、システム自体も容易に借りられるという話なのか。

Nichols (1994) は助数詞、声調、二人称代名詞 m- を人類による Pacific colonization の第3層だと主張していた。代名詞は置いておくとして、最初の2つは、こうして仔細に見ていくと、時間的にさほどさかのぼらない可能性が高い。しかも、系統的 (縦の) 関係ではなく、空間的 (横の) 関係を反映しているようである。

それにしても、横の関係は現象として謎すぎる。何とかして機序を解明したいところ。

2016年11月5日追記: 流音について、松本 (2006) は、lateral l と rhotic r の複式、いずれかだけの単式、いずれも持たない欠如型という類型を設定し、日本語を含む「太平洋沿岸言語圏」は単式流音によって特徴づけられるとぶちあげている。松本 (2006) は、ミャオ・ヤオ諸語の 8 サンプルをすべて単式に分類するのみで説明を付していない。これに対して、Ratliff (2010) は、Proto-Hmong-Mien に *l- と *r- の 2 種類を再構している。ただし、異説が少なくない様子。West Hmongic の [l] と [ɭ] の対立を Proto-Hmong-Mien にさかのぼらせる説や、*r- をまったく再構しない説などもあるらしい。Ratliff (2010) は West Hmongic の [ɭ] は *lj- に由来すると見ている。

漢語については、松本 (2006) は複式から単式に変化したとし*4、「この言語に純粋に内部的な要因だけで説明するのは無理であろう」(p.335) と述べて接触的変化を想定する。ただし、Bodman (1980) を引いて、「ある種の環境 (たとえば語末) では、l と r の区別が漢の時代まで保たれていたらしい」と言う。Baxter and Sagart (2014) は当然複式を採用している。Old Chinese の *r が Middle Chinese で retroflexion を引き起こしたというのが、中古音を説明する鍵になっている (例えば「住」 *dro(ʔ)-s > drjuH -> zhù)。Middle Chinese の l- は Old Chinese の *r(ˤ)- に由来する (例えば、「犂」 *C.r[ə][j] > lij > lí)。証拠はいろいろあるが、例えば Proto-Min で *z- に対応すること。*r > l は、先行して *l が消滅した穴を埋めたもの。Old Chinese からは *l- > y-, *lˤ > d-, *lˤr- > dr- と変化したという (例えば、「夷」*ləj > yij > yí、「田」*lˤiŋ > den > tián)。*lˤ > d の最初の証拠は紀元後1世紀だというから、*r > *l はさらに下ることになる。あと *l-, *r- に対応する無声の系列の *l̥-, *r̥- も再構していて、Middle Chinese の th- に対応するという (例えば、「湯」*l̥ˤaŋ > thang > tāng)。

松本 (2006) を読むと、素朴な印象として、流音の類型は安定的という割には例外を頑張って説明し過ぎではないかと思う。漢語に対する説明もひっかかる。チベット・ビルマ系の言語が「言語接触、それもクレオール化と呼ばれるような言語混合を伴った激しい接触的変化」(p.335) を受けて漢語が成立したというには、流音まわりの変化の時期が新しすぎる。仮に激しい言語接触があったとして (これ自体はおそらく正しい)、Old Chinese は接触後の言語ではないか。もし Proto-Sino-Tibetan では複式だけど Old Chinese までに単式に変化したというなら納得できる。実際には Old Chinese は複式。その後単式に移行した原因を接触に求めるのは妥当なのか?

*1:この記事を書いている最中に新しい論文を見つけた。Weera Ostapirat. (2016). Issues in the Reconstruction and Affiliation of Proto-Miao-Yao.

*2漢語音韻学業界はジャーゴンに満ち溢れていて近寄りがたいことが多いが、Baxter and Sagart (2014) は普通の用語を使っていてわかりやすい。

*3:Ratliff (2010) は Matisoff に従って Sinosphere と言うが、Sinocentrism の香りが微妙。

*4英語の Korea は、l ではなく r だから日本語に由来するという私の議論は、松本 (2006) の議論の応用。

2016-04-24

Comparative phylogenetic analyses uncover the ancient roots of Indo-European folktales

Sara Graça da Silva and Jamshid J. Tehrani. 2016. Comparative phylogenetic analyses uncover the ancient roots of Indo-European folktales. Royal Society Open Science.

各民族がある民話類型を持っているか否かをバイナリコーディングしたデータベースがあり、さらに印欧語族の年代付き系統樹がある。民話が系統樹に沿って継承されたと仮定し、祖語の状態を推定する。最初は 275 種類あった民話はフィルタリングされてどんどん減っていくが、残った一つ、ATU 330 'The Smith and the Devil' は印欧祖語が有していた可能性が高いと主張する。しかしこの主張は怪しいと思う。そのあたりをメモ。

最近締め切りにばかり追われていて、締め切りのない話は永遠に後回しになりそうなことにふと気づいた。この論文も公開されたのは 1 月で、その時雑記に書こうと思っていたのに、もう 4 月である。*1このままでは今までに身につけた資産を食い潰すばかりでジリ貧。そこで、休日は締め切りのことは忘れて新しいことをやると決めた。ということで、この雑記を見かけても、どうか締め切りの催促は控えてほしい。

本題。分子生物学由来の統計モデルは、言語に限らず文化的特徴にも適用されている。第2著者の Tehrani はその研究者トルクメン刺繍の類型の伝承みたいな渋い研究をやっている。

文化的特徴となると、言語以上に水平伝播が問題になる。この分野では、系統的な縦の継承を phylogenesis、横の伝播を ethnogenesis と呼んでいるらしい。今回の研究は、phylogenesis が従来考えられてきたよりも強いという主張になっている。

まず素朴な感想として、人類学系の人たちは自分で系統樹を作る気がないというのが新鮮。系統樹はよそで作られたのを借りてくるものらしい。言語研究者としては、系統樹こそが推定したいものなんだけど。*2

系統樹を所与とすると、観測されたデータが系統樹に沿って継承されたかをテストできる。具体的な方法として、D という指標を見たり、Towner らの autologistic analysis をやって、基準に満たない民話をどんどん取り除いていく。これらの方法はこの論文で知った。機会があれば詳しく見るかも。D は系統樹上でのテスト。Towner らの手法は、観測データの分布を (1) 空間グラフと (2) 言語グラフの組み合わせとしてモデル化し、それぞれの要素の重みを推定する。空間グラフは、言語に紐付いた地理位置を見て、適当な距離内にある言語ペアに辺を引いて作ったグラフ。言語グラフは、語族、語派といった言語系統上のクラスタ二次元グラフで置き換えたもの。言語研究者からすると、系統樹を潰してしまうなんて、ありえない乱暴な処置。さすが人類学者。

これらの手続きにより、275 種類の民話から 76 種類が選抜される。この時点で怪しいと思うが、後回しにする。生き残りに対して、いよいよ系統樹上の状態を推定する。系統樹Bouckaert et al. 2012 が基礎語彙をもとに作ったもの。変化のモデルは普通の連続時間マルコフ過程。0 が死んでいる状態、1 が生きている状態。変化の速度を制御する遷移行列を Q = \begin{pmatrix} -\alpha & \alpha \\ \beta & -\beta \end{pmatrix} とすると、ある時点で状態 i \in \{0,1\}のとき、時間t後の状態jの確率は P(x=j|\pi(x)=i,t)=\exp (tQ)_{i,j} で表される。系統樹と葉の状態は観測されているので、推定するのは内部ノードの状態と遷移行列のパラメータ。結論として、印欧祖語が有していた確率が 50% 以上の物語として、328330402554 の 4 種類が残る。閾値を 70% に引き上げると 330 番だけが残り、これは別のテストも通過する。330 番は、都合の良いことに、鍛冶、つまり鉄器にまつわる民話。おかげで、著者らはクルガン仮説に関する楽しい妄想を語っている。

数式が出てきまくる統計の話だからといって、びっくりするような魔法があるわけではない。人手でも大雑把には推測できる。系統樹があって、葉ノードは黒 (生) または白 (死) で塗りつぶされている。内部ノードはまだ色が塗られていない。子供を見て、だいたい黒で塗ってあったら自分も黒だろうし、白なら白。拮抗しているなら半分黒、残りを白で塗りつぶす。そんな感じの操作を繰り返して根までさかのぼったとき、黒の割合がどの程度か。

結局、印欧祖語の状態推定に効いているのは、早期に分岐した (ことになっている) ギリシア語っぽい。民話 330 番の場合、ヨーロッパ系言語は 3 言語を除いてすべて保有しているが、残りは Hindi, Romani, Greek しか保有していない。Romani (ジプシー) はヨーロッパ側と考えると、インドイラン系ではヒンディー語しか残らない。こんな状態で、本当に印欧祖語が有していたと言えるのか。クルガン仮説について妄想を語って許されるのか。

330 番よりも、最後に脱落した 554 番の方が印欧祖語話者に由来する可能性が高そうに見える。実際、Table S5 を見ると、印欧祖語 (PIE) の保有確率は 330 番が 0.54 に対して、554 番は 0.61。554 番はインド系 (Hindi, Urdu, Romani)、イラン系 (Iranian, Tadzik, Kurdish, Ossetic)、Greek、Armenian が持っている。330 との違いは、ヨーロッパ系の歯抜けが 8 言語と少し多いこと。おそらくこの影響で、ヨーロッパ祖語の保有確率が低く推定され、同時に遷移行列のパラメータが大きく (変化しやすいように) 推定され、印欧祖語の保有仮説が Bayes factor が弱くなったのだろう。近現代社会において目当ての民話が採取できたかはかなり偶発的な要因に左右されていそうだが、今回の推定はその偶発的要因の影響を強く受けているっぽい。専門家の意見を聞きたいところ。

さらに言えば、autologistic analysis が怪しい。ギリシア語が、印欧語族中で早期に分岐した (ことになっている) ために、印欧祖語の状態推定に強い影響力を持つことは既に言ったが、それだけでなく、ギリシア語自体が他の言語に対して水平の強い影響力を持っていたことは明らか。ヨーロッパはもちろん、インドイラン系についても、バクトリアインド・グリーク朝の影響が考えられる。言語は対等ではなく、影響力の強いものと弱いものがある。しかし、autologistic analysis では言語は対等で、影響力の区別はない。autologistic analysis が提案されたときの適用先は Western North American Indian で、多数の小集団が共存する地域だったから、このモデルでも大きな問題はなかったのだろう。しかし印欧系はそうはいかない。方言周圏論もそうだが、水平伝播を考えるなら、影響力の大小をモデルに組み込む必要があるだろう。その数値データをどこから持ってくるかが難しいのだけど。

*1:しかし、なぜか 4 月 22 日付けで Science の記事が出ている。今月になって Mark Pagel が Current Biology に follow-up を書いたから認知されたらしい。

*2:ただ、最近は別のやり方も考えている。言語データは DNA とくらべて貧弱すぎて系統推定にも限界がある。DNA系統樹 (というか有向非循環グラフ (DAG) ) を作っておいて、DAG 上を言語が伝播するような推定をやっても良い気がする。

2015-11-13

Creoles are typologically distinct from non-creoles

クレオール類型論的性格について、非クレオールから弁別的*1だと主張する一連の論文群。表題に採用したのは 2011 年のジャーナル論文

翌 2012 年の EACL の workshop*2で発表された論文の方が論点が整理されている。

著者の 1 人が 2014 年に発表した 2 編の guest column によって、何だか論争になっているらしいことと、著者が従来の立場を維持していることがわかる。

別の著者が 2013 年に出した論文もあるが、所属機関からは無料で閲覧できなかった。abstract、supplemental content と上記の guest column に引用された部分しか見ていない。

彼らの基本方針データベースを用いた定量的分析。これ自体は良い。しかし、具体的に採用している手法が変。そこでまず彼らの手法を見て、それから別の手法を考えてみる。

解きたい問題

知りたいのはクレオール類型論的特徴がどこから来たか。2012 年の論文によると、4 通りの立場が考えられる:

  • superstrate (lexifier)
  • substrate(s)
  • feature pool (only superstrate and substrates)
  • restructuring universals

最初の 2 つは、それぞれ superstrate = 上層言語 (lexifier = 語彙提供言語)、substrate = 基層言語に由来するという立場。これはない。そもそもクレオールが興味深いのは、語彙の大半が lexifier (superstate) に由来するのに、文法的には lexifier とは大きく異なること。さらに言えば、substrate とも異なる。そもそも superstrate や substrate と大差ないのであれば、クレオールという区分自体が不要だったはず。

feature pool は superstrate と substrate の特徴量が pool されていて、そこから適当に値を選択していくという説明。この説を否定するには、いずれにも存在しない特徴量の値がクレオールにあればよい。そして、実際にあるらしい。

最後の restructuring universal は、クレオールの形成過程を retension (lexifier, substrates), loss (pidginization), reconstruction (grammaticalization, creolization) からなると考える。ピジン化の過程で失われた特徴をクレオール化の過程で作り直すのだが、ここに何らかの普遍性が存在すると考える。著者らはこの立場。私もたぶんそうだろうと思っている。

著者らの主張で飛躍だと思うのは、表題にも採用した creoles are typologically distinct from non-creoles というもの。単に restructuring universals の示しただけでは、この主張の裏付けにはならない。restructuring の結果、lexifier とも substrate とも異なる特徴を獲得したとしても、それが非クレオールの中でもありふれたものである可能性が排除できていない。

NeighborNet

著者らは一貫して分析手法として NeighborNet を使う。いわく、tree ではなく、network だからクレオールの分析に適していると。たしかに NeighborNet は、tree としては conflict を起こす部分を網状に可視化する。しかし bottom-up clustering であり、基本的には木を作ろうとしている。superstratist と substratist は木に基づくとみなせる。だから、NeighborNet の結果が彼らにとって不都合であることを示せば良い。でも、feature pool と universalist はそもそも木に基づかない。NeighborNet を作ったところで、何の意味があるのかわからない。

とりあえず結果を見ていく。まずは superstratist の検証から。クレオール群と lexifier 群を入力として NeighborNet を作る。その結果、クレオールクレオール同士で、lexifier は lexifier 同士で別々にクラスタが形成された。superstratist の立場からすると、クレオールは対応する lexifier とクラスタを形成するはず。よって supserstratist は支持されない。

同様にして、substratist の検証は、クレオール群と substrate 群による NeighborNet で検証される。するとやはりクレオールと substrate が別々にまとまり、両者が分離できる。ただし、クレオールと非クレオール境界に近い言語が存在する。おそらく、文法的側面では substrate がクレオール形成に与えた影響は superstrate よりも強いのだろう。

feature pool の検証は、lexifier, substrate、クレオールの 3 種類を入れた NeighborNet による。すると lexifier と substrate がクラスタを形成し、クレオールと対立した。しかしこの方法は直接的ではない。feature pool 説に従うなら、クレオールは対応する lexifier と substrate の間に位置しなければならない。これを検証するなら、それらの 3+ 言語だけを比較すれば良い。複数のクレオールを分析に突っ込み、クレオール同士でクラスタを作った結果、クラスタの重心が、lexifier と substrate の中間から離れていったため、結果として lexifier と substrate がクラスタを作ったというシナリオも考えられる。

universalist の検証には、さらに lexifier でも substrate でもない言語を追加している。その結果、やはりクレオールだけでクラスタができた。著者らは、この結果をもって、クレオールが非クレオールから弁別的であると主張する。この論理展開が謎。restructuring universals が支持されるかを検証するはずだったのに、いつのまにか creole distinctiveness の議論にすり替わっている。それに、わずか 52 言語のネットワークでは、世界の言語類型を網羅していないのではないかという疑いが拭えない。

分類器

restructuring universals については一旦忘れて、先に弁別性の問題を片付ける。クレオールは非クレオールから弁別的か。この問題に直接取り組むには、2 値分類器を作れば良い。各言語の特徴量列を入力とし、クレオールなら 1、非クレオールなら -1 を返すような分類器。もし高精度な分類器が作れたなら、弁別性は支持される。もし失敗した場合は、2通りの解釈が考えられる。(1) 分類器の作り方が悪かった。(2) クレオールと非クレオールは弁別的ではない。

普通に言語処理をやっていたら分類器を作ることを思いつくはず。著者らが何年もの間ひたすら NeighborNet に固執しているのが謎。一から十までソフトウェア化されているモデルしか使わない方針なんだろうか。生物系の研究を見ると、この分野には分業体制があるみたい。ごく一部の頭の良い人達がモデルを作ってソフトウェア化し、残りの人はそのソフトウェアを使ってデータ作成と分析だけをやっている。統計的な言語研究もそんな感じになるのだろうか。

話が脱線したが、言うだけでな何なので実際にやってみた。使用データは Atlas of Pidgin and Creole Language Structures (APiCS)World Atlas of Language Structures (WALS)

APiCS の特徴量の一部には WALS への mapping が記述してある。その 47 種類の特徴量を使う。言語数は 77。ピジンを含む contact language を広く収録している。この点は問題かもしれない。しかし、APiCS はピジンとかクレオールといった分類を明示的に付与していない。とりあえず全部使う。

WALS 側では Pidgins and Creoles に分類されている言語を除外する。さらに欠損値の比較的少ないもの 541 言語を残す。APiCS と WALS のデータを結合し、欠損値は multiple correspondence analysis (MCA) で適当に補完。

分類器は線形 SVMsklearn.svm.LinearSVC を使ったので、内部的に LIBLINEAR を呼んでいるはず。パラメータは適当に grid search。5 分割交差確認で精度を測定。

結果。accuracy は全部非クレオール (NC) に分類すると 87.5% なのに対して、SVM は 94.2%。クレオールに着目すると、再現率 79.7%、適合率 71.4%、F1 が 75.3%。混同行列を示す。

混同行列
sys
NC C
ref NC 527 14
C 22 55

そういう訳で結構分類を間違えている。ここから先、カーネルトリックを使って非線形分類を頑張っても良いが、解釈が難しくなりそう。線形分離できないことをもって弁別的でないと結論づけても良さそうに思う。

2015 年 11 月 18 日追記: APiCS のピジンを除去して再実験してみた。ピジン排除の基準は、sociolinguistic feature ""Ongoing creolization of pidgins"" の値が "Not applicable (because the language is not a pidgin)" あるいは "Widespread" ではないもの。これで 13 言語が除去された。

混同行列 (ピジン除去版)
sys
NC C
ref NC 534 7
C 10 54

ということで、精度 97.2%、再現率 88.5%、適合率 84.4%、F1 86.4% と少し分類精度が上がった。しかしあいかわらず間違いは残っている。

PCA

SVM の失敗事例を分析してもよいのだが、別の方法を試す。高次元データの性質を知りたいなら、とりあえず主成分分析 (PCA) してみれば良い。

PCA の結果を示す。まずは PC1-2。赤がクレオール (APiCS)、緑が非クレオール (WALS)。

f:id:murawaki:20151109174745p:image

PC2-3。

f:id:murawaki:20151109174746p:image

クレオールは世界の言語の中で偏った一群であることは確か。しかし、非クレオールとは分離されておらず、分布が重なっている。

点が多すぎて密集具合がわかりにくいのでカーネル密度推定を使って連続分布に変換してみる。

PC1-2 の非クレオールの分布。

f:id:murawaki:20151112153430p:image

PC1-2 のクレオールの分布。

f:id:murawaki:20151112153429p:image

PC2-3 の非クレオールの分布。

f:id:murawaki:20151112153432p:image

PC2-3 のクレオールの分布。

f:id:murawaki:20151112153431p:image

クレオールと非クレオールは異なる分布を持つが、両者が重なっていないとはとても言えない。

ラベルを見ると、PC1-2 においてクレオールの中心から外れている言語はピジンが目立つ。でも、Sri Lankan Malay、Korlai、Kikongo-Kituba、Lingala、Mixed Ma’a/Mbugu などは 309 Proportion of native speakers によるとそれなりに母語話者がいてクレオール化されている。

結論と今後の課題

結論としては、クレオールは非クレオールから弁別的とまでは言えない。条件をいろいろ変化させて、もう少し真面目に調べれば、ちょっとした成果にはなりそう。

今後だが、やはり一度脇においていた restructuring universals が気になる。restructuring universals について著者らは何も示せていない。feature pool のモデルと、さらに restructuring universals を考慮するモデルを作って、後者の方がクレオールのデータをより自然に説明できると実験的に示せば良い。しかし、著者らは他人が作ったソフトウェアに頼りっきりなので、手が出せないのだろう。データが充実しつつあるのに、分析できる人がまだいないのは狙い目。

Bakker の guest column を読むと、台湾の Yilan Creole Japanese (宜蘭クレオール) がクレオールでありながら、クレオールの典型から外れていて面白そう。私がこの言語を知ったのは 2008 年 8 月、以下の報告から。

簡単な報告で、語彙の分析が少しあるだけ。

今調べてみると別の報告が出ている。

  • 真田 信治 and 簡 月真. 宜蘭クレオール. 国語研プロジェクトレビュー. 3 (1). 2012.

クレオールは一般に SVO 語順を持つと言われるが、宜蘭クレオールは日本語のような SOV が基本とのこと。格標示の後置詞が使われるのも非典型的。

いまのところ宜蘭クレオールは APiCS には収録されていない。もっと本格的な報告が出たら登録できるかもしれない。

2016年11月12日追記: この記事の最後の方でうだうだ言っていた話もひっくるめて論文にした:

Yugo Murawaki. (2016). Statistical Modeling of Creole Genesis. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2016), pp. 1329-1339.

*1:distinctive をどう訳すか困る。ここでの意味は専門用語的ではないのだけど。

*2:workshop ということで格は落ちる。でも、こんな風に言語処理業界で発表してもらえると、私も研究しやすくなる。

2015-09-29

Explaining the Linguistic Diversity of Sahul Using Population Models

Ger Reesink, Ruth Singer, Michael Dunn. Explaining the Linguistic Diversity of Sahul Using Population Models. PLoS Biology. 2009.

せっかく STRUCTURE と ADMIXTURE の混合分布モデルを見たので、言語への応用例にも触れてみる。サフル (オーストラリアニューギニアに相当) の言語 121 個の類型論データに STRUCTURE を適用し、各言語を潜在クラスの混合として扱う。得られた潜在クラスと各言語の混合比を既存の言語学の知見と比較する。

やっていることは結果の図を見れば一目瞭然。pie chart が各言語で、色分けは潜在クラスに対応している。ここではクラス数 K=10。

生物のように両親から 1 個ずつ、計 2 個のコピーを引き継ぐ (diploid) ということはないので、A = 1。ますます LDA っぽい。

著者のグループは Dunn et al. (Science, 2005) 以来、パプア諸語の系統問題に取り組んでいる。問題は、系統関係不明の大量の言語をどう解釈するか。長期にわたり接触が続いたと見られることから木のモデルは不適当だと著者らは主張する。そこで代わりに混合分布モデルが出てくる。しかし、「そこに山があるから」ではないが、そこにツールがあるからやってみた感はある。時間的変化を考えないモデルなので、得られるのは時間を超越した仮想的クラスタ

系統不明の言語が集まっているという点で、極東はニューギニア周辺に似ていないこともない。日本語は混成言語だと主張している人は、試しに日本周辺の言語にこの手法適用してみたら良いのではないか。私は混成言語説は支持しないけど。

ここで考えたいのは、広い意味での接触をどうモデル化するか。系統樹の話をすると、「クレーオルとかどうするんですか」という質問が出て FAQ 化しつつあるが、決定打がまだ出ない。木を使うのは計算上の都合。木はひたすら分岐していくだけで、接触や合流を扱わない。一般のネットワークは自由度が高すぎて扱いにくい。Nelson-Sathi et al. (2011) のように、先に木を用意してから、辺を追加するという tricky な手法もあるけど。

その点、混合分布モデルは現実的な解法ではある。系統推定に言語連合を組み込む話も、結局は系統樹と言語連合という 2 種類の混合だった。このモデルでは、言語連合は時間を超越している。接触を通じて徐々に特徴を獲得するという話にはなっていない。

引っかかるのは、例によって特徴量の独立性。最初に、各言語の混合比を draw したあとは、各言語の特徴量の所属クラスは条件付き独立。この特徴量とこの特徴量は連動するという話は扱えない。直感的には、あちこちの言語群からランダムに特徴を借りてくるとは考えにくい。接触時にはこういう変化が起きやすいという一般的な傾向を捉えるようなモデルにしたい。

一応、STRUCTURE には特徴量間の依存関係を扱うための拡張が入っていた。隠れマルコフモデルによって、隣と同じクラスになりやすいという性質を扱っていた。しかし、言語類型論の特徴量は、便宜的に列で表現しているが、実際には集合。順番に意味はないので、マルコフモデルでは表せない。やはり、表層特徴量をそのまま扱うのではなく、依存関係を捉えるような深層構造に写像するという私の現状の方針が良さそう。