Hatena::Grouprekken

murawaki の雑記

2017-05-05

「語」とはなにか・再考

宮岡 伯人. 2015. 「語」とはなにか・再考: 日本語文法と「文字の陥穽」.

書名からは想像もつかないほど実用的な本。目下解決すべき問題へのたたき台となっているという点で。問題となっているのは Universal Dependencies for Japanese (日本語 UD)。そもそもの Universal Dependencies は、通言語的に一貫した (universal) 係り受け (dependency) のデータを作るプロジェクト。日本語 UD はその日本語版。UD では、できるかぎり特定の言語に依存しない共通方針やタグセットを用意しておき、そこに収まらないものだけは各言語で対処する。その方針自体は良い。*1 問題は日本語 UD が根本的なところで共通方針に従っていないこと。その結果、普遍的でも何でもない代物になってしまっている。

具体的な問題は、語 (word) の認定基準がおかしいこと。ここでいう語は係り受けの単位。日本語 UD は BCCWJ (現代日本語書き言葉均衡コーパス) 由来の「短単位」(short unit word, SUW) を語とみなしている。しかし、短単位は通言語的にみて語ではないものを含んでいる。UD方針にあわせるには、まずいわゆる付属語 (助詞、助動詞) を接語 (clitic) と接辞 (affix) にわけなければならない。接語は単独で語をなすが、接辞はそうではない。接辞は自立語にくっつける必要がある。その塊こそが語であり、係り受けの単位である。

このように日本語 UD の認定基準を修正したとすると、次に問題となるのは、具体的にどのように接語と接辞を区分するか。作業量的にも難易度的にも言語処理研究者が片手間に行える範囲をこえている。そういうわけで次の一歩が踏み出せずに逡巡していた。そんなときに宮岡 (2015) が答えを提供していることに気づいてしまった、というお話。

UD の重要性

日本語 UD の問題は放置しておくとまずそうだと思っている。ただし、短期的にはさほど重要ではない。実際、現在のところ、私は UD に関わっていない。UD 日本語をやっているのは知り合いだけど。とりあえず日本語処理の研究をする分には、いまの研究室がこれまで整備してきた資源で足りている。

短期的には、UD が整備されてできるようになるのは、教師なし文法獲得と類型論的興味からの多言語処理。例えば、ある言語と別の言語の構文構造がどのくらい似ているかという疑問に答えたい。普通は類型論の研究者が人手で作った特徴量を用いるところだが、データ駆動で定量化したい。実は2011年くらいから研究があり、各言語の構文解析のパラメータを同一空間上で表現して比較する。通常の構文解析パラメータは言語ごとにばらばらで比較できない。この研究では、言語間で共通の品詞体系を用意することで、言語間の比較を実現していた。しかし、結果が直感に反している。日本語がヨーロッパ言語と離れているのはわかるが、トルコ語とも離れすぎ。しかし、これが本当に言語的な違いに由来するのか、もしくはアノテーション基準の違いに由来するのかわからなかった。

ちなみに世の中一般的な UD への需要は別にある。言語ごとに解析器を一から作っていては効率が悪い。モデルは共通のものを1個だけ作って、あとは各言語のデータを流し込んで機械学習すれば構文解析器が完成するという状態になってほしい。そのための仕様の共通化。*2 とにかく動けば良いという立場の人は通言語的一貫性をあまり気にしないかもしれない。私の興味からすると、そこをちゃんと詰めることこそが重要。

長期的には、日本語処理の将来性の問題にかかわる。もしこの先 UD が世界的に標準的地位を確立したら (その可能性はそれなりにある)、それ以外の資源の地位は危うい。シェア争いには勝たねばならない。そもそも現在の日本語処理の資源は日本の外から使いにくい状態にある。データの入手が困難だし、日本語独自のオレオレ仕様だし、仕様書も日本語で書いてあって読める人が限られる。*3 日本語処理を存続させるためには、国外からも研究できる状態を整備する必要がある。私自身、いつまで日本で研究を続けられるかわからないし。

語の認定

本題。UD方針Tokenization and Word Segmentation に書かれている。それによると、係り受けの単位は syntactic words (not phonological or orthographic words)。orthographic word は分かち書きの話なので日本語とは無関係。phonological word はアクセントやイントネーション上のまとまり。語よりも大きく、文節と一致することもあるが、そうでない場合もある。現象として複雑で、私もちゃんと把握していない。宮岡 (2015) も詳細には立ち入らない。

syntactic words を単位とするという UD方針が堅持されるとひとまず仮定する。トルコ語 UDinflectional group という独自の単位規模を縮小しつつも維持されていることを考えると、修正が入る可能性はある。*4

この方針では接語は語の仲間であり、係り受けの単位となる。接辞は語をなさない。

短単位は語ではない

ところが、日本語 UD は短単位 (SUW) を単位として採用してしまっている。短単位の認定基準の複雑さは尋常ではないが、大雑把に言えば形態素。つまり接辞を含んでいる。

どうしてこんなことになってしまったのか。日本語 UD 関係者は UD 以前から「単語」単位の係り受けに取り組んできたので、その延長なのだろう。ここでいう「単語」は超短単位といって、短単位をもとにし、さらに用言の語尾を切り出したもの。もちろん語ではない。

上記論文の著者にかぎらず、日本語 UD 関係者の間では、文節は日本語独自の単位であり、世界では通用しないという思い込みが広く共有されているように見える。しかし、トルコ語やフィン語の orthographic word は文節によく似た単位であり、文節はさほど奇異なものではない。むしろ、接辞に係り受けをつける方針の方が異常で、他の言語の例を知らない。形態論の範囲の現象を統語的に扱うのは、単に気持ち悪いだけでなく、UD が想定していないので、品詞・素性の通言語的一貫性も損なわれる。日本語処理を英語や中国語と同じようにしたかったのだろうが、英語も中国語も類型論的に非典型的な言語であり、そんなものを見ていても通言語的な標準は確立できない。

ある日本語 UD 関係者は、統計的機械翻訳に取り組んでいて、文節の不便さを痛感したとのこと。日英や日中のアラインメントを高精度に行うには、両言語を意味的にほぼ同じ粒度で区切り、その単位で構文木を作りたい。それは理解できる。しかし、日英や日中がよくても、日本語・トルコ語や、日本語・フィン語の対応づけに困ることからわかるように、本質的な解決にはなっていない。トルコ語やフィン語を含む UD共通方針そのものの変更を試みるか、あるいは UD から離れて応用依存の構文木の作成に舵を切ってもらうしかない。

また、英語や中国語の場合のように、係り受け解析は形態素解析 (「単語」分割、品詞タグ付け) の結果を直接使うべきもので、間にチャンキングを挟むべきではないという思い込みも見られる。しかし、UD方針に従うなら、形態素解析のあとに、接辞を自立語にくっつける (チャンキング) 必要が生じる。現存する言語としては世界で唯一の異常な書記体系を日本語が採用している以上、どこかで日本語独自の処理を行ってそのゆがみを吸収するのはやむを得ない。他の分かち書きしない言語は孤立語的であり、形態論の役割はないに等しい。*5 他の言語では、文節に近い orthographic word が与えられており、その内部構造を考える必要はあっても、語への分割に悩まされることは基本的にない。日本語の場合は正書法的に語が与えられていないし、それをいきなり認定するのは難しい。辞書と文法を用いて解析する以上、生産性の高い現象があれば、まずは要素に分解するのが得策。それが形態素解析。その後に形態素をチャンキングして語を特定することになる。

語認定問題の先行研究

実のところ、宮岡 (2015) は語認定問題に関してまったく新しい提案をしているわけではない。先行研究が存在する。

まず、日本語 UD の問題は Thoughts on the Universal Dependencies proposal for Japanese (2016) で既に指摘されている。問題はこの記事で言い尽くされている。宮岡 (2015) を読むまで、私が付け加えることは特にないと思っていた。おまけに提案されている解決策も大筋で宮岡 (2015) と同じ。著者の Greg Pringle のことは、Bathrobe というハンドルで以前から知っていた。しかし、こんなにガチの人だとは知らなかった。参考文献に、著者自身の 1977 年の学位論文が挙がっているが、その表題が The Word as a Linguistic Unit in Japanese: Towards a descriptively adequate characterisation of Japanese from a morphological point of view。道理で異様に詳しいわけである。

Pringle (2016) と宮岡 (2015) が指摘するように、明治以降国語学では、接語と接辞という観点からの区別を行わない傾向にあった。例外は毎度おなじみの服部四郎で、『附属語と附属形式』(1950) という論文を出している。採用している用語は異なるが、附属語は接語で、附属形式は接辞。服部は「附属語と附属形式を見分ける原則. I, II, III」として 3 つの原則をたてている。原則といっても、傾向を見ていたりして、明確な基準にはなっていない。より通言語的で一般的な語認定方針については Haslpelmath (2011) が検討しているが、やはり客観的な基準を打ち立てるのは難しそうである。宮岡 (2015) の方針は服部 (1950) とは異なる点があるものの、結論はほぼ同じに見える。

Pringle (2016) の提案も同じ。Pringle は文節をそのまま維持したがっているようなので、以下は妥協案という位置づけが正しいかもしれない。ちょっと埋もれている感があるので引用してみる。

treating:

1) particles following nouns as clitics

2) 'agglutinative morphemes' following verbs as suffixes or word endings

3) the copula as a separate word.

This results in sentence-ending question particles like か ka, conjunction particles like と to, and copula forms like です desu being treated as clitics or separate words, thus satisfying most of the demands of UD proponents. On the other hand, most 'agglutinative morphemes' attaching to verbs would be treated as affixes, avoiding the less fortunate consequences of discarding the bunsetsu.

http://www.cjvlang.com/Spicks/udjapanese.html

宮岡 (2015) の貢献

日本語 UD の問題は、Pringle (2016) のおかげで、UD 主要開発者の間で認知されている。Nivre の意見は大筋で私と一致するようである。

金山さんは、「食べた」は「食べ」「た」に分割すべきで、その根拠は丁寧の「まし」などを間に挟めることと主張しているが、これには賛同できない。宮岡 (2015) の説くとおり、「た」は屈折接尾辞で、他の屈折接尾辞とともに小さな閉じた集合を構成し、paradigm をなしていると見るべきだろう。「ます」は VV 型の (動詞から動詞を作る) 派生接尾辞。「食べました」の場合は、派生をおえた語基 (base) 「食べます」に屈折接尾辞「た」がついたと解釈できる。

同様に、「かわいさ」の「さ」は VN 型派生接尾辞、「子どもっぽい」の「っぽい」は NV 型の派生接尾辞であり、「かわいさ」、「子供っぽい」はいずれも 1 語。「さ」や「っぽい」は生産的であり、派生後の語を辞書にあらかじめ書いておくわけにはいかない。まずは形態素解析で「かわい-さ」と分割するのが常道だが、係り受け解析を行う前にチャンキングしておく必要がある。

方針はこれで良いとしても、宮尾さんも書いているように、日本の言語学 (国語学) は伝統的に接語と接辞という観点からの区分への関心が薄く、参照できる文献が見当たらないというのが問題だった。服部 (1950) はいくつかの例を示すのみだった。

そこで登場するのが宮岡 (2015)。表 2: 接辞と接語の対照表 (187-189頁) は網羅的に見える。コーパスと対照していないので、どの程度漏れがあるのかわからないけど。個別の事例についても 4、5 章で議論されている。これを土台にすれば、日本語 UD の問題の解決に踏み出せそう。

落穂拾い

『「語」とはなにか・再考』ということで、無印版がある。『「語」とはなにか: エスキモー語から日本語をみる』(2002)。無印版を読んだのはかなり昔。ぼんやりとした記憶をたどると、特に焦点を定めないまま日本語とユピック語を対照していただけだったと思う。宮岡 (2015) が本腰を入れて日本語文法に取り組んでいたのは意外だった。

複統合的なユピック語を長年研究していたら、形態論に関心が向くのは自然な流れ。宮岡 (2015) は語の認定から意味を排除することに力を入れている。統語論も形態論との絡みで必要な場合に限って取り上げている。照応には触れない。当然ながら依存文法への言及もない。

文節との違いで大きいのは、格助詞を接語とすること。根拠は、「男だけが」のように接語「だけ」を挿入できることなど。服部 (1950) も同じ判定だが、服部はさらっと述べているだけなので、注意せず読んでいたら見逃しかねない。「印欧語名詞のような屈折変化あるいは名調の格変化(対格,奪格/生格)とも,日本語の屈折とも,まったく別ものであるのは明らかである」(p.286) ということで、印欧語との比較はするが、アルタイ諸語に言及しない。服部 (1950) は、タタール語の /ɣa~qa/《に、へ》、 /nə/《を》、/ta/《の所に、において》(p.481) を附属形式 (接辞) 扱いしている。この点で、現代日本語は非アルタイ的と言えるかもしれない。モンゴル語トルコ語接尾辞は語基の母音調和の影響が及ぶし、いかにも従属的な印象を受ける。満洲語の場合はモンゴル語よりも日本語に近い感じがするが、服部原則を適用すると接辞と判定できそう。

屈折変化する前接語 (enclitic) が通言語的にめずらしく、日本語の特徴のひとつといえるという指摘も、いままで意識したことがなかった。

接語と接辞を区分して、接辞を係り受けの単位から消していくとする。そうすると品詞と素性の大改造が必要となる。UD印欧語族的な屈折の扱いに引きずられているのだと思うが、屈折接辞には品詞が与えられず、素性で表現されている。日本語処理に慣れていると違和感がある。ともかく、いまの日本語 UD が事実上無視している universal features を使いまくらないといけない。

宮岡 (2015) の提案のうち、UD と衝突しそうなのが、4.6.2 複合法。「語幹間 (+) のところに“助調”その他いかなる語も挿入できない固い結合の複合(1語) にかぎって用いている。」(p.245) とのことだが、判断が揺れそうだし、なんだかんだ言って orthographic words の影響が強い他の言語の UD プロジェクトとも対立しそう。

Pringle (2016) は、意味論をもとに文節を否定する Butler et al. の議論をバッサバッサとなぎ倒している。これを見て思ったのだが、トルコ語の inflectional group (IG) は本当に必要だろうか? IG の必要性を示すとされる例文:

mavi araba-da-ki-ler uyu-yor-lar

青い 車-に-いるの-たち 寝て-いる-[人称接辞]

この例文では、青い (mavi) のは車 (araba) であって車にいる人たち (-ki-ler) ではない。それを依存構造で明示するために araba-da と -ki-ler に分割し、mavi を araba-da に係らせる。しかし、そもそも -ki は語の外から修飾できるのだろうか? 係ってくる語が必ず araba を修飾するのなら、araba-da-ki-ler をそのまま持っておいても問題なさそう。なるべく意味が透過的な表現を作りたいという気持ちはわからないでもない。形態統語法自体が自立性を持っていて、思考を言語で表現する際には、その様式に従って型どっていくと考えると、言語の形態統語的表現と意味表現にある程度ずれが生じるのはやむを得ないように思う。宮岡 (2015) の執拗な「カタチ」の議論もそういう主張だと理解している。

2017年6月27日 追記: スライドにした。Nive が アイヌ語に UD を適用している論文も教えてもらった。アイヌ語は人称を表す形態素が、特に動詞に義務的につくが、これらを一律に接語として扱って係り受けをつけている。

2017年9月13日 追記: 読み物として、Haspelmath による研究史の概観 (Non-)universality of word-classes and words: The mid-20th century shift が面白い。学校文法、構造主義、生成文法、類型論をみたとき、構造主義は学校文法の素朴な文法概念から離れて言語ごとの個別主義を打ち出したけど、生成文法は構造主義を忘れて学校文法へ回帰したという話。普遍的とされるものをどうやって普遍的に認定するかを詰めておらず、昔の素朴な概念を使いまわしていると主張する。この説明からすると、我々が UD で困っているのは、生成文法の人が放置してきた問題を拾っているからといえる。Halpelmath は類型論の人なので、生成文法の人には反論がありそうだけど。

Haspelmath (2015). Defining vs. diagnosing linguistic categories: a case study of clitic phenomena. が面白そう。

*1Unicode と似ている。Unicode のある世界はなかった世界よりも確かに便利になった。とはいえ、Unicode を使うと、各文字が抱える難しい問題が消えてなくなるわけではなく、どこかの段階で処理しないといけないことには変わらない。それどころか、各言語・文字特有の事情を一箇所に集めることで難易度があがる。

*2教師なし文法獲得に関しても、提案モデルをなるべく多くの言語に適用して性能を測りたいという需要はある。

*3:日本語処理がガラパゴス状態なのは、うちの研究室の責任が大きいという指摘をとある日本語 UD 関係者から受けたことがある。私も問題意識は共有している。

*4トルコ語係り受けの単位と inflectional group については 2011 年にこの雑記で取り上げたことがある

*5チベット語は膠着的だが、現在のところ UD に入っていない。

2017-04-24

日本語「形成」論

崎山理. 『日本語「形成」論: 日本語史における系統と混合』(2017)

先週某氏に出版されたことを教えてもらった。簡単なメモ。長文を書き散らす時間が確保できない。

日本語形成過程におけるオーストロネシア語族との「混合」を著者は長年主張してきた。その著者が80歳になる年にモノグラフを上梓した。研究の集大成ではないかと期待されるところ。知りたいのは、魔法の箱たる「混合」の中味。オーストロネシア語族話者がいつ、どの経路で日本に流入し、どのような形態の接触により「混合」が起きたと考えているのか。

実際に読んでみると異常に見通しが悪い。著者の仮説がまとまった形で示されない。結論にあたる章がなく、唐突に本論が終わる。では最初に仮説の全体像が提示されているかというと、第I部の表題は「従来の日本語系統論」。本書に散りばめられた断片的な記述を読者が拾い集めて再構成しなければならない。まとめて示すべき仮説の全体像がそもそも存在しないのかもしれない。だとすると、(1) 証拠を収集、(2) 仮説を提起、(3) 批判に耐え、対立仮説をつぶして確立される、という一連の流れのうち、本書は第1段階に留まっていることになる。

なぜこんなことになっているのか。推測だが、仮説が著者の人格と分かちがたく結びついていて、攻撃されうる要素をなるべく表に出さないように細工した結果ではないか。例えば、まえがきを見ると、いきなり DNA と言語系統を結びつける研究の批判からはじまる。*1 もちろんこの話には前提がある。DNA を見る限り、オーストロネシア語族話者が日本語話者の遺伝子プールに貢献したことを積極的に支持する証拠がない。しかし崎山はその件には触れない。読者としては、別に誰がとなえていても良いので、各種の証拠と整合する仮説が知りたいのだけど。

DNA に触れたので、著者が言及しない文献を挙げてみる。松本克己も単系統の Y-DNA と mtDNA だけを見ていたが、最近の流行りは全ゲノム SNP 解析。データサイズが大きいし、単系統ではなく組み換えがある。現代の沖縄県民 (沖縄、宮古、八重山の3地域) のサンプルの分析を見ると、台湾原住民との関係がまったく認められない。崎山は、オーストロネシア語族話者のなかでも、台湾の住人ではなく、台湾を出た系統が日本に入った可能性を考えている (p.24) が、それでも、まあ厳しいだろう。

とにかく、人類史を解明するための武器としては、DNA は量、質ともに圧倒的。現代人のサンプルだけでもわかることが多いのに、これも昨今流行りの古代 DNA を使えば、過去の状態が直接観測できてしまう。*2 骨形態などはどこかに吹き飛んでしまった。言語史の研究も、この先 DNA の分析に従属していくことになるはず。

ゲノム SNP を分析すると、人間集団の混合とそのおおよその時期が推定できる。子孫がいずれの言語を受け継いだかはわからない。しかし、少なくとも、人間集団 (特に文字を持たない集団) が、遺伝痕跡を残さず言語に影響を及ぼすことは考えにくい。インドの Parsi (ゾロアスター教徒) のように遺伝的に孤立していると想定された集団ですら、母系ではインド原住民との混合が見られる。大雑把に言って、全ゲノム SNP で、少なくとも 10% 程度の貢献が認められないようでは、大規模な言語接触の仮説は維持できない。

次は「混合」。第3章が「世界における混合語」という魅力的な表題だが、たった7ページで終わってしまった。原論文 (未見) は21ページあるのに。何が起きたのだろうか。そもそも混合説が支持を得られないのは、「混合」が魔法の箱にとどまっているから。現象を整理して、そこに成り立つ規則性を抽出し、それが日本語の場合にも当てはまることを示す必要がある。*3

一番紙面を割いているのは音変化。オーストロネシア諸語の coda を一律に落として開音節化するのは良いとして、日本語のアクセントに関する議論はよくわからない。語頭音節起源 (1群)、語末音節起源 (2群)、音節全体起源 (3群) に分ける (pp.70-71) が、分岐条件がわからない。関西で1音節名詞が2拍で実現される現象について延々と議論している。これがオーストロネシア語族との関係で何を意味するのかよくわからない。対応については、1群は類聚名義抄体系で低平調 (L(H))*4、2群は名義抄体系で高平調 (H(H)) に対応すると言いたいらしい。仮にこれを受け入れたとしても、この現象を tonogenesis と解釈するのは受け入れがたい。1音節名詞は2種類だけではない。類聚名義抄体系においては、解釈次第だが、1音節名詞は少なくとも3類からなる。残りの H(L) が説明されないまま。さらに Shimabukuro (2007) によれば、本土祖語と日本祖語 (Proto-Japonic) の1音節名詞は4種類からなる。

あとは気づいた細かい話が2つ。1つは隼人。「最も遅く日本列島に到達したオーストロネシア語族は、古墳時代以降の熊襲・隼人であった」(p.232) と主張する。熊襲はそもそも実在が疑われる。隼人も、永山 (2009)によると、「古墳時代南九州は、中期までは副葬品などの面で全国的傾向と大きく外れることはないが、後期に入ると現在の鹿児島県本土域は地域的独自性が増していく」(p.237)。外来集団の流入を考えずとも、比較的新しい時期の孤立によって説明できそう。「隼人は、七世紀後期、律令体制建設に邁進する政府によって設定された「擬似民族集団」」(pp.237-238) と見るのが妥当。

隼人と同じページの記述。「琉球の古称ウルま「宇流麻」も、ウル島が語源である。異説ではウルを鬱陵島にこじつけるが、地名の語源として地域的一貫性を欠く」(p.232)。私の知る限り、ウルマは知識人がもっぱら和歌で用いた雅称であって古称ではない。もとは藤原公任和歌に由来し、そこでは鬱陵島を指していた。

*1:明示されていないが、批判の対象は明らかに松本克己

*2:日本でも 2016 年になって三貫地縄文人の全ゲノム SNP 分析が出た。

*3:去年、類型論のデータを使ってその真似事のようなことをした。

*4:例外的な上昇調「歯」を除く

2016-12-10

UNESCO Atlas of the World's Languages in Danger の悲惨さとそれに関連するいくつか

Christopher Moseley ed. 2010. Atlas of the World’s Languages in Danger, 3rd edition. UNESCO Publishing. (online version).

UNESCO から出ている、世界の危機言語を地図に示した本。以下、危機言語本とよぶ。UNESCO を権威としてありがたがる人をいまでも時々見かける。彼らは現物を確認したことがあるのだろうか。実は、この本の日本に関する部分は、目を覆うばかりの悲惨な品質。本記事ではまずはこの本がいかにひどいか示す。

危機言語の保存というのは政治運動。なぜそんなものを取り上げるかというと、運動家*1が権威づけに利用しようと、言語研究 (特に系統や分類に関するもの) の成果に対して誤解、曲解、恣意的選択を行っているから。アホなことばかり言っていると槍が飛んでくるくらいが健全な状態だと思うが、当の研究者の対応は微温的。私の研究的な立ち位置*2は運動家と変わらないくらい周辺的だが、気づいてしまったからには書いてみることにする。

この話題を思い出したのは「種問題」ははてしなく続くというブログ記事を今年の9月に見かけたから。*3「言語多様性」という怪しげな政治的概念は「生物多様性」から借りてきたものだと思うが、生物側でも政治への対処が大変そうである。ただ、言語側には生物側とはおそらく事情が違う部分もある。昨今の言語研究の流行はこの手の政治運動にとって都合の悪い方向を向いている。この点にも触れる。

危機言語本の粗雑さ

危機言語本は2009年2月にオンライン版が発表されたのが最初で、本の出版は翌年にずれこんだようである。3rd edition となっているように、UNESCO からこの種の本が出るのは3度目。第3版といっても一から書き直された別物。第1版、第2版の編者はオーストラリアの Stephen Wurm だったが、Wurm は第2版が出版された年に亡くなっていて、第3版は同じくオーストラリアの Christopher Moseley が引き継いでいる。私が確認したのは第2版*4と第3版で、第1版は未見。

危機言語本の日本における受容は、日本には8つの危機言語があるという主張に焦点があてられている。すなわち、Ainu (Hokkaido), Hachijō, Amami, Kunigami, Okinawan, Miyako, Yaeyama, Yonaguni。今回はアイヌ八丈島は置いておく。問題は残り、いわゆる琉球諸語。一番の問題は言語認定の恣意性だが、その前に、危機言語本がこれらの「言語」をいかに粗雑に扱っているか見ておく。

atlas というのは地図を集めたもので、説明文をともなうことが多い。危機言語本の紙版も地図の他に本文がついていて、むしろこちらの方に紙面を割いている。本文は全体的な説明のあとに、地域別の説明 (Europe and the Caucasus, Greater Pacific area, North-east Asia など) が続いている。

では、問題の「言語」、例えば Amami はどのように説明されているのだろうか? 驚くなかれ、実はまったく出てこないのである。地図以外は、末尾の索引に載っているだけ。日本が載っていてもおかしくない章は North-east Asia と Greater Pacific area だが、いずれにも登場しない。

North-east Asia の章は Juha Janhunen が担当。Juha Janhunen はウラル語族アルタイ諸語を手広くやっている言語学者。この章では、Siberia の節で系統不明の弱小言語群を説明しているが、そこでついでにアイヌ語に言及している。それより南の話は出てこない。

Greater Pacific area の章は Darrell T. Tryon が担当。冒頭で以下のように宣言する。

The Greater Pacific area comprises Japan, Taiwan (China), the Philippines, insular Malaysia, Indonesia, Papua New Guinea, the Solomon Islands, Vanuatu, Fiji, Micronesia, Polynesia, Australia and New Zealand, as well as Hawaii.

しかし、日本については以後一切言及がない。なお、Darrell T. Tryon の専門はオーストロネシア語族

ちなみに第2版では Greater Pacific Area の章に Japan の節があって、The Japanese langauge of Japan と Ainu を簡単に紹介していた。第3版になってむしろ後退している。

ここまでくればわかったと思うが、危機言語業界 (?) には南北の縄張りがあって、辺境にあたる日本はぞんざいな扱いを受けている。

扱いの雑さを示す証拠はまだまだある。オンライン版は Google Maps を使っているから気づかないが、紙の地図は複数枚にわかれている。日本はちょうど南北の境界になっていて、八重山・与那国だけ別の地図にわけるという嫌がらせを受けている。大判の世界地図もあるが、言語が密集している地域は拡大図を載せている。そう、お察しの通り、八重山・与那国は台湾の拡大図に押し込まれている。

いったい誰の責任だろうか? 紙版ではそれがわからない。Contributers という章に貢献者一覧が載っているが、分担を書いていない。

オンライン版は言語ごとに貢献者と出典を載せている。Amami から Yonaguni までの貢献者はすべて Tapani Salminen。「お前誰やねん」とつっこまざるをえない。このあたりの言語を扱った論文でこの人が引用されているのを見たことがない。それもそのはず、貢献者欄で a specialist of Finno-Ugrian studies と紹介されており、本文の Europe and the Caucasus の章を担当している。要するに非専門家危機言語本というのは世界中からマイナーなところだけ集めてくる事業だから、難しいのだとは思うが、もう少し何とかならなかったのか。

オンライン版はいずれの「言語」についても出典として以下の3つを挙げる。

言語学者の論考は一番上の上村幸雄のだけ。残り2つは、こんなものを引用して恥ずかしくないのかと思う悲惨な代物だが、それについてはまた機会があれば取り上げる。ここで問題にすべきは、出典になっていないこと。すなわち、危機言語本の以下の主張は、上記の文献に対応物を見いだせない。

Uemura (2003) において、Amami (the dialects of the Amami region) は奄美群島全体を範囲とする。同様に、Okinawa(n) は沖縄本島 (及び附属島嶼) を指す。国頭地方の諸方言は North Okinawa dialects とよんでいる。当然ながら、奄美群島南部沖縄本島北部の総称として Kunigami を使うことはない。結局、危機言語本におけるこれらの「言語」の出典は不明のまま。

そもそも言語をどうよぶかなんて、大言語を扱っている限り当たり前すぎるが、マイナー言語を扱っているとそうもいかない。Glottolog という大規模な言語目録を作成している Martin Haspelmath が、最近命名方針を整理している (Language Documentation & Conservation)。11ある方針の5番目がこの問題に関連する。

New language names are not introduced unless none of the existing names is acceptable for some reason.

話者が嫌っているとか、そういう特別な理由がないかぎり、先行研究が採用した名前を尊重すべきであり、勝手な命名をして混乱をもたらすなということ。まあ当たり前の話。そして、危機言語本は、そんな当たり前のこともできていない。

この3つの命名はいずれもひどい。地理的に国頭に含まれない鹿児島県沖永良部島与論島をひっくるめて Kunigami とよぶのは、大国主義 (?) 的で、無神経にもほどがある。こんなことをやりながら言語多様性をうたうなど笑止千万

問題はこれにとどまらない。認定された「言語」の範囲にも問題がある。この問題を実感するには、遠回りになるようだが、研究史を振り返るとよい。

研究史 (1): ISO 639-3 言語コードとその出典

危機言語本は無視しているが、これらの言語群に対する研究には膨大な蓄積がある。挙げていくときりがないし、私がまだ把握していないものも多い。ここでは国際的に知られているものに絞って紹介する。

ISO 639-3 言語コードというものがある。国際標準っぽいし、実際そうなのだが、登録作業SIL International という民間団体が行っている。そして、登録内容は SIL が発行している Ethnologue という言語目録に載っている。*5

危機言語本認定の「言語」には、対応する ISO 639-3 言語コードが記載されている。例えば、Amami に対して ryn, ams, kzg。これに限らず、Ethnologue は、いわゆる琉球諸語に対して、全部で11の言語コードを付与している。これの出典は明らかに以下の文献。

S.A. Wurm and Shirô Hattori ed. 1981-1983. Language atlas of the Pacific area.

1人目の編者は危機言語本第1版、第2版の編者でもある。2人目は言わずと知れた服部四郎。この文献は地図のシートを束ねたもので、裏面に説明文がある。Maps of the Japan Area の Sheet 28 Ryūkyūan Dialects が元ネタ。担当者は、仲宗根政善、上村幸雄、外間守善中本正智。この分野の第一人者が勢揃いしている。そして Introduction を服部四郎が書いている。1980年頃の研究の到達点と見てよい。

この説明文の重要なところは、集落 (シマ) ごとに異なる方言があることを強調している部分。分類をはじめる前に、

enourmous number of small dialects

we could even say that every hamlet has its own.

説明する。そして、仲宗根政善の母が生前、今帰仁与那嶺からそれほど遠くない名護に行ってみたいと願っていたが一生叶わなかったという有名なお話が、各シマの孤立っぷりを示す例として挿入されている。さらには、分類について議論したあと、最後に

It is not surprising at all that the Yaeyama Islands have so many isolated dialects when one recalls the fact that every hamlet has its own dialect even on such a small flat island as Kikai in the north.

と繰り返す念の入れよう。異常なまでの言語多様性は、実際、言語の保存を行う上で、重要で、難しい性質である。この問題へ言及しているか否かは保存運動のまともさを判定するテストとして使える。この問題に触れないのは論外だし、軽視する奴は詐欺師だと思えばよい。

さて、分類だが、どういう基準で行うかも重要。服部は「全体的な構造」に従って方言をグループに分類すると宣言する。

classify the dialects into several groups in terms of overall structures

つまり、何が重要な違いで何がそうでないかについて、研究者直観以上に何かあるわけではない。牧歌的な話。日本の他の地方を見ても、Sheet 26 Ainu Area: Hokaidō and Southern Sakhalin では、服部・知里による言語年代学に基づく基礎語彙共有率を使って方言間に線を引いている。Sheet 27 Japanese Dialects では上野善道がアクセント体系によって本土諸方言を分類している。一貫性も何もあったものではない。

結論として、地図には日本と台湾を分離する Language Boundary がまず引かれている。日本内部には5種類の Dialect Boundaries が設定されている。Level No. 1 が本土琉球を分離し、Line No.2 が Northern (Amami-Okinawan) と Southern (Sakishima) を分離する。ここから先は論争があったことが記されている。奄美群島徳之島沖永良部島の間に Line No.3 が引かれている。もともと上村が Line No.4 を提案していたが、仲宗根が Line No.3 を提案し、中本、外間、服部が賛成して採用されたという。与論島沖縄本島の間の線は中本が Line No.3 とすることを提案したが、外間が否決したという。

そもそも線の基準が謎だが、下位の線は以下のように説明される。Line No. 4 は mutual communication generally impossible or very difficult で、Line No.5 は noticeable dialectal difference which is not so great as to cause impossibility of mutual communication という。

Ethnologue は Line No.4 以上を言語認定していることになる。参考までに服部らが地図に載せた名称を載せておく。上位が Group。

  • Amami-Okinawan Group
  • Sakishima Group

その下に Dialects。もちろん複数形である。

  • Kikai Dialects
  • Northern Amami-Ōshima Dialects
  • Southern Amami-Ōshima Dialects
  • Toku-no-shima Dialects
  • Oki-no-erabu Dialects
  • Yoron Dialects
  • Kunigami Dialects
  • Central Okinawan Dialects
  • Miyako Dialects
  • Yaeyama Dialects
  • Yonaguni Dialects

さらに宮古Line No.5 で細分類されている。

  • Miyako-jima Dialects
  • Irabu-jima Dialects
  • Tarama-Minna Dialects

線は引かれていないが、いくつかの集落に ▲ が記されており、isolated characteristics when compared with the neighboring dialects と説明される。奄美大島の佐仁、喜界島の小野津、沖縄の久高、鳥島は本文に説明がある。宮古大神説明がない。八重山には ▲ が記入しまくってある。執筆時点では分類を確立するには調査不足だっただけではないかという印象を受ける。

あと、意外と重要なのは、分類以外の線も引いてあること。Sphere of strong/less strong/weak influence of the Shuri Dialect という 3 種類の線が引いてある。同様に奄美大島の名瀬方言も影響圏を図示。

まとめ。

  • 服部らは「全体的な構造」、要するに言語学者の直観によって分類を行っている。
  • Ethnologue は危機言語本よりも細かい粒度で言語を認定している。おおよそ島単位。
  • 服部らは Amami-Okinawan を南北で2分割して、その境界徳之島沖永良部島の間に引いている。この分類は珍しいし、作成者の間でも議論があった。
  • 危機言語本の Amami に相当するグループが設定されているが、名前は与えられていない。仕方がないので Ethnologue は Northern Amami-Okinawan とよんでいる。Amami-Okinawan の北半分という意味であって、地理的意味での沖縄は範囲外。
  • 危機言語本の Kunigami に相当するグループはない。Kunigami は国頭地方の諸方言を指す。
  • 危機言語本の Okinawan に相当するグループは Central Okinawan とよばれている。

研究史 (2): Uemura (2003)[1992]

危機言語本で出典として挙げられていた Uemura (2003) は、元は『言語学辞典』の「琉球列島の言語」という項目で、これを英訳したもの。

上村幸雄は上述の Language atlas of the Pacific area の作成者の一人であり、唯一存命である。Uemura (2003) は出版時期こそ比較的最近だが、旧世代研究者

基本認識はこれ。

A detailed classification would see that each community in the archipelago has its own dialect, but more roughly put there are large dialect divisions just about between each large island.

上村は琉球王国覇権を強調しすぎているきらいと、言語と方言の用語の区別に拘泥しすぎている印象があるが、そこまで変なことは言っていない。分類の節に入る前に言語の数について簡単に議論している。

If, when deciding whether two related languages or dialects should be called languages or dialects, one focusses only on mutual intelligibility and linguistic differentiation, then the term 'Ryūkyūan language' would be appropriate. If one looks at major differences between dialects on the Ryūkyū archipelago in the phoneme inventory and the like, then at least two languages (Northern Ryūkyūan and Southern Ryūkyūan), or even five languages (Amami, Okinawan, Miyako, Yaeyama, Yonaguni) could be recognised, and one could speak of the Ryūkyūan languages.

原文は日本語で、単複が曖昧なので、訳者 (Wayne Lawrence) の解釈が入っているように思う。音素目録とかの違いで分類するというのと相互理解可能性との関係が不明瞭。ともかく、Kunigami は数に入っていないし、Amami, Okinawan の範囲も、明示はしていないが、常識的には奄美群島沖縄諸島に対応するのだろう。

分類に関する議論は Subclassification of the Ryūkyūan language という節に書かれている。この節では分類基準を明示していない。大きく Amami-Okinawa Dialect Group と Miyako-Yaeyama Dialect Group に分けるところ、Miyako-Yaeyama を Miyako, Yaeyama, Yonaguni に 3 分割するところは以前と同じ。Amami-Okinawa Dialect Group の下位分類が違う。この節の構成はちょっと面白い。上村はまず8つの下位分類を示す。例によって dialects と複数形。

  1. Kikai-jima dialects
  2. North Amami Ōshima dialects
  3. South Amami Ōshima dialects
  4. Tokunoshima dialects
  5. Okinoerabu dialects
  6. Yoron dialects
  7. North Okinawa dialects
  8. South Okinawa dialects

服部らからの目立った違いは Central Okinawan が South Okinawa になっていることぐらい。

そのうえで、中間的な分類を提案していく。まず 2-3-4 と 5-6-7 が音素体系的に対立すると言う。前者に名前はつけないが、後者は Okinoerabu-Yoron-Northern Okinawa group とよんでいる。この範囲を指す包括的名称が存在しない以上、上村が3つの名前を並置したのは自然。狂っているのは危機言語本の Kunigami という命名の方。

1 の喜界島は 5-6-7 と同じ音韻的特性を持つと上村は言う。1-5-6-7 というグループを提案しない理由を説明していない。喜界島の北端の3つの集落だけその特性を持たないので、扱いに困っているのだろう。一連の議論の最後に 5-6-7 と 8 は対立すると説明する。

この次に別の中間的分類を提案する。奄美群島 1-6 と沖縄諸島 7-8 の対立。上村は、この対立は17世紀初頭に薩摩藩奄美の直轄支配を始めて以降の歴史を反映しているとして、

a subdivision on these principles does not reflect the genetic relationships among the dialects.

と主張する。唐突に genetic という議論が登場する。まるで、それまでの分類は系統的関係を求めていたかのような口ぶり。議論が混乱している。

まとめ。

  • Uemura (2003) は音素目録とかの違いで分類すると言いつつ、後になって genetic relationships がどうこうと言い出すなど、議論が混乱している。
  • Uemura (2003) は言語の数は2つ (Northern Ryūkyūan and Southern Ryūkyūan) あるいは5つ (Amami, Okinawan, Miyako, Yaeyama, Yonaguni) と主張しており、6つ認定する危機言語本と一致しない
  • Amami-Okinawa の下位分類は、Ethnologue と同じく、おおよそ島単位。中間的な分類は、言語学者が操作する抽象的な単位というニュアンスがうかがえる。
  • 危機言語本の Amami の相当するグループは (喜界島を無視すると) 設定されていると言えなくもないが、名前は与えられていない。
  • 危機言語本の Kunigami に相当するグループは Okinoerabu-Yoron-Northern Okinawa とよばれている。
  • 危機言語本の Okinawan に相当するグループは South Okinawa とよばれている。

研究史 (3): Glottolog と Pellard (2009)

さて、前置きが長くなったが、ここからが本番。実は、Uemura (2003) 以降、あるいは危機言語本のオンライン版が出た後に、状況が一変している。最近の成果は Glottolog に反映されている。

既に触れたように、Glottolog は大規模な言語目録で、ISO 639-3 (Ethnologue) と同じように言語にコード (Glottocode) を割り振っている。統計的研究を行う際、複数の言語データベースを統合することがあるが、言語コード名寄せに利用できる。私も以前は ISO 639-3 を使っていたが、情報が古すぎて前処理時地獄に苦しめられた。最近は Glottocode を使っている。

さて、Glottolog の琉球諸語の分類はこれまで見たものとは全然違う。

  • North Ryukyuan
    • Amami
      • Kikai
      • Nuclear Amami
        • Okinoerabu-Tokunoshima
        • Oshima
          • Northern Amami-Oshima
          • Southern Amami-Oshima
      • Yoron
    • Okinawa
      • Central Okinawan
      • Kunigami
  • Ryukyu Sud
    • Macro-Yaeyama
      • Yaeyama
      • Yonaguni
    • Miyako

ほぼ二分木になっていてやたら階層が深かったり、、Yaeyama, Yonaguni をまとめた Macro-Yaeyama があったり、Ryukyu Sud という謎のフランス語があったり。North Ryukyuan が Amami と Okinawa に二分されているところが新しい。沖縄を南北に分割するのはこれまで通りだが、奄美の中の分類は何が起きたのか理解できないくらい違う。

Glottolog は Pellard (2015) を出典とするが、この文献には分類結果だけが書いてあって議論はない。議論は以下の博士論文にある。

Thomas Pellard. 2009. Ōgami: Éléments de description d'un parler du Sud des Ryūkyū. Linguistique. Ecole des Hautes Etudes en Sciences Sociales (EHESS).

表題の通り宮古大神方言を記述したものだが、9章前半で琉球諸語の分類を議論している。この論文は私の最近の趣味の研究にも関連していて面白い。言語学者が生物学由来の統計的系統モデルを使っているという驚きの内容。ただ、この21世紀に学術研究の成果をフランス語で発表されても困る。英語版を出して欲しいところ。

Pellard (2009) の一番の貢献は、何のために分類するかを明確にしたこと。系統樹を作ることに特化している。Pellard (2009) 以前の分類は、現代語群をそれらが持つ特徴群の類似度 (あるいはその反対の距離) によって階層的にクラスタリングしていた。しかし、何を類似度とすべきかに明確な基準がなかったし、そもそも唯一の正解が存在する性質の問題ではない。だから矛盾する証拠が見つかったときに何を優先すべきか不明だった。系統樹を作るという目的を定めると、基準が明確化する。すなわち、ある言語対が同じ特徴を持っている理由は以下の4つに分類できる:

  • 偶然の一致
  • 普遍的に起こりやすいから
  • 接触の影響
  • 共通祖先から引き継いだから

系統樹を作るために必要な特徴は最後の一つだけ。残りの特徴は邪魔なので捨てるべきということになる。

この方針は、分類のための特徴として何を採用するかにも影響する。以前は音韻的な分類が採用されていたが、Pellard (2009) はこれを却下する。例えば、p > ɸ > h や k > h が Amami-Okinawa の分類に採用されていたが、これらは起きやすい変化なので、独立に起きたか、接触による影響の可能性が高い。ちゃんと系統樹を作るには、共通祖先から引き継ぐ可能性が高い特徴に着目しなければならない。

Pellard (2009) は不規則な音変化、基礎語彙の発生、意味変化など、計70個を特徴として採用し、統計的系統モデルによって系統樹を作っている。Pellard (2009) の特徴はバイナリという点では Gray-Atkinson 系の同源語特徴と同じだが、中身はかなり違う。Pellard (2009) のデータでは、共通祖語の段階では 0 であり、系統樹上のどこかで一度だけ不規則な変化が起きた (0 > 1) ような特徴が集められている。特徴の喪失 (1 > 0) は、モデルの上では系統樹上の複数の箇所で起こり得ることになっているが、その確率は低い。

Pellard (2009) は最近流行りの Bayes モデルではなく、PHYLIP という大昔からあるソフト (具体的なモデルは cliquedollop) を使っている。それは別に悪いことではない。この研究の肝はデータの作り方にあるから。Pellard (2009) が採用した特徴は、偶然の一致の可能性が低いし、不規則変化を見ているので普遍性もない。ただ、個別の特徴をある言語が持つに至った要因が接触 (横) か系統 (縦) かを識別するための手掛かりが欠けている。仕方がないので、特徴群全体をうまく説明するような系統樹を探している。このあたりは改良の余地がある気がする。

得られた系統樹は、Glottolog のものと大体同じだが、いくつか重要な違いがある。

  • 奄美沖縄は安定的に分離されている。Uemura (2003) はこの区分は genetic な関係ではないと主張していたが、Pelleard (2009) はこれこそが genetic な関係という主張。
  • Amami-Okinawa (Northern Ryukyuan、Glottolog の North Ryukyuan) は従来自明のものとされていたが、このノードはできたりできなかったりする。Pellard (2009) は図9.5で、? という謎ノードを描いている。ただし、Pellard (2015) は Northern Ryukyuan を復活させている。
  • Pellard (2009) では喜界島はそもそもデータに含まれていない。Glottolog が Kikai を Amami の子供にしている根拠は不明。
  • Glottolog の Nuclear Amami, Okinoerabu-Tokunoshima にあたるノードに Pellard (2009) は名前をつけていない。
  • Pellard (2009) は Okinawa を Nord と Sud に分割しており、Glottolog の Kunigami と Central Okinawan という名前は Pellard (2009) に基づかない。Pellard (2015) はそもそも Okinawa よりも下の分類を載せていない。

まとめ。

  • Pellard (2009) は系統樹を作るという明確な目的のもと分類している。
  • 言語と方言の違いなんてものはこの議論と無関係であり、無視されている。
  • 危機言語本の Amami に相当するノードは存在しない。系統樹上でずたずたに分断されている。
  • 危機言語本の Kunigami に相当するノードも存在しない。
  • 危機言語本の Okinawan に相当するノードは Okinawa Sud とよばれている。

ここ数年で出版された文献は、Pellard (2009) をもとにした Pellard (2015) の系統樹を採用している印象がある。Pellard (2015) を収録した Handbook of the Ryukyuan Languages田窪行則編. (2013).『琉球列島の言語と文化』、田窪行則ほか編. (2016). 『琉球諸語と古代日本語』など。よく考えると、すべて Pellard が関わっているけど。

言語研究と保存運動の乖離

ここまで延々と従来研究を紹介してきた。見てわかるように、危機言語本が認定する「言語」は、名前がまずいだけでなく、学説によっては存在すら否定されている。Pellard (2009) のおかげで最近は特に旗色が悪い。ただし、Pellard (2009) が決定版かというとそんなことはない。今後の研究の進展によってこの説が上書きされる可能性が高い。重要なのは、そういう学術論争の対象となるような抽象的かつ不安定な単位でしかないこと。話者がその存在を想像するような地に足の着いたまとまりではない。そんなものを保存運動に持ち出して何の意味があるのか。学問を権威づけに利用して、自分たちが望む単位を話者に押し付けたいのだろうか。

具体的な分類が今後どうなるかは別として、分類方針の転換は覆らないだろう。昔のような現代語のまとめあげは流行らない。明確な基準の存在しない不良設定問題であり、複数の対立する説のなかからどれを選ぶべきか決められない。系統樹なら、何が正解かはともかく、何をすべきかは明確。

言語研究の系統樹への指向は、保存運動にとって都合が悪い。以前なら、分類の結果得られる中間ノードは、いくつかの現代語をまとめあげた現代のまとまりだった。系統樹における中間ノードは祖語である。昔の言語であって現代語ではない。現代語のまとめあげなら、面を被覆しないとサマにならないが、系統分類はそうでもない。点と点の関係を議論すれば充分に研究になる。実際、Pellard (2009) のデータには喜界島が欠けている。

目的の明確化とともに手法も先鋭化している。本質主義の色彩すら帯びている。Pellard (2009) の議論にあるように、ある言語対が共有する特徴のうち系統分類に必要なのは共通祖先から引き継いだものだけ。他の特徴は分類のさまたげとなるので排除する。系統樹作成に使われたアルゴリズム (clique と dollop) は、単純な距離に基づくクラスタリングとはまったく異なる結果を吐き得る。ある言語対が似ていると素朴に思っていたら、その類似は本質的ではないと怒られて、別の差異を持ち出されるのである。

それで言うと、Uemura (2003) のように「琉球王国」を持ち出すのは筋が悪いし、服部らの地図に示された「首里方言の影響圏」なんてものは排除の対象である。いわゆる琉球諸語内部の分岐は、明らかに琉球王国の誕生に先行する。琉球王国の影響で生じた接触は、系統樹を作る立場からするとノイズでしかない。

こうして議論が整理されてくると、「琉球」という命名が失敗に思えてくる。歴史的には「琉球」はそんなに広い範囲を指す言葉ではない。もともと「琉球」は沖縄本島のこと。*6訳語系の資料を見ると、漢語の「琉球」を琉球語(?)では一貫して「沖縄」と翻訳している。琉球王国が征服した奄美宮古八重山は、琉球の属領ではあっても琉球の一部という感じはない。つまり「琉球」とは琉球王国であり、系統樹作成に際して排除すべき対象である。そうして頑張って「琉球」を取り除いて残ったものを「琉球」とよぶのはいかにも都合が悪い。同じように「琉球」以前の姿を追い求める傾向にある民俗学にならって「南島」とよぶのがよいと思う。*7

言語研究と保存運動の乖離はこれにとどまらない。昔の研究はいかにもな方言調査だったが、最近は普通に記述言語学をやるようになっている。文法、辞書、テキストをそろえて体系的に記述しようという方向。上述の Pellard (2009) は宮古大神方言を記述したものだし、他にもひたすら奄美大島の湯湾方言をやったり、与那国方言をやったりしている人がいる。驚くほどストイック。

ここで問題になるのは、集落ごとに異なる方言があること。危機言語本のいう「言語」は一つの体系ではない。相互理解可能性はここでは関係ない。原理主義的には、別の体系があれば別に記述すべきということになる。与那国島なら内部の差異が少ないから一つで良いかもしれないが、奄美大島ならそうもいかない。実際、記述系の人は、大神とか湯湾のような集落を対象にしている。

調査対象の集落の選定も保存運動に都合が悪い。奄美大島北部の中心は名瀬だが、調査対象に選ばれたのは宇検村湯湾のようなど田舎。おそらく方言の残存状況を考慮してのことだろう。大神が選ばれる理由は簡単で、めずらしい特徴を持っているから。いずれにしても、危機言語本の認定する「言語」をまとめあげる求心力を持たない。そもそも、喜界島のように、同程度の威信の方言が林立していて中心が存在しない場所もある。あるいは、危機言語本が奄美大島徳之島、喜界島を範囲として Amami を認定していることに従うと、喜界島はまるごと奄美大島徳之島と一体化させなければならないのだろうか。そんな馬鹿な話はない。

ここまではいわゆる琉球諸語を議論してきたが、ここで挙げた諸問題は何も琉球諸語に限ったものではない。系統分類でもめている言語群なんて世界中にある。記述の対象が「言語」よりも下位の単位になることもありふれている。

Glottolog のような最近の言語目録はこうした状況を前提とした設計になっている。Glottolog の設計を議論する Nordhoff and Hammarström (2011) は、言語と方言の区別なんて言語学者にとってはどうでも良いと宣言する。

The question of what is a dialect and what is a language is a very old one, and up to now, there are no agreed upon criteria how to resolve it. While it is a hotly debated topic among the general public, there is general consensus among linguists that this question is of relatively minor interest.

そして languoid という概念を導入する。

Languoids replace the traditional concepts of dialects, languages, and language families in the Glottolog/Langdoc project. Languoids are mathematically sets, which can contain other languoids, or doculects. Languoids may not be the empty set.

例えば、Yuwan, Amami Ōshima, Ryukyuan などは一律に languoid。

趣旨は同じだが、Gord and Cysouw (2013) はさらに議論を先鋭化させている。念頭にあるのは、ちょうどここまで見てきたような分類をめぐる混沌とした状況。

However, consensus about the identification of languages is often hard to achieve and, moreover, often turns out to be incorrect as new facts becomes known. Therefore, we expect that language experts will never be fully satisfied with the range of decisions that are taken to develop a standard like ISO 639-3, especially with regards to the delineation of groups of closely related speech variants into specific languages. In some cases, it may be that a given expert simply disagrees with current consensus. In others, it may be that a lack of information has made that consensus inherently fragile, and everyone agrees that it could change quite abruptly if more was known about the linguistic situation of a specific group or area.

そこで過激な解決策が提案される。言語目録を作る上で一番の基礎であり、論争の少ないところまでさかのぼる。ある文献である言語が説明されているということ自体が争われる可能性は低い。ある文献で説明されたある言語を doculect とよぶことにする。文献の数だけ doculect がある (一度に複数の言語が説明されていればそれ以上)。doculect A, doculect B, doculect C が同じものを指していることが自明の場合もあるだろう。その場合は、{A, B, C} という集合で languoid a が定義される。A と B は同じだが C は違うという主張があった場合は、a と並行して languoid b := {A, B}, languoid c := {C} をたてる。文献上は a と b が同じ名前でよばれる場合があるかもしれない。ちょうど危機言語本が既存の言語名を別の意味で使って混乱をもたらしているように。仕方がないので doculect や languoid には ID をふって ID で管理する。あと、厳密に書くのは大変なので、ここでは「言語」とよんだけど、もちろんそれは方言かもしれない (あるいは語族かもしれない)。そんなのどうでもよいし。

おわりに

危機言語本はあっけにとられるほど雑に日本を扱っている。危機言語業界において日本は南北の縄張りのはざまに位置するから。その内容はこれまでの研究経緯を無視していて、混乱をもたらすだけの有害無益なもの。しかも直後に出た研究成果によってオワコン化している。悲惨の極み。

個別の事例以前に、「言語」を認定していくという設計方針自体が実態にそぐわない。危機言語本のいう「言語」は、学術論争の対象となるような抽象的かつ不安定な単位でしかない。議論の出発点は、集落 (シマ) ごとに言語が異なるという現実を直視することであるべき。

保存運動において言語と方言の区別は本質的ではない。そもそも境界事例の扱いに困ってえいやと基準を決めるのは分類問題の常。この世界には一方には言語とよべる実体がありそうだし、もう一方には方言とよべる実体もありそうである。そこまではよいのだが、対象を網羅しようと思ったら、どこかで線引きをしないといけない。相互理解可能性というのはそういう文脈で登場する基準に過ぎない。「本土では東北から九州まで相互理解可能性の連鎖が途切れないが、琉球諸島では途切れる」と得々と語っても、知性の欠如をさらすだけ。当の話者からすれば、「だからどうした」というほかない机上の空論

そんなこんなで、危機言語本やそれに群がっている人がアホなのは明らかだと思うのだが、正面からの批判を意外なほど見かけない。私が知る限りでは、西岡敏が懸念を表明しているくらい。例えば、呉人恵編『日本の危機言語』所収の西岡 (2011) では次のようにいう。

問題はこれらの「~語」がいったい何を指すかである。さきほども述べたように,琉球諸島で話されていることばは,集落ごとに異なる。それを「~語」という言い方でくくった場合,危機言語の中でも,より有力な言語のみを滅亡から救い,より弱小な言語を見捨てることにつながって行くのではないかという懸念が生ずる。

一応他にも、「~方言」から「~語」へのラベルの張り替えは問題の本質から目をそらすだけという別の人の批判も見た記憶がある。しかしいかにも手ぬるい。変なことを言っている人がいて、それが影響力を持っている場合には、ちゃんと滅ぼしておくのが世界平和のためだと思うけど。

ただ、言語研究者危機言語本の枠組みに従っている感じはなく、単にスルーしているように見える。だいたい『日本の危機言語』からして、有名どころの水海道方言を入れたり、あえて東京弁を取り上げたりして、危機言語本の枠組みをあからさまに無視している。いわゆる琉球諸語の研究者も、危機言語本の「言語」を無視し、集落を単位として粛々と記録と継承に取り組んでいるように見える。例えば、田窪行則編『琉球列島の言語と文化』がまさにそんな感じ。

保存の単位を何にするかは究極的には話者に委ねるほかない。通じようと通じまいと、話者が同じと思えば同じだし、違うと思えば違うのだろう。もちろん話者は複数いないと始まらないし、「我々」というのは曲者である。n人をグループ化する方法の総数はベル数とよばれ、たった6人で203通りに膨れ上がる。さらには非対称性もある。集団 A は集団 B を「我々」の一部だと主張し、B は A とは別だと主張するというようなことは普通に起こりえる。一般には話者が多いほど保存に成功する確率は高まると期待される。表記の確立や教育の問題で、どのみち標準化は避けられない。保存を成功させるには、大勢の人間を同じ方向に動かさないといけない。それはまさに政治運動なわけだが、私がひとまず運動家とよんだ人々はなぜかそこを避けている。不思議に思っていろいろ理由を考えてみた。遅れた人々を啓蒙する進歩的な自分に酔っているだけで、泥臭い仕事を嫌っているのかと最初は思った。しかし、どうもそれだけではない気がする。そもそも話者のほとんどいない言語を子供に継承させるのは、経済的に非合理的な選択。非合理的選択をさせるためには非合理的な何かが必要で、それはナショナリズムにとてもよく似たもの。ところが保存運動 (のイデオロギー) にはまるような「進歩的」な人はナショナリズムは悪というドグマに縛られていて、自己矛盾を抱え込んでいるのではないか。「言語多様性」は苦し紛れに作られた概念だろう。この概念を危機言語話者に向けるのは冷静に考えるとひどい。たまたま辺鄙なところに生まれてしまったら、全体への奉仕を強要されるということを意味するのだから。

言語研究からは相当離れてしまったことだし、今回はこのあたりで打ち切る。頭が整理されたまた続きを書くかも。

*1:とりあえず運動家とよぶことにしたが、あまり適切でない気もしている。というのも、彼らが本当に言語を保存したがっているとはとても思えない。保存について議論すること自体が目的化しているように見える。

*2:私がやっているのは言語現象統計モデル化。言語の記述などにはまったく手を出していないし、そうした研究者との接点もほとんどない。

*3:またブログ記事を書くのに3ヶ月もかかってしまった。

*4:ちなみに、第2版は UNESCO/Japan Trust Fund for the Preservation of the Intangible Cultural Heritage の資金提供で作成されたとのこと。

*5:SIL はキリスト教布教という不純な目的を持った団体なので、この体制はいかがなものかと思っている。

*6:より古い「流求」についてはここでは考えない。

*7:英語だと意味的に Austronesian とかぶるので、訳さずにそのまま Nantō を採用すればよい。

2016-11-03

Hmong-Mien Langage History

Martha Ratliff. (2010). Hmong-Mien Language History.

なぜか一般受けした駄文を一時の気の迷いで書いてしまったが、平常運転に戻る。本の紹介。それも、アフィれない程度に入手困難な本。

モン・ミエン語族に関する本。現代語の紹介とかぬるい話は抜きにして、ひたすら Proto-Hmong-Mien を再構。現時点で最新に近いと思われる。*1

話の前提として、上古音 (Old Chinese) 再構問題がある。最近の定番は Baxter and Sagart. (2014). Old Chinese: A New Reconstruction (再構結果はウェブで公開されている)。*2 この本にあるように、Old Chinese が類型論的にクメール語のような構造を持っていたことはほぼ確実。すなわち

  • 声調はなかった。中古音の平声 (A) は *-∅;、上声 (B) は *-ʔ、去声 (C) は *-h (< *-s)、入声 (D) は -p, -t, -k に由来する。
  • 音節とは限らない。例えば、「壯」が *k.dzraŋ で、「脰」が *kə.dˤok-s。具体的には tightly attached preinitial consonants と loosely attached presyllables の 2 種類が想定されている。完全な音節の前に、単純な構造の弱い音節 (あるいはそのようなもの) が先行する。クメール語説明では sesquisyllabic という用語を見るが、Baxter and Sagart (2014) はこの用語を使わない。こうした語はおそらく元は 2 音節語にさかのぼる。
  • 派生接辞を盛んに用いる。接尾辞 *-s で動詞から名詞を派生させたり、接頭辞 *N- で他動詞から状態の自動詞を派生させたり。

こうした特徴は典型的にはクメール語に見られる。同じオーストロアジア語族のなかでは、ベトナム語は声調言語で単音節孤立語。でも、オーストロアジア祖語にまでさかのぼらなくても、Vietic の親戚に sesquisyllabic で派生形態素を持つ非声調言語が見つかる。Kra-Dai は Proto-Tai の時点で sesquisyllabic だったらしい。派生接辞の話は聞かないけど。

では、大陸部東南アジア (MSEA) 言語連合*3のなかで、残る Hmong-Mien はどうか。Ratliff (2010) によると、上述の Old Chinese の特徴は Proto-Hmong-Mien にもあてはまる。声調はなかった。Ratliff (2010) は disyllabism と言っているが、Baxter and Sagart (2010) が Old Chinese について言っているのと同様に、tight *NC- と loose *N-C- の 2 種類が存在した。派生接辞はというと、漢語の場合と同じような doublet が存在するので、接辞の痕跡を見ているっぽい。

面白い議論が 2 つ。一つは声調発生 (tonogenesis) の時期 (Chapter 3)。鍵となるのは漢語からの借用語。Hmong-Mien に見られる漢語からの借用語には、両者の間で tone category が一致するものがある。一次的な ABCD の分化だけでなく、語頭の有声無声の対立が高低に転化したと推測される二次的分化 (A1, A2, B1, B2, ...) も対応する。借用元 (漢語) と借用先 (Hmong-Mien) はどの段階だったか。tonal か atonal かで 2x2=4 通りの組み合わせが候補に挙がる。Ratliff (2010) は他の言語間の借用事例を見ながら、その一つ一つ検討する。その結果、声調が規則的に対応し得るのは双方が atonal な場合だけだと主張する。なお、従来の説では、声調のシステムそのものが漢語から Hmong-Mien に借用されたと考えられていたとのこと。Ratliff (2010) に従うと、そうした借用は Old Chinese の時期に発生し、その後、tonogenesis が並行的に起きたことになる。それはそれで不思議な話。

ここからは私の妄想。超大雑把に言って、MSEA 型の tonogenesis は

disyllabic (atonal) -> sesquisyllabic (atonal) -> monosyllabic (tonal)

という過程をたどったことになる。狭義の tonogenesis は最終段階にすぎない。その前段階として、少なくとも sesquisyllabic になっていることが、狭義の tonogenesis の条件 (precursor) となる。sesquisyllabic というのも変わった特徴であって、MSEA の地域的特徴と言える。漢語Kra-Dai の大半、Vietic のいくつは、Hmong-Mien は MSEA の核だけど、その周辺に、クメール語や、別の過程を経て tonal になった sesquisyllabic なビルマ語が存在する。オーストロネシア語族はその外側に位置する。Austronesia と Kra-Dai を兄弟とする仮説はおそらく正しいと私は思うし、そうでなかった場合も、両者の接触があった可能性は高い。広義の tonogenesis は Proto-Austronesian が離れてから発生したということになるか。そして日本語はさらにその外側にいる。稲作とか、文化的には関係があってもおかしくなさそうなのに、言語的にも遺伝的にもまったく無関係っぽいのが不思議なところ。

もう一つ面白いのは numeral classifier に関する議論。Hmong-Mien は numeral classifier を義務的に使うらしい。しかし、Ratliff (2010) は、助数詞のシステム自体を漢語から借用したと推測する。それどころか、Old Chinese においても商周時代の助数詞の使用は限定的であり、この地域における classifier の発達は同時期に起きたかもしれないと推測する。Hmong-Mien には numerical classifier と機能的にかぶるところが多い classifying prefix というのがある。接頭辞の起源が古いことを考えると、後者の方が古いはず。文法化という面では、noun => classifier と class noun => prefix は起きているが、class noun => classifier が起きていないとか。あと、Aikhenvald (2000) を引いて classifier system は通言語的に借用しやすいと言っている。ここはよくわからない。助数詞を使うシステムが既にある言語が新たな助数詞を借りるのが容易という話なのか、システム自体も容易に借りられるという話なのか。

Nichols (1994) は助数詞、声調、二人称代名詞 m- を人類による Pacific colonization の第3層だと主張していた。代名詞は置いておくとして、最初の2つは、こうして仔細に見ていくと、時間的にさほどさかのぼらない可能性が高い。しかも、系統的 (縦の) 関係ではなく、空間的 (横の) 関係を反映しているようである。

それにしても、横の関係は現象として謎すぎる。何とかして機序を解明したいところ。

2016年11月5日追記: 流音について、松本 (2006) は、lateral l と rhotic r の複式、いずれかだけの単式、いずれも持たない欠如型という類型を設定し、日本語を含む「太平洋沿岸言語圏」は単式流音によって特徴づけられるとぶちあげている。松本 (2006) は、ミャオ・ヤオ諸語の 8 サンプルをすべて単式に分類するのみで説明を付していない。これに対して、Ratliff (2010) は、Proto-Hmong-Mien に *l- と *r- の 2 種類を再構している。ただし、異説が少なくない様子。West Hmongic の [l] と [ɭ] の対立を Proto-Hmong-Mien にさかのぼらせる説や、*r- をまったく再構しない説などもあるらしい。Ratliff (2010) は West Hmongic の [ɭ] は *lj- に由来すると見ている。

漢語については、松本 (2006) は複式から単式に変化したとし*4、「この言語に純粋に内部的な要因だけで説明するのは無理であろう」(p.335) と述べて接触的変化を想定する。ただし、Bodman (1980) を引いて、「ある種の環境 (たとえば語末) では、l と r の区別が漢の時代まで保たれていたらしい」と言う。Baxter and Sagart (2014) は当然複式を採用している。Old Chinese の *r が Middle Chinese で retroflexion を引き起こしたというのが、中古音を説明する鍵になっている (例えば「住」 *dro(ʔ)-s > drjuH -> zhù)。Middle Chinese の l- は Old Chinese の *r(ˤ)- に由来する (例えば、「犂」 *C.r[ə][j] > lij > lí)。証拠はいろいろあるが、例えば Proto-Min で *z- に対応すること。*r > l は、先行して *l が消滅した穴を埋めたもの。Old Chinese からは *l- > y-, *lˤ > d-, *lˤr- > dr- と変化したという (例えば、「夷」*ləj > yij > yí、「田」*lˤiŋ > den > tián)。*lˤ > d の最初の証拠は紀元後1世紀だというから、*r > *l はさらに下ることになる。あと *l-, *r- に対応する無声の系列の *l̥-, *r̥- も再構していて、Middle Chinese の th- に対応するという (例えば、「湯」*l̥ˤaŋ > thang > tāng)。

松本 (2006) を読むと、素朴な印象として、流音の類型は安定的という割には例外を頑張って説明し過ぎではないかと思う。漢語に対する説明もひっかかる。チベット・ビルマ系の言語が「言語接触、それもクレオール化と呼ばれるような言語混合を伴った激しい接触的変化」(p.335) を受けて漢語が成立したというには、流音まわりの変化の時期が新しすぎる。仮に激しい言語接触があったとして (これ自体はおそらく正しい)、Old Chinese は接触後の言語ではないか。もし Proto-Sino-Tibetan では複式だけど Old Chinese までに単式に変化したというなら納得できる。実際には Old Chinese は複式。その後単式に移行した原因を接触に求めるのは妥当なのか?

*1:この記事を書いている最中に新しい論文を見つけた。Weera Ostapirat. (2016). Issues in the Reconstruction and Affiliation of Proto-Miao-Yao.

*2漢語音韻学業界はジャーゴンに満ち溢れていて近寄りがたいことが多いが、Baxter and Sagart (2014) は普通の用語を使っていてわかりやすい。

*3:Ratliff (2010) は Matisoff に従って Sinosphere と言うが、Sinocentrism の香りが微妙。

*4英語の Korea は、l ではなく r だから日本語に由来するという私の議論は、松本 (2006) の議論の応用。

2015-09-08

アイヌ学入門

瀬川拓郎. 『アイヌ学入門』(2015)

アイヌとその言語には、日本語の起源との関わりから興味を持っている。といっても、本腰を入れて追いかけているわけではない。本書のような新書*1であっても私にとっては新情報だらけ。

本書では、主に文化面について、著者の最近の主張が提示されている。一般の、中高の教科書レベルの認識では、アイヌ縄文人シーラカンスのように生き残ったかのように思われていそうだが、実際には大きな変化があったこと、その変化に日本が大きく関わっていることを著者は指摘する。

私にとっての新情報は後半、3章から7章までを中心に展開されている。*2 しかし、この部分については、私が著者以外の情報源を把握していないので、「へー」とか「ほー」とか間の抜けたことしか書けない。この雑記では、主に2章までの、私が他の情報源を多少は知っている部分について、コメントを書き散らす。

DNA

The history of human populations in the Japanese Archipelago inferred from genome-wide SNP data with a special reference to the Ainu and the Ryukyuan populations (Journal of Human Genetics, 2012) を引いて、「弥生時代朝鮮半島から渡来した人びとが縄文人と交雑して和人 (本土人) になり、周縁の北海道琉球には縄文人の特徴を色濃くもつ人びと、つまり琉球人とアイヌが残ったといいます。」(p.39) と要約しているのは少し乱暴。この研究が直接主張するのは主に次の2点。

この結果が従来の二重構造モデルと整合的だと慎重に議論している。現代人の DNA を調べただけでは直接故地を推定するのは難しい。交雑の時期についても今回は推定していない。

データに関しては、平取のサンプルが本当に (北海道) アイヌ全体を代表しているかが以前から気になっている。もう一つ、アイヌとニブフの関係については、先行研究を引くのみだが、データを採って分析してほしいところ。上記論文が引いている Genetic origins of the Ainu inferred from combined DNA analyses of maternal and paternal lineages (2004) はまだちゃんと読んでいない。

ちなみに、今年になって続報が出ている。Unique characteristics of the Ainu population in Northern Japan (Journal of Human Genetics, 2015). アイヌのデータは 2012 年版と同じだが、別ソースのデータと重ねあわせている (図 2)。このデータは本土のサンプル数が 1,000 程度と大規模で、関東に限らず、各地方のデータが使われている。大きな発見は、東北は (北海道) アイヌと似ていないこと。

その先に出てくるのが 3-population test (f3) や f4-ratio test。交雑の時期や割合を推定する話だが、モデルの詳細をまだ理解していない。言語に応用できなそうなモデルだし。アイヌ縄文の代わりに、漢人朝鮮人弥生の代わりとして使うのは微妙ではないかという感想を海外のブログで目にした。

あとは、細かいけど気になったのが、ハプログループがミトコンドリアのみに関するものであるかのような記述 (p.44 と p.55)。

2015年10月27日追記: Choongwon Jeong, Shigeki Nakagome, and Anna Di Rienzo. Deep History of East Asian Populations Revealed Through Genetic Analysis of the Ainu. Genetics. (2015) も読んだ。同じ平取のサンプルを使っているけど、分析が違う。

  • アイヌのサンプルは PCA で見ると heterogeneous だけど、ADLER で admixture time を推定すると、2 pulse model で古めに見積もっても 30-40 generations ago。弥生時代はもちろん、オホーツク文化との接触と比較しても新しすぎる。
  • ADMIXTURE (K=8) だと、アイヌは独自クラスタ。Japanese と Ulchi にアイヌ要素が見られる。
  • TreeMix をやると East Asian の中で outgroup を作る。でも Itelmen-Nganasan よりも内側。アイヌ白人幻想へのカウンターにはなっている。
  • allele の positive selection の話が面白い。East Asian に多い EDAR V370A をアイヌの 25% しか持っていない。ただし、同じく East Asian に多い OCA2 H615R はアイヌも高頻度に持っている。APO gene cluster の positive selection が海洋生物への依存を反映している可能性を指摘。

縄文人の南下

考古学的な詳細を知らないまま、修辞を追いかけていて気になった部分。

p.50 あたり。「オホーツク人の集落は海岸線から二キロメートル以内にしかな」い一方、「アイヌの集落は縄文時代以降近世まで、沿岸から内陸奥地にまで設けられてい」るのに、「アイヌはこれ [注: オホーツク人の南下] を避け、北海道の南半に押しこめられるかたちにな」ったのはなぜ? これだけ読むと、素朴には、沿岸を占拠されても、上流域は引き続き確保できそうなものである。オホーツク人が「クマなどの毛皮獣も多数捕獲していた」ことと関係ある?

東北のアイヌ語地名の担い手

東北のアイヌ語地名をいつ誰が残したのかという問題は、私にとってアイヌに関する最大の関心事の一つ。本書では、p.52 での導入に続き、p.70 以降で議論している。

本書は、「古墳時代の四世紀になると、北海道の続縄文文化の人びと (アイヌ) はこの [注: 本州の] 鉄製品を手に入れるために、古墳社会の前線地帯だった仙台新潟付近まで南下していました」(p.71) とさらっと記述している。この主張にどの程度強い根拠があるのか気になる。「そのため東北地方の遺跡からは、当時の北海道と同じ土器や墓がみつかります」(p.71) と書くが、典拠を付けていない。

関連文献のうち、本書が引く (松本 2006) は未見。同じ著者による『蝦夷(えみし)とは誰か』(2011) は読んだ。それによると、「東北北部では、弥生時代後期~古墳時代中期に併行する時期、すなわち1世紀後葉~5世紀前半ころの住居は発見されていない」(p.96) が、「3世紀後半ころ~5世紀後葉までは、東北北部でも、北海道の続縄文土器とほぼ同じものが作られていた」(p.97) とのことである。北海道と東北北部が同じ文化圏に属していたというだけで、この時期に南下が起きたとは言っていない。松本は、前時代との連続性を想定しているようである。

南下を主張するには、前時代との断絶を示す必要があるように思う。

接頭辞優勢言語?

アイヌ語は接頭辞が優勢」(p.68) という話。あまり気にしてなかったが、確かにそうだ。(中川 2010) は未見。

WALS で Feature 26A: Prefixing vs. Suffixing in Inflectional Morphology を見ると、アイヌ語は Equal prefixing and suffixing に分類されていた。ケット語は Weakly prefixing。周辺を見るとチベットビルマ系のギャロン語が Weakly prefixing、台湾のルカイ語とパイワン語が Equal prefixing and suffixing。

最近ケットと同系かもしれないと言われている北米のナ・デネ語族を見ると、結構接頭辞が優勢。

  • Slave, Tanacross, Chipewyan, Navajo が Strong prefixing
  • Sarcee, Hupa が Weakly prefixing
  • Tlingit, Apache (Western) が Equal prefixing and suffixing

最近考えている語順変化のモデルに例として使えるかもしれない。

相互理解可能性

北海道サハリンの基礎語彙残存率が70%程度で、宮古首里のペア*3と同程度であるから、「意思の疎通も困難なほど異なっていたというわけではありません」(p.85) という。ここで引いている (金田一, 1960c) は未見 (そればっかり...)。

相互理解可能性はそもそも 0/1 で割り切れる性質のものではないが、一般に聞く話では宮古沖縄は相互理解不可能。それもかなり昔からそうだったらしい。1390年に宮古の与那覇勢頭豊見親が首里朝貢したが、言葉が通じないので「怜悧の者二十名を選んで学ばせ」、3年にして言葉が通じたという (出典?)。

北海道サハリンは実際のところどうなのだろうか?

基礎語彙残存率と相互理解可能性の相関を真面目に調べた研究は存在するのだろうか?

Bayes 系統モデル

Lee and Hasegawa (2013) を「言語年代学的にあらためて計算しなおし...」(p.87) と説明するのは変。服部四郎が採取したデータこそが言語年代学の遺産。彼らの手法は、言語年代学というか語彙統計学の研究が低迷している間に発展した進化生物学統計的手法に由来する。正確には、進化生物学から直接借りてきたのではなく、他の研究グループがインド・ヨーロッパ語族に適用して話題になったので、同じ手法アイヌ語適用したもの。

「この [注: 年代] 推定をもとに考古学的な事象を解釈し、もともとサハリン方言とはオホーツク人の言語だったのであり、オホーツク人が八世紀に北海道全域へ拡散し、アイヌと融合するなかで、アイヌ語北海道方言が成立した、とのべています」(p.87) という結果の要約も変。彼らの主張は以下の通り。

系統モデルの性質上、全子孫の共通祖先にたどり着いたら終わりで、それ以前の状態は推定しない。彼らの主張はその祖語が北海道北部で成立したというだけ。考古学的知見の解釈についても、その言語を縄文人オホーツク人のどちらから引き継いだかについては何も言っていない。

もう少し真面目な言語学議論で、アイヌとニブフの接触を扱ったものを最近見つけた。Alexander Vovin の On the Linguistic Prehistory of Hokkaidōアイヌ語とニブフ語に共通する特徴 (接頭辞と語彙) を認定したうえで、主にアイヌからニブフへの借用を推測している。しかも、いくつかの要素は北海道アイヌ語にも確認され、アイヌ祖語にさかのぼるとみられる。ニブフ側も、サハリン・ニブフだけでなく、アムール・ニブフにも確認できる。このことから、オホーツク人が北海道 (のオホーツク海沿岸) でアイヌ語話者と接触したと推測している。たいした根拠があるわけではないし、話半分に聞いておくぐらいで良い。

*1:想定読者を広く設定すると仕方がないのかもしれないが、個人的には新書という形式は好きではない。引用しにくいし。典拠不明の記述が多いのも不満。本書は要所要所では文献を引いているけど。

*2:特に3章のコロポックル伝承の起源と展開が刺激的。以前、同じ著者の『コロポックルとはだれか』(2012) を読んで感心したが、本書はそこから何歩も先に議論を進めていた。

*3:「琉球語における宮古方言と首里方言」という表現が気になる。「琉球語」は存在しない。首里の言語をそう呼ぶのでないなら。そもそも「言語」と「方言」の識別に関して取り得る立場は2つある。日本語族に属する lect を分類すると taxonomy ができる。一つの立場はすべての階層のノードを「方言」と呼ぶもの。この場合、当然「琉球語」は出てこない。もう一つは、相互理解可能性という怪しげな基準を使って「言語」と「方言」を識別するもの。この場合も、具体的に何言語を認定するかは別として、それらは琉球よりも下位の階層に位置する。よって、琉球ノードは「琉球語」となる。どこかに「琉球語宮古方言」を支持する立場の人がいたりするのだろうか? 「言語」と「方言」の識別は、分類学者が「科」なのか「亜科」なのかと悩むようなもので、本質的に重要な区別ではない。しかし、社会的には方言は言語よりも劣るという観念が根強いようである。ある種の質の悪い言説は、このような社会的背景を認識しているにも関わらず、「言語」の認定と危機言語の保存運動を同時に行おうとする。この言説は、方言に対する社会的偏見をむしろ強化するという点で有害である。そもそも、この手の言説は、「言語」という分類学上の階層が保存運動の単位となる階層とどう対応するかを一切説明しない。これは自明ではない。話者自身が認識するまとまりは、一般に「言語」と対応しない。おそらく、保存運動とは、進歩的な自分たちが、遅れた話者に対して、学問の権威を背景に下す神託だと考えているのだろう。

arch74324arch743242015/09/10 19:47問題点のご指摘をいただき、ありがとうございました。明らかな誤り、勘違い、説明不足など、どれもご指摘のとおりとおもいます。現在別著にかかっておりますので、それらの点をふまえて論じてみたいとおもっております。お礼申し上げます。

murawakimurawaki2015/09/11 10:38こんな半可通の雑記にコメントいただいて恐縮です。次の本も楽しみにしております。