Hatena::Grouprekken

murawaki の雑記

2018-06-15

再び語について

Universal dependencies (UD) は係り受け付与の単位を syntactic words (not phonological or orthographic words) と定めている。この方針をどう評価するか。また、日本語の場合に具体的にどうするか。現在は国語研の短単位を採用しているが、これをどう説明するか。作業中のメモを垂れ流していく方式

syntactic word に対する立場

syntactic word には様々な側面があるが、ここでは morpheme に対して word に特別な地位を認めるという点を考える。要点は、UD の word に対する方針に、理論的に反対の立場が存在するらしいこと。

今回の起点は de Marneffe (LREC2014)。Manning のグループ。前回の記事で確認したように、UD 主要開発者は UD 2.0 を出すまで類型論を認識していなかった。言語処理研究者から見える言語学業界には偏りがある。Manning の昔の論文に LFG のものがあった。おそらくその頃仕入れ知識が de Marneffe (LREC2014) に反映されている。

There is a longstanding, unresolved debate in linguistics between theories which attempt to build up both words and phrases using the same compositional syntactic mechanisms (and in which the notion of a word has minimal privileged existence) versus those theories where the word is a fundamental unit and which see the morphological processes that build up words as fundamentally different from and hidden to those that build up sentences, sometimes termed the lexical integrity principle (Chomsky, 1970; Bresnan and Mchombo, 1995; Aronoff, 2007).

Chomsky (1970) はネットに落ちていたのを斜め読みした限りでは、立場がよくわからない。次の論文は LFG。私は LFG についてほぼ何も知らない。morphology と syntax を区別する formalism だという理解。ある handbook の原稿によると、そこは LFG と HPSG との共通点。

反対に morphology と syntax を区別しない立場。distributed morphology がそういう立場だと伝え聞く。生成文法業界の個別の流派がどうなっているかよくわからないし、ましてや全体像を俯瞰的に把握することもできていない。例えば、最近時々名前を聞く nanosyntax は、morphology よりも細かい単位まで syntax の領域を広げているという理解で良いのだろうか。もっと普通の生成文法系の論文で もword の内部に対して文脈自由文法的な木を作っている例を見かけるが、どういう立場なのか。

日本語の syntactic word

これについては去年の記事に書いたので詳述しない。要点は、

  • syntactic word の認定は、実質的に affix と clitic を識別する作業となる
    • Haspelmath (2011) は、これまでに提案されてきた基準では、通言語的に妥当な概念としての word を認定できないと主張している
  • 服部 (1950) を例外として、syntactic word という観点からの研究は日本の言語学国語学の主流から外れまくっている
  • 宮岡 (2015)言語学者としては具体性をともなった日本語の word 認定案を提示している
  • しかし、もちろん、実際のコーパスアノテーションのための仕様としてはまったく不充分で、かなりの作業が発生することが予想される
  • 通称 Greg 文書のおかげで、現在の日本語 UDUD の word の方針に従っていないことは UD 主要開発者に認知されている

短単位

『現代日本語書き言葉均衡コーパス』形態論情報規程集 第4版 (上) という恐ろしい仕様書に、国語研的な経緯が記されている。

  • syntactic word の議論とはまったく無関係に規定されている
  • 30年以上の過去の経緯を引き継いで引き返せないところまできている。国語研がその遺産を捨てるとは思えない

脚注3

ここで言う「操作主義的な立場」とは,「これこれこういうものを「~単位」とする,という規定をするだけで,その「~単位」が言語学的にどのようなものなのか,単語なのか,単語でないとすれば,どこが単語とちがうのか,といった問題には,まったくふれない」(国立国語研究所1987:11)という単位設計上の立場を指す。

本文

調査単位の設計に当たって操作主義的な立場を取ってきたのは,「必要以上に学術的な議論に深入りし,実際上の作業がすすまないことをおそれたため」(国立国語研究所1987:12)であり,「学者の数ほどもある「単語」の定義について,まず,意見を一致させてから,というのでは,見とおしがたたない。」(同:12)からである。

このような立場に対しては,当然のことながら「語というのは何なのか,調査のため便宜的に設けられた単位にすぎないのかという問題が残る。」(前田1985:740)という批判がある。確かに,語というものを定義しようとする以上,語とは何かという本質的な議論を積み重ねていくことは重要なことである。しかし,国立国語研究所(1987:12)に,「原則的にただしい定義に達したとしても,それが現実の単位きり作業に役立たないならば,無意味である。語い調査というのは,現象の処理なのだから。」と述べられているように,語彙調査においては対象とする言語資料に現れた個々の事象を,的確に処理することも極めて重要である。このことから,これまでの語彙調査では,語とは何かという本質的な議論よりも,言語現象を的確に処理することを重視してきた。

どうするか: 妥協としての短単位

短単位の採用を擁護するとしたら、どのような論理でそれを行うか。

  • UDタスクとして難しい
    • 言語の構造的な比較をやってきたのは言語類型論で、そこでは難しい問題が昔から議論されてきたが、UD 開発者がそれを認識しだしたのは最近
    • UD 2.0 では類型論の立場からの提言 (Croft, 2017) が一部採用されたが、これで充分とは思えない
    • 類型論的に多様な言語が UD に加わるにつれ、UD の不備が明らかになり、仕様に変更が加わると予想
  • 自動変換を主な構築手段とすることには、仕様の変化への対応が容易という利点がある
    • 加えて、日本語係り受け自体は既存の資源があるなかで、コーパスを人手で作るという車輪の再発明に避ける人的資源は限られる
    • 一方で、自動変換はいろいろ怪しいので、少しは手動でタグづけした方が良いという話も
  • 既存の係り受けコーパスには、syntactic word を自動抽出できるものは存在しない
  • 短単位は syntactic word ではないが、自動変換でできることしかしないという方針を採る限り、一番現実的な単位
  • 問題

もし手作業を行うなら

  • いわゆる自立語は単独で word を構成するとみなす
    • 語彙的複合語に対しては UD も妥協している
  • いわゆる付属語を affix と clitic に手作業で分類する
    • ほとんどは辞書項目に対してタグを付与すればよいはず
      • 可能性に基づく品詞体系の品詞の単位でそれが行えるのか、語彙項目ごとの処理になるかは不明
    • 曖昧性があり、個別の出現への対応が必要だと現在わかっているのは、「らしい」
      • 「男らしい人」(affix) vs. 「どうやら男らしい」(clitic)

TODO: そもそも UD に取り組む理由

あまり問題点ばかり述べていたら、そもそもなぜやっているのかとツッコまれる。UD に取り組むべき理由も説明しないといけない。

  • バスに乗り遅れるな論というか、国際的な枠組みから日本語が取り残される可能性
    • それを言うと、コーパスのライセンスと入手しやすさも問題
  • 言語間の比較が妥当に行える資源がほしい
    • cross-lingual projection とか unsupervised grammar induction とか

2018-06-04

Universal Dependencies と類型論

研究史 (といってもここ 10 年以内だが) を調べてみるテスト。諸事情により、過去の経緯を把握する必要が生じたので。言語処理は普段はいい加減な分野で、誰に credit を与えるべきかあまり気にしないのだけど。

Universal Dependencies (UD) は通言語的に一貫した係り受け木を設計して、世界中の言語の treebank を作るプロジェクト。通言語的という点で言語類型論との関わりの深さは明らかなように思える。しかし、UD の主要開発者が当初からそれを認識していたようには見えない。彼らがいつからどのように関係を認識したのか。現状はどうなっているのか。そして今後どうなるのか。

Nivre

UD の代表は Joakim Nivre。transition-based parsing で有名な人。この人を調査の起点にする。

COLING 2016 の invited talk は直接聞いた。意表を突かれたことを覚えている。あの William Croft が Linguistic Typology Meets Universal Dependencies という論文を発表する予定だという話が出たので。

しかし Croft への言及があった文脈は function head 対 content head*1という係り受けの設計方針について。Croft が content head を採用するという UD方針に賛成しているという。それ以上の議論はなかった。

もう一つ、Nivre は Manning's Law を紹介しているが、このなかに類型論への言及がある。Manning's Law は、呉越同舟ななかでバランスを取りましょうという以上のことを言っているわけではない。6 つある項目の 2 番目が類型論への言及。

UD needs to be good for linguistic typology, i.e., providing a suitable basis for bringing out cross-linguistic parallelism across languages and language families.

しかし、いつ Chris Manning がこの見解を最初に述べたのかわからない。

RANLP 2017 の invited talk では、類型論への言及が増えている。William Croft に加えて、Martin Haspelmath の Comparative Concepts and Descriptive Categories in Crosslinguistic Studies (2010) を引用している。この論文は重要なのであとで振り返る。

github の issue を見ると、2016 年後半に Will Croft への言及が見られる。例えば Manning の 11 月 22 日のコメント:

BTW, there's been quite a bit of conversation off-GitHub between me, @jnivre and Bill Croft on how to define core vs. obl and subj/obj/iobj in the most typologically good way (though nothing is water-tight)

さて、今度は逆にさかのぼってみる。LREC 2016 の Universal Dependencies v1: A Multilingual Treebank Collection の時点では typology への言及がほぼない。"typologically different languages" という表現が一回出現するだけ。参考文献を見ても類型論色がない。

UD の諸母体

UD は既存のプロジェクトを統合する形ではじまった。LREC 2016 の論文が言及しているように、Universal Stanford Dependencies, Google の Universal Dependency Treebanks, Google の universal part-of-speech tags, Zeman らの tagset など。

Zeman et al. Reusable Tagset Conversion Using Tagset Drivers. (LREC 2008) は POS tag と feature について議論している。別々に設計された複数の tagset を統一体系に変換するが、その際になるべく情報を失わないようにしようというだけ。typology という単語すら出てこない。

Zeman et al. HamleDT: To Parse or Not to Parse?. (LREC 2012) も typology への言及がない。複数の既存の treebank をいい感じに変換しようという以上の設計思想はないように見える。

de Marneffe et al. Universal Stanford Dependencies: A cross-linguistic typology. (LREC 2014) は Manning のグループの論文。表題に typology とあるが、どういう意図でそうしたのかよくわからない。個別の現象議論はあるが、背後にある設計思想の説明がとぼしい。typology の論文は引用されていない。Chomskyan な文献と LFG への言及があるだけで、functional な類型論が認識されているように見えない。

McDonald et al. Universal Dependency Annotation for Multilingual Parsing. (ACL 2013) は Google の project。typology という語は出てくるが、いろんな言語を対象とするという以上の意味は見いだせない。

Petrov et al. A Universal Part-of-Speech Tagset. (LREC 2012) は GooglePOS tagset。この論文も本文に typology という語は出てこないが、universal を議論する過程でかすっている。universal な category の存在を支持するものとして Carnie (2002) と Newmeyer (2005) を引いている。いずれも生成文法系。類型論は Chomskyan や句構造文法系の研究とは溝が深そうだけど。反対に universal 懐疑派の例として Evans and Levinson (2009) を引いている。しかし結論が以下なので、論文を飾る以上の積極的な意味はなさそう。

we took a pragmatic approach during the design of the universal POS tagset and focused our attention on the POS categories that we expect to be most useful (and necessary) for users of POS taggers.

ざっとこんな感じ。UD 以前に類型論の研究が認知されていた形跡はない。UD 1.0 時代もそれは同じ。UD 2.0 にする際に類型論を認識し始めた、あるいは類型論を認識し始めた結果として改訂版を作ったというところか。

Croft (2017ab)

Croft (2017a). Linguistic typology meets Universal Dependencies を見ると、UD 2.0 になるときに Croft の意見が一部反映され、残りは反映されなかったらしい。これは github の issue の諸コメントとも整合する。

改めて UD の構成要素を考えると以下の 5 種類が挙げられる。

Croft の議論の対象は係り受け方針と label。方針abstract にある通り。

dependencies should be based primarily on universal construction types over language-specific strategies. syntactic dependency labels should match lexical feature names for the same function; dependencies should be based on the information packaging function of constructions, not lexical semantic types; and dependencies should keep distinct the "ranks" of the functional dependency tree.

construction と strategy という 2 つの概念を導入し、両者を区別している。construction は意味・機能を捉えたもので、通言語的に定義できるとする。strategy は construction を実現する具体的な形態統語的手段を指す。例えば、predicate nominal construction という通言語的な construction が設定できる。英語は copula strategy を使う。論文では言及されていないが、ロシア語は copula なしの strategy を使う。両者を統一的に扱うには、content head の係り受けを採用すると良い。それだけなら、ロシア語は良いとして、英語の copula が迷子になる。そこで common strategy にも label を与える必要がある。*2

Of course, elements in a universal scheme that represent strategies, at least the most commonly occurring strategies, will also be needed.

論文後半では information packaging という観点からの label の体系化を試みている。UD 2.0 ではこの提案はほぼ無視されている。ヨーロッパでは馴染みのない概念だからか。

construction を優先するということは、形式と意味の等価性を軽視するということ。言語特有の下位範疇を特別に用意しない限り、各言語特有の形式と意味との関係は一般に失われてしまう。言語間で比較可能にするには仕方がないか。

Using typology to develop guidelines for Universal Dependencies は NoDaLiDa Workshop on Universal Dependencies (2017) の invited talk の extended abstract。Croft (2017a) よりも個別具体的な現象議論していて面白い。最初の方で、

There are different and more difficult issues in the POS tagging and morphological feature tagging of the UD enterprise, which I will not go into here.

と断っている。POS tag と feature の方が難しいという認識は興味深い。

Haspelmath (2010)

Martin Haspelmath. 2010. Comparative concepts and descriptive categories in crosslinguistic studies. Language (86).

類型論の研究でよく問題となるのは比較の妥当性。ある言語のある現象と別の言語のある現象を比較するとして、はたしてその比較は妥当といえるのか? この問題をつきつめると Haspelmath (2010) ができあがる。

Haspelmath (2010) は 記述範疇 (descriptive category) と比較概念 (comparative concept) を区別する必要性を論じる。比較に使うのは後者。係り受け label もそうだが、Croft が触れなかった POS tagset にも関わる議論

記述範疇は言語特有の範疇。比較概念は言語間比較のための概念。両者は別。比較概念は言語に依存しない conceptual-semantic concept, general formal concept, other comparative concept によって組み立てないといけない。general formal concept の例として Haspelmath が挙げているのは precede, identical, overt。ここまで来るとたしかに言語依存性はない。

5 節でいろいろ例を挙げている。例えば 5.2 で Future Tense を以下のように定義する。

A future tense is a grammatical marker associated with the verb that has future time reference as one prominent meaning.

future time reference は conceptual-semantic concept, verb は comparative concept、grammatical marker も comparative concept。associated with と prominent が曖昧なので明確化する必要があると述べる。tomorrow のような副詞を対象から外すには、grammatical marker のような comparative concept を使わざるを得ない。

スペイン語の future tense は probability を表すが、habituability を含まず、(Haspelmath の専門の) レズギ語は反対に habituality を含むが probability は表さない。このように future tense と言われるものの機能は言語によって異なる。Haspelmath の比較概念は、定義にある future time reference を行うための grammatical marker であれば、機能の範囲の違いを無視して対象とする。結果として、各言語の体系を無視して比較のために一部を切り取るような操作を行うことになる。category ではなく concept だと言っているのはそれが理由だろう。

一方 universal dependencies で付与される品詞と係り受け label は全体を区分けしてくという意味で範疇。*3しかし Haspelmath が言う通り、範疇は厳密には言語間で比較できない。

Descriptive formal categories cannot be equated across languages because the criteria for category-assignment are different from language to language.

要するに、ある言語の VERB と別の言語の VERB は厳密には比較可能でないし、これは本質的な問題なので、今後比較可能になることもないだろう。結局のところ UD が何を行っているのかは曖昧なまま。

*1:syntactic head と semantic head とも言う

*2議論がややこしいが、結論としては cxp を与えるらしい。UD 2.0 にはこの label は採用されず、cop を使う。

*3:feature が範疇と言えるかは微妙。

2017-08-27

節か否か

前回のネタから引き続き、Universal Dependencies の日本語版の問題。今回取り上げるのは、係り受けのラベル。amod (adjectival modifier)acl (clausal modifier of noun (adjectival clause)) の使い分け。修飾する単位が、前者は単語、後者は節 (clause)。同じ問題が副詞 (advmodadvcl) にもある。

問題の所在

英語の場合、

red meat

は red <-(amod)- meat、

many online sites offering booking facilities

sites -(acl)-> offering とラベルをふる。前者は語の修飾で、後者は節の修飾。

日本語でも

赤い 目

は 赤い <-(amod)- 目 で良さそうな気がする。「とても 赤い 目」のように程度の副詞形容詞を修飾できるのも英語と同じ。

しかし、

目 が 赤い 人

時間 に 厳しい 人

いま とても 熱い 話題

になると節っぽいので acl が良さそう。そう考えると「赤い 目」も acl にしたほうが統一的ではないかとも思えてくる。

関連して、形容詞名詞的な英語と違い、日本語の場合は動詞的で、

赤かった 目

のように活用変化する。「-い」も、現在なのか非過去なのか、ともかく何らかの TAM を表してそうという点でも英語とは異なる。

ざっと調べた限りでは、暫定的な結論として、以下の案が良さそう。

  • 一律に acl をふる
  • 節と解釈するには微妙な例があることを説明し、今後の課題とする

類型論

Universal Dependencies は類型論と関係が深い。世界中の言語に対照可能な解析を与えようというのだから。そこに沼が広がっているのは明らかで、パンドラの箱をあけてしまった感がある。

そんなこんなで、まずは類型論の研究を探してみたが、あまり収穫はなかった。調査開始前になんとなく認知していたのは Bernard Comrie の「アジア式」関係節に関する研究。名詞修飾表現について、寺村の「内の関係」、「外の関係」の分析を発展させたような話。今回ざっと見た限りでは、用例が動詞ばかりだったし、そもそも節か否かに関する議論は見当たらなかった。*1

次が 2016 年の論文

Jan Rijkhoff. 2016. Crosslinguistic categories in morphosyntactic typology: Problems and prospects. Linguistic Typology. 20(2).

Rijkhoff は、Dryer などの古典的な語順の類型論の研究が、Adjective, Genitive, Relative Clause 等の概念を定義することなく使っていることを批判している。しかし、代わりに比較対象として持ち出したのは Qualifying Modifier のような functional category。結局 morphological unit (adjective, genitive, relative clause) の概念を明確化していない。

R. M. W. Dixon and Alexandra Y. Aikhenvald ed. 2004. Adjectives Classes.

この本は、そもそも類型論的に形容詞という概念が成り立つのかに焦点をあてている。Dixon の主張は成り立つというもの。ヨーロッパ的な名詞形容詞以外も、closed class の場合*2でも、積極的に形容詞認定していくという立場。*3

この議論においては、日本語は形容詞形容動詞という 2 種類の形容詞があるという点で面白いらしい。2 章 Anthony E. Backhouse の Inflected and Uninflected Adjectives in Japanese はそこにしか触れていない。9 章 Ho-min Sohn の The Adjective Class in Korean はもう少し広く現象を紹介している。Dixon からの流れで、朝鮮語にも形容詞はあるという立場。「目 が 赤い 人」と同じ構文の

[키가 큰] [사람]

を取り上げて relative clause だと言っているが、より基本的な「赤い 目」構文をどう解釈しているのか不明。

生成文法

生成文法方面ではけっこう研究されている気配があった。

Min-Joo Kim. 2002. Does Korean have adjectives?. MIT Working Papers in Linguistics. 43.

Kim (2002) は、朝鮮語形容詞は stative verb であるという立場。これは形容詞という概念をどう定義するかによる。ここで重要なのは次の主張。

apparent noun-modifying adjectives in Korean are predicates inside relative clauses.

ということで、relative clause だという立場。-n を relativizer だとみなし、

[ e1 yeppu]-n1 yeca

のように gap を導入して分析する。

Mark C. Baker. 2003. "Verbal Adjectives" as Adjectives without Phi-features. Proc. of the Fourth Tokyo Conference on Psycholinguistics.

類型論よりの生成文法をやっている Baker は日本語の「美しい女」構文を取り上げて、cannot enter into direct attributive modification in Japanese, but rather form relative-clause-like structures という。「い」がついているのが direct modification ではないという解釈。論文では、これを説明するために phi-features という agreement がらみの概念を導入し、日本語はこれを欠いているので direct modification ができないと説明する。

Menon (2013) は Malayalam を扱うが、従来研究として Baker (2003) に触れ、さらに Baker (2003) が取り上げていなかった「きれいな女」のような形容動詞も attributive modification を行えないことを指摘している。

Junko Shimoyama. 2014. The size of noun modifiers and degree quantifier movement. Journal of East Asian Linguistics. 23(3).

Japanese lacks direct adjectival modification という見方は Kuno 1973; Shibatani 1978; Whitman 1981; Dixon 1982; Miyagawa 1984; Makino and Tsutsui 1986; Urushibara 1993; Nishiyama 1999, 2005 で広く支持されているという。

しかし、Shimoyama (2014) は、direct modification である可能性が否定できないとする。そこで取り上げているのは微妙な話で、比較表現の解釈。

ジョンが一番高い山に登った。

における「一番高い山」が絶対的に一番高い山なのか、他人が登った山と比較して一番高い山なのか。

一番ジョンが高い山に登った。

だと後者の読みしかできない。この手の解釈はスコープの島制約と結びついており、finite relative clause だと制約が期待されるのに、実際には見られないという議論

Hiroko Yamakido. 2005. The Nature of Adjectival Inflection in Japanese. PhD Thesis.

この博論が従来研究の紹介をふくめて一番詳しそう。Yamakido (2005) も、3 章で、copular relative clause と解釈するには不都合な場合があることを指摘している。「ピーターが古い友だちだ」は Peter has been a friend for a long time の意味にしか解釈できない。Peter is old and Peter is a friend とは解釈できず、「ピーターが友達で、ピーターが古い」とは言い換えられない。attributive adjectives は intersective でない場合があるが、relative clause だとすると intersectivity が成り立つと期待される。次に時間に関する解釈を 3.6.2 で取り上げている。

4 章では急進的な主張を展開している。形容詞の -i, -ku、形容動詞の -na, -ni は case marker だと主張し、ペルシア語のエザーフェと比較している。真面目に読んで検討すべきかもしれないが、すぐに UD に採用するという話にはならないだろう。

雑感

まあこんな感じで、素人が付け焼き刃の調査でやっている。どこかから理論系の人と類型論の人を連れてきて投入したい。

*1Haspelmath の論文も 3.5. Relative clause で取り上げているのは動詞のみ。

*2アフリカのイボ語には形容詞が5個しかないとか。

*3:他の特徴との相関から日本語の歴史的変化を推測している部分 (p.35) は面白い。Stage One: Japanese lacked dependent marking. It probably also lacked head marking, showing syntactic function by the ordering of phrasal constituents within a clause. There was a single class of adjectives (the present inflected class), similar to verbs in their grammatical behavior.

2017-05-05

「語」とはなにか・再考

宮岡 伯人. 2015. 「語」とはなにか・再考: 日本語文法と「文字の陥穽」.

書名からは想像もつかないほど実用的な本。目下解決すべき問題へのたたき台となっているという点で。問題となっているのは Universal Dependencies for Japanese (日本語 UD)。そもそもの Universal Dependencies は、通言語的に一貫した (universal) 係り受け (dependency) のデータを作るプロジェクト。日本語 UD はその日本語版。UD では、できるかぎり特定の言語に依存しない共通方針やタグセットを用意しておき、そこに収まらないものだけは各言語で対処する。その方針自体は良い。*1 問題は日本語 UD が根本的なところで共通方針に従っていないこと。その結果、普遍的でも何でもない代物になってしまっている。

具体的な問題は、語 (word) の認定基準がおかしいこと。ここでいう語は係り受けの単位。日本語 UD は BCCWJ (現代日本語書き言葉均衡コーパス) 由来の「短単位」(short unit word, SUW) を語とみなしている。しかし、短単位は通言語的にみて語ではないものを含んでいる。UD方針にあわせるには、まずいわゆる付属語 (助詞、助動詞) を接語 (clitic) と接辞 (affix) にわけなければならない。接語は単独で語をなすが、接辞はそうではない。接辞は自立語にくっつける必要がある。その塊こそが語であり、係り受けの単位である。

このように日本語 UD の認定基準を修正したとすると、次に問題となるのは、具体的にどのように接語と接辞を区分するか。作業量的にも難易度的にも言語処理研究者が片手間に行える範囲をこえている。そういうわけで次の一歩が踏み出せずに逡巡していた。そんなときに宮岡 (2015) が答えを提供していることに気づいてしまった、というお話。

UD の重要性

日本語 UD の問題は放置しておくとまずそうだと思っている。ただし、短期的にはさほど重要ではない。実際、現在のところ、私は UD に関わっていない。UD 日本語をやっているのは知り合いだけど。とりあえず日本語処理の研究をする分には、いまの研究室がこれまで整備してきた資源で足りている。

短期的には、UD が整備されてできるようになるのは、教師なし文法獲得と類型論的興味からの多言語処理。例えば、ある言語と別の言語の構文構造がどのくらい似ているかという疑問に答えたい。普通は類型論の研究者が人手で作った特徴量を用いるところだが、データ駆動で定量化したい。実は2011年くらいから研究があり、各言語の構文解析のパラメータを同一空間上で表現して比較する。通常の構文解析パラメータは言語ごとにばらばらで比較できない。この研究では、言語間で共通の品詞体系を用意することで、言語間の比較を実現していた。しかし、結果が直感に反している。日本語がヨーロッパ言語と離れているのはわかるが、トルコ語とも離れすぎ。しかし、これが本当に言語的な違いに由来するのか、もしくはアノテーション基準の違いに由来するのかわからなかった。

ちなみに世の中一般的な UD への需要は別にある。言語ごとに解析器を一から作っていては効率が悪い。モデルは共通のものを1個だけ作って、あとは各言語のデータを流し込んで機械学習すれば構文解析器が完成するという状態になってほしい。そのための仕様の共通化。*2 とにかく動けば良いという立場の人は通言語的一貫性をあまり気にしないかもしれない。私の興味からすると、そこをちゃんと詰めることこそが重要。

長期的には、日本語処理の将来性の問題にかかわる。もしこの先 UD が世界的に標準的地位を確立したら (その可能性はそれなりにある)、それ以外の資源の地位は危うい。シェア争いには勝たねばならない。そもそも現在の日本語処理の資源は日本の外から使いにくい状態にある。データの入手が困難だし、日本語独自のオレオレ仕様だし、仕様書も日本語で書いてあって読める人が限られる。*3 日本語処理を存続させるためには、国外からも研究できる状態を整備する必要がある。私自身、いつまで日本で研究を続けられるかわからないし。

語の認定

本題。UD方針Tokenization and Word Segmentation に書かれている。それによると、係り受けの単位は syntactic words (not phonological or orthographic words)。orthographic word は分かち書きの話なので日本語とは無関係。phonological word はアクセントやイントネーション上のまとまり。語よりも大きく、文節と一致することもあるが、そうでない場合もある。現象として複雑で、私もちゃんと把握していない。宮岡 (2015) も詳細には立ち入らない。

syntactic words を単位とするという UD方針が堅持されるとひとまず仮定する。トルコ語 UDinflectional group という独自の単位規模を縮小しつつも維持されていることを考えると、修正が入る可能性はある。*4

この方針では接語は語の仲間であり、係り受けの単位となる。接辞は語をなさない。

短単位は語ではない

ところが、日本語 UD は短単位 (SUW) を単位として採用してしまっている。短単位の認定基準の複雑さは尋常ではないが、大雑把に言えば形態素。つまり接辞を含んでいる。

どうしてこんなことになってしまったのか。日本語 UD 関係者は UD 以前から「単語」単位の係り受けに取り組んできたので、その延長なのだろう。ここでいう「単語」は超短単位といって、短単位をもとにし、さらに用言の語尾を切り出したもの。もちろん語ではない。

上記論文の著者にかぎらず、日本語 UD 関係者の間では、文節は日本語独自の単位であり、世界では通用しないという思い込みが広く共有されているように見える。しかし、トルコ語やフィン語の orthographic word は文節によく似た単位であり、文節はさほど奇異なものではない。むしろ、接辞に係り受けをつける方針の方が異常で、他の言語の例を知らない。形態論の範囲の現象を統語的に扱うのは、単に気持ち悪いだけでなく、UD が想定していないので、品詞・素性の通言語的一貫性も損なわれる。日本語処理を英語や中国語と同じようにしたかったのだろうが、英語も中国語も類型論的に非典型的な言語であり、そんなものを見ていても通言語的な標準は確立できない。

ある日本語 UD 関係者は、統計的機械翻訳に取り組んでいて、文節の不便さを痛感したとのこと。日英や日中のアラインメントを高精度に行うには、両言語を意味的にほぼ同じ粒度で区切り、その単位で構文木を作りたい。それは理解できる。しかし、日英や日中がよくても、日本語・トルコ語や、日本語・フィン語の対応づけに困ることからわかるように、本質的な解決にはなっていない。トルコ語やフィン語を含む UD共通方針そのものの変更を試みるか、あるいは UD から離れて応用依存の構文木の作成に舵を切ってもらうしかない。

また、英語や中国語の場合のように、係り受け解析は形態素解析 (「単語」分割、品詞タグ付け) の結果を直接使うべきもので、間にチャンキングを挟むべきではないという思い込みも見られる。しかし、UD方針に従うなら、形態素解析のあとに、接辞を自立語にくっつける (チャンキング) 必要が生じる。現存する言語としては世界で唯一の異常な書記体系を日本語が採用している以上、どこかで日本語独自の処理を行ってそのゆがみを吸収するのはやむを得ない。他の分かち書きしない言語は孤立語的であり、形態論の役割はないに等しい。*5 他の言語では、文節に近い orthographic word が与えられており、その内部構造を考える必要はあっても、語への分割に悩まされることは基本的にない。日本語の場合は正書法的に語が与えられていないし、それをいきなり認定するのは難しい。辞書と文法を用いて解析する以上、生産性の高い現象があれば、まずは要素に分解するのが得策。それが形態素解析。その後に形態素をチャンキングして語を特定することになる。

語認定問題の先行研究

実のところ、宮岡 (2015) は語認定問題に関してまったく新しい提案をしているわけではない。先行研究が存在する。

まず、日本語 UD の問題は Thoughts on the Universal Dependencies proposal for Japanese (2016) で既に指摘されている。問題はこの記事で言い尽くされている。宮岡 (2015) を読むまで、私が付け加えることは特にないと思っていた。おまけに提案されている解決策も大筋で宮岡 (2015) と同じ。著者の Greg Pringle のことは、Bathrobe というハンドルで以前から知っていた。しかし、こんなにガチの人だとは知らなかった。参考文献に、著者自身の 1977 年の学位論文が挙がっているが、その表題が The Word as a Linguistic Unit in Japanese: Towards a descriptively adequate characterisation of Japanese from a morphological point of view。道理で異様に詳しいわけである。

Pringle (2016) と宮岡 (2015) が指摘するように、明治以降国語学では、接語と接辞という観点からの区別を行わない傾向にあった。例外は毎度おなじみの服部四郎で、『附属語と附属形式』(1950) という論文を出している。採用している用語は異なるが、附属語は接語で、附属形式は接辞。服部は「附属語と附属形式を見分ける原則. I, II, III」として 3 つの原則をたてている。原則といっても、傾向を見ていたりして、明確な基準にはなっていない。より通言語的で一般的な語認定方針については Haslpelmath (2011) が検討しているが、やはり客観的な基準を打ち立てるのは難しそうである。宮岡 (2015) の方針は服部 (1950) とは異なる点があるものの、結論はほぼ同じに見える。

Pringle (2016) の提案も同じ。Pringle は文節をそのまま維持したがっているようなので、以下は妥協案という位置づけが正しいかもしれない。ちょっと埋もれている感があるので引用してみる。

treating:

1) particles following nouns as clitics

2) 'agglutinative morphemes' following verbs as suffixes or word endings

3) the copula as a separate word.

This results in sentence-ending question particles like か ka, conjunction particles like と to, and copula forms like です desu being treated as clitics or separate words, thus satisfying most of the demands of UD proponents. On the other hand, most 'agglutinative morphemes' attaching to verbs would be treated as affixes, avoiding the less fortunate consequences of discarding the bunsetsu.

http://www.cjvlang.com/Spicks/udjapanese.html

宮岡 (2015) の貢献

日本語 UD の問題は、Pringle (2016) のおかげで、UD 主要開発者の間で認知されている。Nivre の意見は大筋で私と一致するようである。

金山さんは、「食べた」は「食べ」「た」に分割すべきで、その根拠は丁寧の「まし」などを間に挟めることと主張しているが、これには賛同できない。宮岡 (2015) の説くとおり、「た」は屈折接尾辞で、他の屈折接尾辞とともに小さな閉じた集合を構成し、paradigm をなしていると見るべきだろう。「ます」は VV 型の (動詞から動詞を作る) 派生接尾辞。「食べました」の場合は、派生をおえた語基 (base) 「食べます」に屈折接尾辞「た」がついたと解釈できる。

同様に、「かわいさ」の「さ」は VN 型派生接尾辞、「子どもっぽい」の「っぽい」は NV 型の派生接尾辞であり、「かわいさ」、「子供っぽい」はいずれも 1 語。「さ」や「っぽい」は生産的であり、派生後の語を辞書にあらかじめ書いておくわけにはいかない。まずは形態素解析で「かわい-さ」と分割するのが常道だが、係り受け解析を行う前にチャンキングしておく必要がある。

方針はこれで良いとしても、宮尾さんも書いているように、日本の言語学 (国語学) は伝統的に接語と接辞という観点からの区分への関心が薄く、参照できる文献が見当たらないというのが問題だった。服部 (1950) はいくつかの例を示すのみだった。

そこで登場するのが宮岡 (2015)。表 2: 接辞と接語の対照表 (187-189頁) は網羅的に見える。コーパスと対照していないので、どの程度漏れがあるのかわからないけど。個別の事例についても 4、5 章で議論されている。これを土台にすれば、日本語 UD の問題の解決に踏み出せそう。

落穂拾い

『「語」とはなにか・再考』ということで、無印版がある。『「語」とはなにか: エスキモー語から日本語をみる』(2002)。無印版を読んだのはかなり昔。ぼんやりとした記憶をたどると、特に焦点を定めないまま日本語とユピック語を対照していただけだったと思う。宮岡 (2015) が本腰を入れて日本語文法に取り組んでいたのは意外だった。

複統合的なユピック語を長年研究していたら、形態論に関心が向くのは自然な流れ。宮岡 (2015) は語の認定から意味を排除することに力を入れている。統語論も形態論との絡みで必要な場合に限って取り上げている。照応には触れない。当然ながら依存文法への言及もない。

文節との違いで大きいのは、格助詞を接語とすること。根拠は、「男だけが」のように接語「だけ」を挿入できることなど。服部 (1950) も同じ判定だが、服部はさらっと述べているだけなので、注意せず読んでいたら見逃しかねない。「印欧語名詞のような屈折変化あるいは名調の格変化(対格,奪格/生格)とも,日本語の屈折とも,まったく別ものであるのは明らかである」(p.286) ということで、印欧語との比較はするが、アルタイ諸語に言及しない。服部 (1950) は、タタール語の /ɣa~qa/《に、へ》、 /nə/《を》、/ta/《の所に、において》(p.481) を附属形式 (接辞) 扱いしている。この点で、現代日本語は非アルタイ的と言えるかもしれない。モンゴル語トルコ語接尾辞は語基の母音調和の影響が及ぶし、いかにも従属的な印象を受ける。満洲語の場合はモンゴル語よりも日本語に近い感じがするが、服部原則を適用すると接辞と判定できそう。

屈折変化する前接語 (enclitic) が通言語的にめずらしく、日本語の特徴のひとつといえるという指摘も、いままで意識したことがなかった。

接語と接辞を区分して、接辞を係り受けの単位から消していくとする。そうすると品詞と素性の大改造が必要となる。UD印欧語族的な屈折の扱いに引きずられているのだと思うが、屈折接辞には品詞が与えられず、素性で表現されている。日本語処理に慣れていると違和感がある。ともかく、いまの日本語 UD が事実上無視している universal features を使いまくらないといけない。

宮岡 (2015) の提案のうち、UD と衝突しそうなのが、4.6.2 複合法。「語幹間 (+) のところに“助調”その他いかなる語も挿入できない固い結合の複合(1語) にかぎって用いている。」(p.245) とのことだが、判断が揺れそうだし、なんだかんだ言って orthographic words の影響が強い他の言語の UD プロジェクトとも対立しそう。

Pringle (2016) は、意味論をもとに文節を否定する Butler et al. の議論をバッサバッサとなぎ倒している。これを見て思ったのだが、トルコ語の inflectional group (IG) は本当に必要だろうか? IG の必要性を示すとされる例文:

mavi araba-da-ki-ler uyu-yor-lar

青い 車-に-いるの-たち 寝て-いる-[人称接辞]

この例文では、青い (mavi) のは車 (araba) であって車にいる人たち (-ki-ler) ではない。それを依存構造で明示するために araba-da と -ki-ler に分割し、mavi を araba-da に係らせる。しかし、そもそも -ki は語の外から修飾できるのだろうか? 係ってくる語が必ず araba を修飾するのなら、araba-da-ki-ler をそのまま持っておいても問題なさそう。なるべく意味が透過的な表現を作りたいという気持ちはわからないでもない。形態統語法自体が自立性を持っていて、思考を言語で表現する際には、その様式に従って型どっていくと考えると、言語の形態統語的表現と意味表現にある程度ずれが生じるのはやむを得ないように思う。宮岡 (2015) の執拗な「カタチ」の議論もそういう主張だと理解している。

2017年6月27日 追記: スライドにした。Nive が アイヌ語に UD を適用している論文も教えてもらった。アイヌ語は人称を表す形態素が、特に動詞に義務的につくが、これらを一律に接語として扱って係り受けをつけている。

2017年9月13日 追記: 読み物として、Haspelmath による研究史の概観 (Non-)universality of word-classes and words: The mid-20th century shift が面白い。学校文法、構造主義、生成文法、類型論をみたとき、構造主義は学校文法の素朴な文法概念から離れて言語ごとの個別主義を打ち出したけど、生成文法は構造主義を忘れて学校文法へ回帰したという話。普遍的とされるものをどうやって普遍的に認定するかを詰めておらず、昔の素朴な概念を使いまわしていると主張する。この説明からすると、我々が UD で困っているのは、生成文法の人が放置してきた問題を拾っているからといえる。Halpelmath は類型論の人なので、生成文法の人には反論がありそうだけど。

Haspelmath (2015). Defining vs. diagnosing linguistic categories: a case study of clitic phenomena. が面白そう。

*1Unicode と似ている。Unicode のある世界はなかった世界よりも確かに便利になった。とはいえ、Unicode を使うと、各文字が抱える難しい問題が消えてなくなるわけではなく、どこかの段階で処理しないといけないことには変わらない。それどころか、各言語・文字特有の事情を一箇所に集めることで難易度があがる。

*2教師なし文法獲得に関しても、提案モデルをなるべく多くの言語に適用して性能を測りたいという需要はある。

*3:日本語処理がガラパゴス状態なのは、うちの研究室の責任が大きいという指摘をとある日本語 UD 関係者から受けたことがある。私も問題意識は共有している。

*4トルコ語係り受けの単位と inflectional group については 2011 年にこの雑記で取り上げたことがある

*5チベット語は膠着的だが、現在のところ UD に入っていない。

2017-04-24

日本語「形成」論

崎山理. 『日本語「形成」論: 日本語史における系統と混合』(2017)

先週某氏に出版されたことを教えてもらった。簡単なメモ。長文を書き散らす時間が確保できない。

日本語形成過程におけるオーストロネシア語族との「混合」を著者は長年主張してきた。その著者が80歳になる年にモノグラフを上梓した。研究の集大成ではないかと期待されるところ。知りたいのは、魔法の箱たる「混合」の中味。オーストロネシア語族話者がいつ、どの経路で日本に流入し、どのような形態の接触により「混合」が起きたと考えているのか。

実際に読んでみると異常に見通しが悪い。著者の仮説がまとまった形で示されない。結論にあたる章がなく、唐突に本論が終わる。では最初に仮説の全体像が提示されているかというと、第I部の表題は「従来の日本語系統論」。本書に散りばめられた断片的な記述を読者が拾い集めて再構成しなければならない。まとめて示すべき仮説の全体像がそもそも存在しないのかもしれない。だとすると、(1) 証拠を収集、(2) 仮説を提起、(3) 批判に耐え、対立仮説をつぶして確立される、という一連の流れのうち、本書は第1段階に留まっていることになる。

なぜこんなことになっているのか。推測だが、仮説が著者の人格と分かちがたく結びついていて、攻撃されうる要素をなるべく表に出さないように細工した結果ではないか。例えば、まえがきを見ると、いきなり DNA と言語系統を結びつける研究の批判からはじまる。*1 もちろんこの話には前提がある。DNA を見る限り、オーストロネシア語族話者が日本語話者の遺伝子プールに貢献したことを積極的に支持する証拠がない。しかし崎山はその件には触れない。読者としては、別に誰がとなえていても良いので、各種の証拠と整合する仮説が知りたいのだけど。

DNA に触れたので、著者が言及しない文献を挙げてみる。松本克己も単系統の Y-DNA と mtDNA だけを見ていたが、最近の流行りは全ゲノム SNP 解析。データサイズが大きいし、単系統ではなく組み換えがある。現代の沖縄県民 (沖縄、宮古、八重山の3地域) のサンプルの分析を見ると、台湾原住民との関係がまったく認められない。崎山は、オーストロネシア語族話者のなかでも、台湾の住人ではなく、台湾を出た系統が日本に入った可能性を考えている (p.24) が、それでも、まあ厳しいだろう。

とにかく、人類史を解明するための武器としては、DNA は量、質ともに圧倒的。現代人のサンプルだけでもわかることが多いのに、これも昨今流行りの古代 DNA を使えば、過去の状態が直接観測できてしまう。*2 骨形態などはどこかに吹き飛んでしまった。言語史の研究も、この先 DNA の分析に従属していくことになるはず。

ゲノム SNP を分析すると、人間集団の混合とそのおおよその時期が推定できる。子孫がいずれの言語を受け継いだかはわからない。しかし、少なくとも、人間集団 (特に文字を持たない集団) が、遺伝痕跡を残さず言語に影響を及ぼすことは考えにくい。インドの Parsi (ゾロアスター教徒) のように遺伝的に孤立していると想定された集団ですら、母系ではインド原住民との混合が見られる。大雑把に言って、全ゲノム SNP で、少なくとも 10% 程度の貢献が認められないようでは、大規模な言語接触の仮説は維持できない。

次は「混合」。第3章が「世界における混合語」という魅力的な表題だが、たった7ページで終わってしまった。原論文 (未見) は21ページあるのに。何が起きたのだろうか。そもそも混合説が支持を得られないのは、「混合」が魔法の箱にとどまっているから。現象を整理して、そこに成り立つ規則性を抽出し、それが日本語の場合にも当てはまることを示す必要がある。*3

一番紙面を割いているのは音変化。オーストロネシア諸語の coda を一律に落として開音節化するのは良いとして、日本語のアクセントに関する議論はよくわからない。語頭音節起源 (1群)、語末音節起源 (2群)、音節全体起源 (3群) に分ける (pp.70-71) が、分岐条件がわからない。関西で1音節名詞が2拍で実現される現象について延々と議論している。これがオーストロネシア語族との関係で何を意味するのかよくわからない。対応については、1群は類聚名義抄体系で低平調 (L(H))*4、2群は名義抄体系で高平調 (H(H)) に対応すると言いたいらしい。仮にこれを受け入れたとしても、この現象を tonogenesis と解釈するのは受け入れがたい。1音節名詞は2種類だけではない。類聚名義抄体系においては、解釈次第だが、1音節名詞は少なくとも3類からなる。残りの H(L) が説明されないまま。さらに Shimabukuro (2007) によれば、本土祖語と日本祖語 (Proto-Japonic) の1音節名詞は4種類からなる。

あとは気づいた細かい話が2つ。1つは隼人。「最も遅く日本列島に到達したオーストロネシア語族は、古墳時代以降の熊襲・隼人であった」(p.232) と主張する。熊襲はそもそも実在が疑われる。隼人も、永山 (2009)によると、「古墳時代南九州は、中期までは副葬品などの面で全国的傾向と大きく外れることはないが、後期に入ると現在の鹿児島県本土域は地域的独自性が増していく」(p.237)。外来集団の流入を考えずとも、比較的新しい時期の孤立によって説明できそう。「隼人は、七世紀後期、律令体制建設に邁進する政府によって設定された「擬似民族集団」」(pp.237-238) と見るのが妥当。

隼人と同じページの記述。「琉球の古称ウルま「宇流麻」も、ウル島が語源である。異説ではウルを鬱陵島にこじつけるが、地名の語源として地域的一貫性を欠く」(p.232)。私の知る限り、ウルマは知識人がもっぱら和歌で用いた雅称であって古称ではない。もとは藤原公任和歌に由来し、そこでは鬱陵島を指していた。

*1:明示されていないが、批判の対象は明らかに松本克己

*2:日本でも 2016 年になって三貫地縄文人の全ゲノム SNP 分析が出た。

*3:去年、類型論のデータを使ってその真似事のようなことをした。

*4:例外的な上昇調「歯」を除く