Hatena::Grouprekken

murawaki の雑記

2019-05-26

昆虫とままごと

いわゆる人工知能バブルはまだ続いているようで、大学や大学院*1入試倍率は高いし、企業からの問い合わせも絶えない。その一方で、知性というものに対する世の中の認識と実態とのずれは解消される気配がない。計算機にとって何が簡単な問題で、何が難しいかは、人間の素朴な感覚と大きくずれている。例えば東大入試を解くなんてのは実は簡単な部類だが、世間では東大に合格するのは賢いと思われている。こうした世間の誤解に乗っかった危ういプロジェクト*2もあった。

昆虫とままごとは、最近私がたとえに使っているネタ。昆虫は下等生物の一例として取り上げているだけで、私が特に昆虫神経系に詳しかったりするわけではない。言いたいことは、現在計算機で実現できている (あるいは近いうちに実現できそうな) 機能は昆虫のそれのように下等な仕組みだということ。ままごとは、特におままごとというと、幼稚な物事のたとえに使われる。だからこそ私は例に使っているのだが、しかし、私には圧倒的に高度な知性の産物に思えるし、実際ままごとができるロボットを作れる目処は立っていないはず。

昆虫的なシステムの例は機械翻訳ニューラルネットの導入とともに急激に品質が向上したことで知られている。*3質の面で機械翻訳が人間の翻訳者にかなわないとしても、圧倒的なコストの差を背景に、社会が機械翻訳を前提として作り変えられるのではないかと真面目に議論されている。

では、その翻訳器は何をやっているのだろうか? 翻訳器は、原言語の文を入力として受け取り、目的言語の文を出力するというわかりやすいインターフェースを持っている。中身はどうなっているかというと、適当なニューラルネットのユニットを適当に組み合わせてある。その組み合わせ方にはいろいろあるが、そんなことはここではどうでも良い。ともかく、適当な入力刺激を受け取ると、適当な信号がネットワークを流れていって、適当な反応を示す。条件反射的で、熟慮も何もあったものではない。条件反射というと犬を思い浮かべるが、下等さを強調するために私は昆虫を持ち出すことにしている。もっとよい比較対象があるかもしれないけど。

実用的な機械翻訳システムを訓練するには、原言語と目的言語の文の対が大量に必要になる。その数は数百万から数千万。もっと少量のデータをうまく汎化できないのかと思わなくもないが、ともかく、大量のデータで殴りつけると、そんな原始的な仕組みでもだいたい学習できてしまうのである。これは何を意味するのだろうか? 計算機による実現可能性という観点で知性の高度さを捉えなおすと、人間の翻訳者の作業の大部分は、実は知的でも何でもなかったことになる。このように一見知的だが実は知的でない仕事はこの社会のあちこちに転がっているはず。

次はままごと。ままごとは計算機にとって圧倒的に困難な課題。それを確認するために研究の現状を見ておこう。もう2年前になるが、人間とロボット (チャットボットなどとは違い、現実世界を動き回るもの) とのコミュニケーションに取り組んでいる研究者の講演を聞く機会があった。そこでは、人間が対話を通じて教示することで、ロボットが物の名前を学習するという課題に取り組んでいた。名前というのは難しいもので、普通名詞固有名詞か、普通名詞だとすると、物体のどんな要素がその名詞と結びついているかが問題になる。ところが、その研究では、名前の固有名詞性を仮定していた。特定の研究がどうというのではなく、人類の研究の現状がその程度なのだろう。

それとくらべると、ままごとは何段階も高度。Google Images でままごと検索すると気合の入った既成品ばかり出てきて良くないのだが、もっと素朴な設定で、例えば薄く細長い木の板を包丁に見立てたとする。見立てるというのは実に高度な知的営み。現実にある板が板であることはもちろん認識している。そこに包丁という虚構の概念を紐付ける。しかもそれが虚構であることを認識し続ける。その木の板で何かを切る動作をしたとする。切る機能は虚構であるところの包丁に由来する。現実には切れていなくても、仮想的には切れていることなっている。つまり現実に関する認識と虚構に関する認識が紐付けられた状態を維持したまま更新されていていく。

ここまででも、計算機上での実現の困難性に打ち震えるほかないのだが、ダメ押しに、複数人でのままごとを考えてみる。複数の参加者が難なく意図を共有できているように見える。しかし、現実に関する認識の共有はともかくとして、虚構に関する認識がなぜ自然にできてしまうのだろうか? ままごとに限ると、調理に対象が限定されて意図が推測しやすいと思われるかもしれないが、ごっこ遊びは幼児に広く観察される現象である。模倣の対象が一般に確立されたものでないかもしれない。初見のごっこ遊びであったとしても、意図の共有に大きな困難があるようには見えない。そこにはおそらく生得的な何かがある。そして、それは人間をその他の動物とわける何かである。

さて、私は日本の大学に所属する研究者であり、懸案は年々悪化する環境のなかでどうやって生き残り、自分が重要と信じる研究を続けるかである。安易な生き残り策として挙がるのは、知的なようで実は知的でない問題を解き、高度な人工知能として喧伝し続けること。もちろん本当に重要だと思っているのはままごとの方。しかし、すぐに実用化して金になりそうな研究以外に何の価値もないと思われている以上、ままごとの研究をするには何らかの cover storyでっちあげなければならない。どういう話がよいだろうか?

*1:それぞれ工学部情報学科と情報学研究科知能情報学専攻を指す。

*2:実働の研究者はもちろん実態がわかっていたにも関わらず。

*3機械翻訳の研究を横から眺めていると、できる部分はできるようになったけど、できない部分はできないままだし、そこは何ともなっていない印象がある。

2018-08-05

Areal pressure in grammatical evolution: An Indo-European case study

Chundra Cathcart, Gerd Carling, Filip Larsson, Niklas Johansson and Erich Round. 2018. Areal pressure in grammatical evolution: An Indo-European case study. Diachronica 35(1). (appendix, code).

言語変化には縦の継承と横の接触という現象が関わり、両者をどうモデル化するかはいまだに決定打のない問題。この論文は普通はあえてやらないことをやっている。具体的には、縦のモデルたる系統樹モデルを使って (つまり接触については陽にモデル化せずに)、特徴を fitting し、系統樹上で変化の起きた時刻と場所を推定する。次に変化の時刻と場所をかきあつめて、2つの変化の時刻と場所が近ければ接触の可能性があると考える。

類型論の特徴の変化を単純化、複雑化、中立の 3 種類に分類し、それらと接触の関係を調べている。著者らは、複雑化に分類される変化は有意に非接触的だと主張している。

そういう結果が出ても不思議ではないが、手続きに微妙な点がいろいろある。そのあたりを整理するために書き出してみる。

系統樹モデルの限界

接触があると系統樹モデルは失敗するかもしれないというのが話の前提。この前提がありながら、系統樹を使って推定した結果から接触の分析を行うところがこの研究の意外性。

系統樹に沿った特徴の時間変化を考える。与えられるのは (時刻つき) 系統樹と葉の状態。推定するのは内部ノード (根を含む) の状態と、変化を支配する遷移率パラメータ

魔法があるわけではない。子孫が同じ状態を共有していれば、それらの共通祖先も同じ状態だと推定できる。直感的にはそんな感じ。もちろん基本的には古い時代になればなるほど推定の不確実性が高まる。

系統樹モデルにおいて接触はどのような影響を及ぼすか。1 例を示す。各ノードが言語、その色が着目している特徴の状態を表す。? の記された内部ノードの状態は本当は知らない。

f:id:murawaki:20180805161948p:image

図 (a) が実際に起きた変化とする。矢印が接触を表す。モデルに推定させると、図 (b) のような結果が得られる可能性が高い。バツは変化の起きた地点を表す。このように推定した方が変化の回数が少なく、高い確率が得られるから。

接触があるのに系統樹モデルの適用を強行した場合、こんな感じの誤推定があちこちで起きるはず。つまり、系統樹モデルから接触を調べるのは garbage in, garbage out である危険がある。あえてやろうとは思わない。

祖先性制約

この問題への対策であると論文中で明確に主張しているわけではないが、著者らは系統樹モデルに祖先性制約 (ancestry constraint) を導入していることを強調する。よく見ると、今回の論文の第 1 著者が 2015 年の論文の第 2 著者だった。しかし、2015 年の論文言語学的な分析と統計モデルの使い方の両方が本格的で驚いたが、今回の論文統計面では怪しさが目立つ。やはり Will Chang が特異的にすごかったのだろうか。*1

祖先性制約について振り返っておく。現代語データに加えて文献記録の残る古代語のデータを系統樹モデルに与えるとき、通常は古代語も葉ノードにする。現代語は古代語の直接の子孫とは限らず、文語の近い親戚であるところの口語の子孫と考えた方が良い場合がある。このとき、内部ノードとして現代語・古代語共通祖語が系統樹上に設定される。共通祖語から古代語への枝がごくごく短いことが期待される。しかし、実際に推定してみると非常に長い枝が得られる場合がある。これは、共通祖語の状態が正解から程遠いものになっていることを示唆する。これに対し、祖先性制約は古代語が現代語の祖先となるよう取り得る系統樹候補に制約を加える。そうすると、古い時代にさかのぼる途中で強制的に古代語の状態になり、正解からかけ離れた状態を推定するのを防ぐ。

落ち着いて考えてみると、系統樹モデルで過去を復元したとき、実は既知であるところの過去には問題があったので対策を打ったという話である。既知の部分がそんな調子なら、本当に知りたいところの未知の過去についての推定結果が信用できるのかとつっこみたい気がしないでもない。現時点で得られるデータからの推定であって、データが増えたら推定結果も変わるものだとベイズ的に捉えるのが良いだろう。

祖先性制約は接触への対策であるはずなのに、なぜか著者らはそれを議論しない。上図の例で言うと、もし右3つの葉ノード共通祖先の状態が黄色だと知っていたら、誤って青色と推定することはない。祖先が黄色で子孫が青色なら枝の途中で最低 1 回は変化が起きたことになる。これが祖先性制約の成功例。

失敗例も同じ図で説明できる。今度は右3つではなく、右4つの葉ノード共通祖先の状態を知っていたとする。この場合は制約が役にたたず、図 (b) のように推定を誤ったままとなる。

結局、制約があるところでは (ある程度) うまくいっているかもしれないし、うまくいっていないかもしれない。制約がないところではうまくいっているかわからない。そして、著者らはこの問題をまったく調べていない。

その他

一番の問題を片付けたので残りを順番に見ていく。

データとしては Diachronic Atlas of Comparative Linguistics (DiACL) を使っている。というか、作っているのは第 2 著者。印欧語族を中心にアマゾン流域の言語とオーストロネシア語族を追加したような偏ったデータベース。日本語は載っていないし、個人的には使う気がしない。しかし、古代語の類型論的特徴が少しだが登録してあるのは魅力的。*2

データベースの中から印欧語族のみ取り出している。Greenberg 以来の類型論の研究では、複数の語族、地域で成り立つということが重要だったはず。Dunn et al. (2011) に対する批判がそのままこの研究にもあてはまる。

古代語を含む基礎語彙データをまず Will Chang が改造した BEAST に与えて年代付き系統樹を得る。この際地理位置も同時推定しているが、詳細を説明しない。*3 内部ノード海上に置かれたりしているのを見ると、地理は考慮せずに単なるブラウン運動としてモデル化していると推測。根の地理位置の事前分布として平均 0、分散 0.001 の正規分布を緯度、経度それぞれに対して置くという意味のわからないことをやっている。一様分布では駄目なのか?

年代・地理位置付き系統樹を 20 個サンプリングし、根がユーラシアの外に出てしまった 2 個を取り除いて 18 個を分析に使う。どうしてこんなに少ないのか。自動処理なのだからもっと増やしても問題ないはず。1,000 個ぐらい使いたい。

基礎語彙から得られた年代・地理位置付き系統樹に今度は類型論的特徴を fitting する。得られた複数の木は Pagel and Meade (2006) のように、一つのモデルに組み込むと理論的にきれいだが、別々に処理している。内部ノードの状態はサンプリングすると得られる。

ノードの状態を決めると、それをもとに変化が起きた変化の位置 (時刻、地理位置) を推定する。親の状態が 1、子の状態が 0 のように親子間で状態が異なる枝に着目する。親から子の状態変化が 1 → 0 (死亡) なら、1 回しか変化が起きていないと仮定する。しかし、これは厳密には誤り。1 → 0 → 1 → 0 のように 3 回変化が起きた場合も考慮しなければならない。同様に、親子で同じ値であっても、1 → 0 → 1 のように偶数回の変化が起きた可能性もわずかだがある。*4

変化の位置を決めると、次に地理位置を決める。しかし、ここで説明している式 (7) は明らかに誤っている。気持ちを汲むと、親の時刻から変化地点までの長さに比例した位置を求めている。コードを確認するとそうなっていた。そうだとしてもやはり変で、仮にブラウン運動でモデル化していたとすると、親から子へと一直線に一定速度で動いているわけではない。本当は確率分布からサンプリングしないといけない。

6.1.1 でモデルの定量評価を行っているが、説明を読んでもよくわからない。またあとで読み返すかも。

6.1.3 で特徴間の依存関係について議論している。自明な、論理的な依存関係だけしか見ていない。ぼんやり読んでいると Greenberg 的な implicational universal も議論しているかのように錯覚する。著者らはモデルには何の対策も加えず、推定された結果における論理的に取り得ない値の組み合わせの割合を調べている。

とにもかくにも、こうして系統樹上での変化の時刻、地理位置が得られると、各変化タイプの性質を mean nearest-neighbor distance (MNN) という尺度で要約する。ある変化 (e.g. ある特徴の誕生) の系統樹上の事例に着目したとき、同じ変化の事例のなかで一番近いもの (nearest neighbor) の距離を得る。その平均が MNN。ここで距離を定義する必要がある。時間と空間を無理やり混ぜた変な尺度を式 (9) で導入している。

MNN を更にいろいろ補正して最終的な値が得られる。最初に書いたように、特徴の変化を、単純化、複雑化、中立の 3 種類にわけて傾向の違いを見たとき、複雑化だけは接触的ではないとしている。ここの補正も怪しい気がするが、気が向いたらまた考えることにする。

さてツッコミの時間。系統樹上で同じタイプの変化を探すという方針は妥当だろうか。わかりやすい例でいくと、SVO 語順の言語の話者が SOV 語順の言語だらけの地域にやってきて SOV 語順を獲得したとする。この場合、接触は起きているが変化するのは 1 言語だけなので、接触した言語は nearest-neighbor にならない。それで良いのだろうか?

印欧語族しか考えないのはどうか、例えばバルカントルコ語を無視してよいのかについては議論している。この議論系統樹そのものと絡めて議論すべきだと思う。系統樹は、時間をさかのぼるにつれてノードを合流させていき、次第にノード数が減っていく。古代に話されていた言語の数が少なく、特定地域に集中していたわけではもちろんない。子孫を残さずに滅びていた言語が同時代に存在したのである。これは何も印欧語族と他の語族との接触に限らず、印欧語族内でも起きていること。

言語は、一度置き換えが起きてしまうと、置き換え前の状態は失われてしまって復元できない。せいぜい若干の痕跡が確認できるくらい。言語データは本質的に厳しい。DNA であれば、接触が起きたあとの状態から接触前の状態が復元できてしまう。言語と同じ離散データだが、接触の結果起きるのは頻度の変動であって、上書きされるわけではないから。ある allele の頻度が 0.8 の集団と 0.4 の集団が混じって 0.7 になるといった具合。こういう点が数十万のオーダで得られるおかげで、純粋な形では現存しない幽霊集団であっても復元できてしまう。接触を言語だけから特定するのは限界がある。何とかして遺伝データを活用したいところ。

そんなこんなでツッコミどころの多い論文である。Diachronica は言語系の雑誌だし、査読者も編集者も統計的な部分をろくに理解しないまま通してしまった疑惑。*5

*1:第 1 著者が書いた Python のコードはかなり汚い。

*2autotyp 0.1.0中東の古代言語を収録している。

*3:公開されているコードには BEAST の設定ファイルは含まれていない。

*4:この論文が参照している Nielsen (2002) は正しく説明しているのに。

*5:editorial board に Quentin D. Atkinson がいるけど。

2018-06-15

再び語について

Universal dependencies (UD) は係り受け付与の単位を syntactic words (not phonological or orthographic words) と定めている。この方針をどう評価するか。また、日本語の場合に具体的にどうするか。現在は国語研の短単位を採用しているが、これをどう説明するか。作業中のメモを垂れ流していく方式

syntactic word に対する立場

syntactic word には様々な側面があるが、ここでは morpheme に対して word に特別な地位を認めるという点を考える。要点は、UD の word に対する方針に、理論的に反対の立場が存在するらしいこと。

今回の起点は de Marneffe (LREC2014)。Manning のグループ。前回の記事で確認したように、UD 主要開発者は UD 2.0 を出すまで類型論を認識していなかった。言語処理研究者から見える言語学業界には偏りがある。Manning の昔の論文に LFG のものがあった。おそらくその頃仕入れ知識が de Marneffe (LREC2014) に反映されている。

There is a longstanding, unresolved debate in linguistics between theories which attempt to build up both words and phrases using the same compositional syntactic mechanisms (and in which the notion of a word has minimal privileged existence) versus those theories where the word is a fundamental unit and which see the morphological processes that build up words as fundamentally different from and hidden to those that build up sentences, sometimes termed the lexical integrity principle (Chomsky, 1970; Bresnan and Mchombo, 1995; Aronoff, 2007).

Chomsky (1970) はネットに落ちていたのを斜め読みした限りでは、立場がよくわからない。次の論文は LFG。私は LFG についてほぼ何も知らない。morphology と syntax を区別する formalism だという理解。ある handbook の原稿によると、そこは LFG と HPSG との共通点。

反対に morphology と syntax を区別しない立場。distributed morphology がそういう立場だと伝え聞く。生成文法業界の個別の流派がどうなっているかよくわからないし、ましてや全体像を俯瞰的に把握することもできていない。例えば、最近時々名前を聞く nanosyntax は、morphology よりも細かい単位まで syntax の領域を広げているという理解で良いのだろうか。もっと普通の生成文法系の論文で もword の内部に対して文脈自由文法的な木を作っている例を見かけるが、どういう立場なのか。

日本語の syntactic word

これについては去年の記事に書いたので詳述しない。要点は、

  • syntactic word の認定は、実質的に affix と clitic を識別する作業となる
    • Haspelmath (2011) は、これまでに提案されてきた基準では、通言語的に妥当な概念としての word を認定できないと主張している
  • 服部 (1950) を例外として、syntactic word という観点からの研究は日本の言語学国語学の主流から外れまくっている
  • 宮岡 (2015)言語学者としては具体性をともなった日本語の word 認定案を提示している
  • しかし、もちろん、実際のコーパスアノテーションのための仕様としてはまったく不充分で、かなりの作業が発生することが予想される
  • 通称 Greg 文書のおかげで、現在の日本語 UDUD の word の方針に従っていないことは UD 主要開発者に認知されている

短単位

『現代日本語書き言葉均衡コーパス』形態論情報規程集 第4版 (上) という恐ろしい仕様書に、国語研的な経緯が記されている。

  • syntactic word の議論とはまったく無関係に規定されている
  • 30年以上の過去の経緯を引き継いで引き返せないところまできている。国語研がその遺産を捨てるとは思えない

脚注3

ここで言う「操作主義的な立場」とは,「これこれこういうものを「~単位」とする,という規定をするだけで,その「~単位」が言語学的にどのようなものなのか,単語なのか,単語でないとすれば,どこが単語とちがうのか,といった問題には,まったくふれない」(国立国語研究所1987:11)という単位設計上の立場を指す。

本文

調査単位の設計に当たって操作主義的な立場を取ってきたのは,「必要以上に学術的な議論に深入りし,実際上の作業がすすまないことをおそれたため」(国立国語研究所1987:12)であり,「学者の数ほどもある「単語」の定義について,まず,意見を一致させてから,というのでは,見とおしがたたない。」(同:12)からである。

このような立場に対しては,当然のことながら「語というのは何なのか,調査のため便宜的に設けられた単位にすぎないのかという問題が残る。」(前田1985:740)という批判がある。確かに,語というものを定義しようとする以上,語とは何かという本質的な議論を積み重ねていくことは重要なことである。しかし,国立国語研究所(1987:12)に,「原則的にただしい定義に達したとしても,それが現実の単位きり作業に役立たないならば,無意味である。語い調査というのは,現象の処理なのだから。」と述べられているように,語彙調査においては対象とする言語資料に現れた個々の事象を,的確に処理することも極めて重要である。このことから,これまでの語彙調査では,語とは何かという本質的な議論よりも,言語現象を的確に処理することを重視してきた。

どうするか: 妥協としての短単位

短単位の採用を擁護するとしたら、どのような論理でそれを行うか。

  • UDタスクとして難しい
    • 言語の構造的な比較をやってきたのは言語類型論で、そこでは難しい問題が昔から議論されてきたが、UD 開発者がそれを認識しだしたのは最近
    • UD 2.0 では類型論の立場からの提言 (Croft, 2017) が一部採用されたが、これで充分とは思えない
    • 類型論的に多様な言語が UD に加わるにつれ、UD の不備が明らかになり、仕様に変更が加わると予想
  • 自動変換を主な構築手段とすることには、仕様の変化への対応が容易という利点がある
    • 加えて、日本語係り受け自体は既存の資源があるなかで、コーパスを人手で作るという車輪の再発明に避ける人的資源は限られる
    • 一方で、自動変換はいろいろ怪しいので、少しは手動でタグづけした方が良いという話も
  • 既存の係り受けコーパスには、syntactic word を自動抽出できるものは存在しない
  • 短単位は syntactic word ではないが、自動変換でできることしかしないという方針を採る限り、一番現実的な単位
  • 問題

もし手作業を行うなら

  • いわゆる自立語は単独で word を構成するとみなす
    • 語彙的複合語に対しては UD も妥協している
  • いわゆる付属語を affix と clitic に手作業で分類する
    • ほとんどは辞書項目に対してタグを付与すればよいはず
      • 可能性に基づく品詞体系の品詞の単位でそれが行えるのか、語彙項目ごとの処理になるかは不明
    • 曖昧性があり、個別の出現への対応が必要だと現在わかっているのは、「らしい」
      • 「男らしい人」(affix) vs. 「どうやら男らしい」(clitic)

TODO: そもそも UD に取り組む理由

あまり問題点ばかり述べていたら、そもそもなぜやっているのかとツッコまれる。UD に取り組むべき理由も説明しないといけない。

  • バスに乗り遅れるな論というか、国際的な枠組みから日本語が取り残される可能性
    • それを言うと、コーパスのライセンスと入手しやすさも問題
  • 言語間の比較が妥当に行える資源がほしい
    • cross-lingual projection とか unsupervised grammar induction とか

2018-06-04

Universal Dependencies と類型論

研究史 (といってもここ 10 年以内だが) を調べてみるテスト。諸事情により、過去の経緯を把握する必要が生じたので。言語処理は普段はいい加減な分野で、誰に credit を与えるべきかあまり気にしないのだけど。

Universal Dependencies (UD) は通言語的に一貫した係り受け木を設計して、世界中の言語の treebank を作るプロジェクト。通言語的という点で言語類型論との関わりの深さは明らかなように思える。しかし、UD の主要開発者が当初からそれを認識していたようには見えない。彼らがいつからどのように関係を認識したのか。現状はどうなっているのか。そして今後どうなるのか。

Nivre

UD の代表は Joakim Nivre。transition-based parsing で有名な人。この人を調査の起点にする。

COLING 2016 の invited talk は直接聞いた。意表を突かれたことを覚えている。あの William Croft が Linguistic Typology Meets Universal Dependencies という論文を発表する予定だという話が出たので。

しかし Croft への言及があった文脈は function head 対 content head*1という係り受けの設計方針について。Croft が content head を採用するという UD方針に賛成しているという。それ以上の議論はなかった。

もう一つ、Nivre は Manning's Law を紹介しているが、このなかに類型論への言及がある。Manning's Law は、呉越同舟ななかでバランスを取りましょうという以上のことを言っているわけではない。6 つある項目の 2 番目が類型論への言及。

UD needs to be good for linguistic typology, i.e., providing a suitable basis for bringing out cross-linguistic parallelism across languages and language families.

しかし、いつ Chris Manning がこの見解を最初に述べたのかわからない。

RANLP 2017 の invited talk では、類型論への言及が増えている。William Croft に加えて、Martin Haspelmath の Comparative Concepts and Descriptive Categories in Crosslinguistic Studies (2010) を引用している。この論文は重要なのであとで振り返る。

github の issue を見ると、2016 年後半に Will Croft への言及が見られる。例えば Manning の 11 月 22 日のコメント:

BTW, there's been quite a bit of conversation off-GitHub between me, @jnivre and Bill Croft on how to define core vs. obl and subj/obj/iobj in the most typologically good way (though nothing is water-tight)

さて、今度は逆にさかのぼってみる。LREC 2016 の Universal Dependencies v1: A Multilingual Treebank Collection の時点では typology への言及がほぼない。"typologically different languages" という表現が一回出現するだけ。参考文献を見ても類型論色がない。

UD の諸母体

UD は既存のプロジェクトを統合する形ではじまった。LREC 2016 の論文が言及しているように、Universal Stanford Dependencies, Google の Universal Dependency Treebanks, Google の universal part-of-speech tags, Zeman らの tagset など。

Zeman et al. Reusable Tagset Conversion Using Tagset Drivers. (LREC 2008) は POS tag と feature について議論している。別々に設計された複数の tagset を統一体系に変換するが、その際になるべく情報を失わないようにしようというだけ。typology という単語すら出てこない。

Zeman et al. HamleDT: To Parse or Not to Parse?. (LREC 2012) も typology への言及がない。複数の既存の treebank をいい感じに変換しようという以上の設計思想はないように見える。

de Marneffe et al. Universal Stanford Dependencies: A cross-linguistic typology. (LREC 2014) は Manning のグループの論文。表題に typology とあるが、どういう意図でそうしたのかよくわからない。個別の現象議論はあるが、背後にある設計思想の説明がとぼしい。typology の論文は引用されていない。Chomskyan な文献と LFG への言及があるだけで、functional な類型論が認識されているように見えない。

McDonald et al. Universal Dependency Annotation for Multilingual Parsing. (ACL 2013) は Google の project。typology という語は出てくるが、いろんな言語を対象とするという以上の意味は見いだせない。

Petrov et al. A Universal Part-of-Speech Tagset. (LREC 2012) は GooglePOS tagset。この論文も本文に typology という語は出てこないが、universal を議論する過程でかすっている。universal な category の存在を支持するものとして Carnie (2002) と Newmeyer (2005) を引いている。いずれも生成文法系。類型論は Chomskyan や句構造文法系の研究とは溝が深そうだけど。反対に universal 懐疑派の例として Evans and Levinson (2009) を引いている。しかし結論が以下なので、論文を飾る以上の積極的な意味はなさそう。

we took a pragmatic approach during the design of the universal POS tagset and focused our attention on the POS categories that we expect to be most useful (and necessary) for users of POS taggers.

ざっとこんな感じ。UD 以前に類型論の研究が認知されていた形跡はない。UD 1.0 時代もそれは同じ。UD 2.0 にする際に類型論を認識し始めた、あるいは類型論を認識し始めた結果として改訂版を作ったというところか。

Croft (2017ab)

Croft (2017a). Linguistic typology meets Universal Dependencies を見ると、UD 2.0 になるときに Croft の意見が一部反映され、残りは反映されなかったらしい。これは github の issue の諸コメントとも整合する。

改めて UD の構成要素を考えると以下の 5 種類が挙げられる。

Croft の議論の対象は係り受け方針と label。方針abstract にある通り。

dependencies should be based primarily on universal construction types over language-specific strategies. syntactic dependency labels should match lexical feature names for the same function; dependencies should be based on the information packaging function of constructions, not lexical semantic types; and dependencies should keep distinct the "ranks" of the functional dependency tree.

construction と strategy という 2 つの概念を導入し、両者を区別している。construction は意味・機能を捉えたもので、通言語的に定義できるとする。strategy は construction を実現する具体的な形態統語的手段を指す。例えば、predicate nominal construction という通言語的な construction が設定できる。英語は copula strategy を使う。論文では言及されていないが、ロシア語は copula なしの strategy を使う。両者を統一的に扱うには、content head の係り受けを採用すると良い。それだけなら、ロシア語は良いとして、英語の copula が迷子になる。そこで common strategy にも label を与える必要がある。*2

Of course, elements in a universal scheme that represent strategies, at least the most commonly occurring strategies, will also be needed.

論文後半では information packaging という観点からの label の体系化を試みている。UD 2.0 ではこの提案はほぼ無視されている。ヨーロッパでは馴染みのない概念だからか。

construction を優先するということは、形式と意味の等価性を軽視するということ。言語特有の下位範疇を特別に用意しない限り、各言語特有の形式と意味との関係は一般に失われてしまう。言語間で比較可能にするには仕方がないか。

Using typology to develop guidelines for Universal Dependencies は NoDaLiDa Workshop on Universal Dependencies (2017) の invited talk の extended abstract。Croft (2017a) よりも個別具体的な現象議論していて面白い。最初の方で、

There are different and more difficult issues in the POS tagging and morphological feature tagging of the UD enterprise, which I will not go into here.

と断っている。POS tag と feature の方が難しいという認識は興味深い。

Haspelmath (2010)

Martin Haspelmath. 2010. Comparative concepts and descriptive categories in crosslinguistic studies. Language (86).

類型論の研究でよく問題となるのは比較の妥当性。ある言語のある現象と別の言語のある現象を比較するとして、はたしてその比較は妥当といえるのか? この問題をつきつめると Haspelmath (2010) ができあがる。

Haspelmath (2010) は 記述範疇 (descriptive category) と比較概念 (comparative concept) を区別する必要性を論じる。比較に使うのは後者。係り受け label もそうだが、Croft が触れなかった POS tagset にも関わる議論

記述範疇は言語特有の範疇。比較概念は言語間比較のための概念。両者は別。比較概念は言語に依存しない conceptual-semantic concept, general formal concept, other comparative concept によって組み立てないといけない。general formal concept の例として Haspelmath が挙げているのは precede, identical, overt。ここまで来るとたしかに言語依存性はない。

5 節でいろいろ例を挙げている。例えば 5.2 で Future Tense を以下のように定義する。

A future tense is a grammatical marker associated with the verb that has future time reference as one prominent meaning.

future time reference は conceptual-semantic concept, verb は comparative concept、grammatical marker も comparative concept。associated with と prominent が曖昧なので明確化する必要があると述べる。tomorrow のような副詞を対象から外すには、grammatical marker のような comparative concept を使わざるを得ない。

スペイン語の future tense は probability を表すが、habituability を含まず、(Haspelmath の専門の) レズギ語は反対に habituality を含むが probability は表さない。このように future tense と言われるものの機能は言語によって異なる。Haspelmath の比較概念は、定義にある future time reference を行うための grammatical marker であれば、機能の範囲の違いを無視して対象とする。結果として、各言語の体系を無視して比較のために一部を切り取るような操作を行うことになる。category ではなく concept だと言っているのはそれが理由だろう。

一方 universal dependencies で付与される品詞と係り受け label は全体を区分けしてくという意味で範疇。*3しかし Haspelmath が言う通り、範疇は厳密には言語間で比較できない。

Descriptive formal categories cannot be equated across languages because the criteria for category-assignment are different from language to language.

要するに、ある言語の VERB と別の言語の VERB は厳密には比較可能でないし、これは本質的な問題なので、今後比較可能になることもないだろう。結局のところ UD が何を行っているのかは曖昧なまま。

*1:syntactic head と semantic head とも言う

*2議論がややこしいが、結論としては cxp を与えるらしい。UD 2.0 にはこの label は採用されず、cop を使う。

*3:feature が範疇と言えるかは微妙。

2017-08-27

節か否か

前回のネタから引き続き、Universal Dependencies の日本語版の問題。今回取り上げるのは、係り受けのラベル。amod (adjectival modifier)acl (clausal modifier of noun (adjectival clause)) の使い分け。修飾する単位が、前者は単語、後者は節 (clause)。同じ問題が副詞 (advmodadvcl) にもある。

問題の所在

英語の場合、

red meat

は red <-(amod)- meat、

many online sites offering booking facilities

sites -(acl)-> offering とラベルをふる。前者は語の修飾で、後者は節の修飾。

日本語でも

赤い 目

は 赤い <-(amod)- 目 で良さそうな気がする。「とても 赤い 目」のように程度の副詞形容詞を修飾できるのも英語と同じ。

しかし、

目 が 赤い 人

時間 に 厳しい 人

いま とても 熱い 話題

になると節っぽいので acl が良さそう。そう考えると「赤い 目」も acl にしたほうが統一的ではないかとも思えてくる。

関連して、形容詞名詞的な英語と違い、日本語の場合は動詞的で、

赤かった 目

のように活用変化する。「-い」も、現在なのか非過去なのか、ともかく何らかの TAM を表してそうという点でも英語とは異なる。

ざっと調べた限りでは、暫定的な結論として、以下の案が良さそう。

  • 一律に acl をふる
  • 節と解釈するには微妙な例があることを説明し、今後の課題とする

類型論

Universal Dependencies は類型論と関係が深い。世界中の言語に対照可能な解析を与えようというのだから。そこに沼が広がっているのは明らかで、パンドラの箱をあけてしまった感がある。

そんなこんなで、まずは類型論の研究を探してみたが、あまり収穫はなかった。調査開始前になんとなく認知していたのは Bernard Comrie の「アジア式」関係節に関する研究。名詞修飾表現について、寺村の「内の関係」、「外の関係」の分析を発展させたような話。今回ざっと見た限りでは、用例が動詞ばかりだったし、そもそも節か否かに関する議論は見当たらなかった。*1

次が 2016 年の論文

Jan Rijkhoff. 2016. Crosslinguistic categories in morphosyntactic typology: Problems and prospects. Linguistic Typology. 20(2).

Rijkhoff は、Dryer などの古典的な語順の類型論の研究が、Adjective, Genitive, Relative Clause 等の概念を定義することなく使っていることを批判している。しかし、代わりに比較対象として持ち出したのは Qualifying Modifier のような functional category。結局 morphological unit (adjective, genitive, relative clause) の概念を明確化していない。

R. M. W. Dixon and Alexandra Y. Aikhenvald ed. 2004. Adjectives Classes.

この本は、そもそも類型論的に形容詞という概念が成り立つのかに焦点をあてている。Dixon の主張は成り立つというもの。ヨーロッパ的な名詞形容詞以外も、closed class の場合*2でも、積極的に形容詞認定していくという立場。*3

この議論においては、日本語は形容詞形容動詞という 2 種類の形容詞があるという点で面白いらしい。2 章 Anthony E. Backhouse の Inflected and Uninflected Adjectives in Japanese はそこにしか触れていない。9 章 Ho-min Sohn の The Adjective Class in Korean はもう少し広く現象を紹介している。Dixon からの流れで、朝鮮語にも形容詞はあるという立場。「目 が 赤い 人」と同じ構文の

[키가 큰] [사람]

を取り上げて relative clause だと言っているが、より基本的な「赤い 目」構文をどう解釈しているのか不明。

生成文法

生成文法方面ではけっこう研究されている気配があった。

Min-Joo Kim. 2002. Does Korean have adjectives?. MIT Working Papers in Linguistics. 43.

Kim (2002) は、朝鮮語形容詞は stative verb であるという立場。これは形容詞という概念をどう定義するかによる。ここで重要なのは次の主張。

apparent noun-modifying adjectives in Korean are predicates inside relative clauses.

ということで、relative clause だという立場。-n を relativizer だとみなし、

[ e1 yeppu]-n1 yeca

のように gap を導入して分析する。

Mark C. Baker. 2003. "Verbal Adjectives" as Adjectives without Phi-features. Proc. of the Fourth Tokyo Conference on Psycholinguistics.

類型論よりの生成文法をやっている Baker は日本語の「美しい女」構文を取り上げて、cannot enter into direct attributive modification in Japanese, but rather form relative-clause-like structures という。「い」がついているのが direct modification ではないという解釈。論文では、これを説明するために phi-features という agreement がらみの概念を導入し、日本語はこれを欠いているので direct modification ができないと説明する。

Menon (2013) は Malayalam を扱うが、従来研究として Baker (2003) に触れ、さらに Baker (2003) が取り上げていなかった「きれいな女」のような形容動詞も attributive modification を行えないことを指摘している。

Junko Shimoyama. 2014. The size of noun modifiers and degree quantifier movement. Journal of East Asian Linguistics. 23(3).

Japanese lacks direct adjectival modification という見方は Kuno 1973; Shibatani 1978; Whitman 1981; Dixon 1982; Miyagawa 1984; Makino and Tsutsui 1986; Urushibara 1993; Nishiyama 1999, 2005 で広く支持されているという。

しかし、Shimoyama (2014) は、direct modification である可能性が否定できないとする。そこで取り上げているのは微妙な話で、比較表現の解釈。

ジョンが一番高い山に登った。

における「一番高い山」が絶対的に一番高い山なのか、他人が登った山と比較して一番高い山なのか。

一番ジョンが高い山に登った。

だと後者の読みしかできない。この手の解釈はスコープの島制約と結びついており、finite relative clause だと制約が期待されるのに、実際には見られないという議論

Hiroko Yamakido. 2005. The Nature of Adjectival Inflection in Japanese. PhD Thesis.

この博論が従来研究の紹介をふくめて一番詳しそう。Yamakido (2005) も、3 章で、copular relative clause と解釈するには不都合な場合があることを指摘している。「ピーターが古い友だちだ」は Peter has been a friend for a long time の意味にしか解釈できない。Peter is old and Peter is a friend とは解釈できず、「ピーターが友達で、ピーターが古い」とは言い換えられない。attributive adjectives は intersective でない場合があるが、relative clause だとすると intersectivity が成り立つと期待される。次に時間に関する解釈を 3.6.2 で取り上げている。

4 章では急進的な主張を展開している。形容詞の -i, -ku、形容動詞の -na, -ni は case marker だと主張し、ペルシア語のエザーフェと比較している。真面目に読んで検討すべきかもしれないが、すぐに UD に採用するという話にはならないだろう。

雑感

まあこんな感じで、素人が付け焼き刃の調査でやっている。どこかから理論系の人と類型論の人を連れてきて投入したい。

*1Haspelmath の論文も 3.5. Relative clause で取り上げているのは動詞のみ。

*2アフリカのイボ語には形容詞が5個しかないとか。

*3:他の特徴との相関から日本語の歴史的変化を推測している部分 (p.35) は面白い。Stage One: Japanese lacked dependent marking. It probably also lacked head marking, showing syntactic function by the ordering of phrasal constituents within a clause. There was a single class of adjectives (the present inflected class), similar to verbs in their grammatical behavior.