Hatena::Grouprekken

murawaki の雑記

2010-02-24

Empires of the Silk Road

Christopher I. Beckwith. 2009. Empires of the Silk Road.

中央ユーラシアの通史。時間的にも空間的にも広すぎて、個人の手に負えるとは思えないテーマ。当然端折りまくり。重要な事件でもまったく言及されてなかったりする。

Beckwith という人は言語の人だと思っていた。しかしこの本では歴史をばりばり書いている。どうやら私の思い込みだったらしい。bibliography に挙げられた本人の論文一覧を見ると、昔から歴史をからめて議論してきた様子。

本文では主に歴史を扱っている。言語の議論は appendix と endnotes に押しやられている。私にとっては、むしろこっちが中心。本文は endnote の文脈を知るためにある感じ。内容的には、過去の論文で提示したものだったり、それが微妙に修正されていたり、初めて見るものだったり。初見のものでは、例えば、「月氏」の「月」が *Tokʷar/*Togʷar を写しているとか、「羌」が印欧語の *Klānk- から来ていて、「戦車に乗る」という意味だとか、にわかに信じがたいが面白い。

本文は完成度が低い気がする。(多分読者にとってあまり馴染みのない) 固有名詞が十分な説明なしにどんどん流れていく。これは Amazon (米) の書評でも指摘されている。著者の主張は prologue と epilogue にある。ここで挙げている論点ごとに章を立てた方が良くて、通史の形にしない方が良かったのではないか。通史としては、他人の論文のつまみ食いになっていて、議論が深化していない。自身の主張を証明する論拠という形で資料が配置されていないので、証拠もなしに主張だけしているような印象を受ける。

著者は Central Eurasian Culture Complex という野心的な概念を提案し、それが中央ユーラシアの諸集団に広く当てはまることを述べる。中央ユーラシアというと、トルコ系やモンゴル系を思い浮かべるが、著者は印欧語話者にかなり重点を置いている。また、印欧語話者の中でも、スキタイだけでなくローマなども Central Eurasian Culture Complex の例に挙げる。

これに対する支那などを大胆にも peripheral people と呼んでいる。peripheral people についても、中央ユーラシアとの関係で適宜言及している。しかし、その選択が恣意的に思える。シュメールやアッカドが一切出てこず、いきなりスキタイのような印欧語話者の話から始まる。まるで印欧語話者が文化を創始したかのような錯覚を受ける。

本文の最後の 1/3 ぐらいが "Modernism" 批判。Amazon の書評でも大不評。"Modernism" という言葉の意味は特殊。著者がやたら力を入ているが読み飛ばした。現代史を無理やり要約されても新情報がないのも問題だが、そもそもの不幸の原因は、この表題の本を手にとった読者がそんな議論を求めていないことにある。

あとは気づいた点を挙げてみる。

  • Chapter 4. p.106. 日本で comitatus にあたるのが「舎人」と言われてもピンとこない。著者の理解では、古墳時代から武士の成立までが連続しているらしい。殉死の習慣も連続的らしい。しかし、間に平安時代が挟まっているし、軍人の構成員も変化している。通俗的な理解と異なるので、強い主張であれば通説への反論を書いて欲しいところ。引いている Farris 1995 に何が書いてあるのか気になる。
  • Chapter 9. p.225. 明政府が反乱鎮圧を求めてドルゴンを招いたという。Ming government とは呉三桂のことを指しているのだろうが、misleading にもほどがある。
  • p.226 からのオイラトの説明が謎すぎる。そもそもオイラトが Noghay Horde の一部だったとか、一部がロシアに服属したとか。この部分の記述は、主にPerdue 2005 という未読の本によっている。表題が China Marches West: The Qing Conquest of Central Eurasia というところから推測するに、オイラトの史料をちゃんと扱っていないのかもしれない。 追記: その後自分で読んでみたら、ちゃんとした本だった。
  • p.227. ジュンガルの Khara Khula "Khan" というが、ハラフラはハーンになっていないはず。同様に、Baibaghas も Oirat khan ではない。宮脇淳子氏の論文を調べたら、ザヤパンディタ伝にはバイバガスをハーンと呼ぶ記述があるらしい。間接的な記述。「Khara Khula は1634年にハーンを名乗ったが、チンギス裔でないことから翌年殺された」と断定している。ハラフラが混乱の中で死んだというのは確認できるけど、ここまで断定的な記述をするからには根拠が知りたい。
  • Chapter 10. p.235. モンゴルの旗の説明をする時に八旗の話をするのは misleading。ニルが 300 人から構成されていたという話はほとんど無関係。
  • p.236. Battle of Jao Modo とか書かれるとガックリくる。モンゴル語の地名はモンゴル語で写して欲しい。
  • p.243. General (Shôgun) Toyotomi Hideyoshi と言われるとずっこける。
  • p.258. footnote 80. チベットがモンゴルの影響下でずっと統一されていたというのは明確な誤り。この部分、論文を引いていない。
  • Epilogue. p.345. Perdue 2005 を長々と引用している。ここが突っ込みどころ満載。Altan Khan を grandson of Batu としている。Batu Möngke のことか。the twelve Tümed (ten thousand-man units) としているのも misleading。Tümed 部があって、それが 12 の集団から構成されていたということ。Tümed の語源が tümen の複数形であっても、tümen が 12 個という意味ではない。

2010-02-07

日本語の機械翻訳が悲惨な原因

ねとすた動画 2月号大反省会 その8を見ていたら、不意に NLP の話が出てきて反応してしまった。twitter に一言だけ書いたけど、残りは長くなったので雑記に投げ捨て。

話の文脈。(twitter にように海外のサービスを使っていても) 結局日本で閉じていて、意外と外国とつながらない。それに答えての東氏の独演会。

話の中心は検索だけど、先に枝葉末節の機械翻訳ネタに反応してしまった。曰く、「自動翻訳が日本語が駄目なのは、結局漢字仮名交じり文と、あと分かち書きしないこと。」20年ぐらい前の認識としては間違ってないかもしれないけど、今は違う。基本的な言葉であれば、ほぼ完璧に自動で分かち書きできる。では基本的な言葉の自動翻訳がうまくいくようになったかというと、全然そんなことはない。仮に人手で分かち書きの正解データを機械翻訳システムに与えたとしても、ちゃんとした英語は生成できない。分かち書きしないことは、山ほどある困難の一つでしかない。

何が問題か。構造と語彙の違いだと考えている。構造の違いとしては、SVO と SOV の語順の違いがよく取り上げられる。話として分かりやすいが、これも当たっていない。(実際に機械翻訳に使っているかは別として) 現在は文中の S や V や O という文法的な範疇を同定するのは、日本語でも英語でもそれほど難しくない。V と O が分かればひっくり返せばよい。*1

構造が違うと何が問題か。同じであれば表層だけを見て変換すればよい。違いがあれば、言語の深層まで計算機が認識しないといけない。あるいは、表層だけを見た力技が通用しにくくなる。

構造の違いで大きな問題の一つは省略。例えば、主語の省略された能動態の日本語文を Excite 翻訳に与えると、やたら不自然な受動態の英語を返してくる。翻訳システムが省略要素の補完を放棄しているから。もう一つの問題として、モダリティの体系が全然違うことも効いていると思うのだが、具体例をすぐに思い浮かべられるほど翻訳をやっていない。

語彙の問題。訳語の選択がいつもまずい印象はある。ただしすぐに例を思う浮かべられない。

反対に、英語とフランス語とドイツ語とスペイン語ぐらいの間で、どうしてある程度翻訳がうまくいっているか。構造と語彙に共通点が多いから。同じ印欧語だからというのではなく、Standard Average European だから。一度発散した言語がまた収束している。SAE は文法上の扱いで、細かい特徴まで似ているという話だが、語彙も似ている。高級語彙がギリシャ語とラテン語を使って共通化している。表層的に違う語でも、翻訳を通じて言語を近代化しているのだから翻訳しやすいのは当然だ。

では日本語と構造と語彙が似ている言語は何か。韓国語。語順はほぼそのまま。語彙だって、元々両方とも漢語の影響下にあるだけでなく、韓国語は日本語をもとに近代化したから共通部分が多い。硬い文章なら全然問題なく翻訳できる。技術的には面白くない。

日本語と微妙な距離の言語の例はモンゴル語。語順などのおおざっぱな構造は日本語と共通。でも SAE と違って細かい文法的特徴はいろいろ違う。歴史上日本語と接点がほとんどない。起源は不明としても、歴史時代は基本的に発散してきた。語彙も共通しない。英語と中国語ばかりやってないで、こういう言語との間にベースラインの翻訳システムを作って、翻訳できなさ具合に頭を抱えるのがいいと思う。というかやりたい。誰かが現在と未来の地位を保証してくれるなら。

適切に例文を添えられない悲惨な論考になってしまった。一旦こうやって書きだしておけば、意識して訳文を見るようになるのではないかと期待してる。

日本語ネットが閉じているのは表記が原因か

本筋の検索の話。曰く、「ネットは島宇宙化しやすい。それをつなぐのは検索しかない。しかし日本語は文字が違う。オランダ語やインドネシア語なら同じアルファベットだから検索ワードで引っかかる。すると容赦なく外側に開かざるを得ない。」着眼点は面白い。しかし多分違う。

独立した話がいくつかある。一つは Google が言語判別をランキングに使っていること。例えば、google.co.jp から仮に英語のキーワードを入れたとしても、日本語のサイトが上位に来る。個人的にはこれが鬱陶しくて google.com を使うことが多い。同じ機能が日本語以外の言語でも効いているはず。だから利用者は同じ言語のサイトに誘導されている。というよりも、大半の利用者がそれを望むから Google がそうしている。だから、文字が共通というだけでは、言語を無視したランキングから想定されるよりもずっと少ない利用者しか訪問しないはず。もちろん定量的なデータは持ち合わせていない。

もう一つは、傲慢で、しかも自分が傲慢であることに気づいていないアメリカ人が、英語以外のページを頑張って読むなんて想像できない。わけのわからない文字は問答無用で忌避する。では同じアルファベットだからとインドネシア語のページを読もうとするだろうか。そのページによほど魅力がなければしないだろう。

最後に、日本語と表記が似ている中国語を考えればよい。日本語と中国語は検索によってつなげられているか。そんなことはない。普通の日本人は簡体字が読めないことを差し引いても、断絶しすぎではないか。思いつく例だと、中国語版 Wikipedia の執筆者は日本語版を結構見ているようだが、逆はあまりなさそう。聞くところでは、中国語のネットも閉じた独自の世界を築いているらしい。中国人は英語ができる印象があるが、それは母数が多すぎるから。大多数の中国人は英語ができずに中国語で閉じているはず。

結局、日本語ネットが閉じている理由は、オランダ人と違って日本人は英語ができないことに求めればよい。表記が検索に与える影響は原因としては小さいと思う。

*1:RBMT の話。長距離の語順入れ替えになるので、構造を使わない SMT は爆死する。構造を考慮した SMT ならうまくいくかもしれないし、うまくいかないかもしれない。

2010-02-03

Markov Chain Monte Carlo with People

Sanborn, A. N., & Griffiths, T. L.: Markov Chain Monte Carlo with People. NIPS 2007. (pdf).

NLP に分類したけど、論文に NLP の話は出てこない。探したら真面目に解説しているスライドがあった。こちらを見た方が良い。

目的。人間の頭の中にある (と想定される) 確率分布を知りたい。そのために、その分布からサンプルを引き出したい。サンプルをたくさん集めれば、元の確率分布が復元できるはず。しかし、人間は、見せられた絵がどれぐらいキリンっぽいかとった質問にうまく答えられない。人間の言語は離散的で、連続的なものをうまく表現できない。でも二つ絵を見せて、どちらがキリンっぽいかという質問になら、簡単に答えられる。

そこで MCMC で sampling された値を採択するか否かを人間にやらせる。つまり人間は Yes/No question に答えていく。具体的には、二つのデータを見せられて、どちらかを選ぶ。これを十分に繰り返すと、得られる値の列が、知りたい確率分布からサンプルされたものになっている。

中身は (一般化されていない) Metropolis 法。Bayes 則を使う。人間が Bayes 則に従って判断していると仮定。仮説は二つがあって、一つはマルコフ連鎖の現在の状態。もうひとつは提案分布から出た次の状態の候補。事前分布は一様と仮定。反対側の分布も g(x1) = g(x2) と仮定。これらの仮定により単純な採択関数が得られる。この関数は認知の人は昔から使っているというけど、全然知らない。

実験1。既知の分布が MCMC で復元出来るか調べる。しかし、訓練で正規分布を人に覚えさせるというのは結構不自然。結果、平均は割とあってるけど、分散は実際より大きくなる。

実験2。画像をカテゴリに分類する問題。9次元の自由度を持つ棒が、キリンか、馬か猫か犬かを表しているとして、人間の頭の中の prototype をあぶり出す。

他に何か応用例はないかと、この論文を引用している文献を探す。音素について何かやっているらしい論文を見つけた。まだ調べていない。

使い道。ぼんやりした分布そのものを得たい場合。自然言語処理は離散値の天下なので、あまりそういう話がない。欲しいのが離散値だったり、データが離散値だったり。正規分布ですら、使ったとしても裏方にまわっている場合がほとんど。だから、人間に答えを聞く場合、Yes/No question だったり、A か B か C から選ぶといった具合に離散的な値を答えさせている。そうしたデータを使うとなると、分離超平面を求めるといった話になってしまう。領域の端っこを求めましょうという問題になってしまっている。でも、本当に知りたいのは中心のことも多いのではないか。

しかし、言語分野で需要がないとも思えない。そもそも prototype というのは言語から出てきた話のはず。basic level category なんかをこれで扱えたりしないものか。