Hatena::Grouprekken

murawaki の雑記

2014-10-28

Wiktionary がうまくいってたまるか

前回に引き続き、わからないという現状認識を書き残しておく。Wiktionary は失敗が約束されていると思ってきた。昔の記録を漁ると、2007 年には某所でそんな発言をしていた。しかし、2014 年現在、そこそこ何とかなってるっぽい。なぜだろうか。

そもそも現状を「そこそこ何とかなっている」と判断して良いのだろうか。そう思ったのは、自然言語処理Wiktionary のデータを利用する研究を頻繁に目にするようになったから。Google Scholar で Wiktionary を検索すると 8K 件以上返ってくる。にわかに信じがたい。自然言語処理業界から見て、Wiktionary は使える資源になっているということだろう。自然言語処理での利用は、あくまで Wiktionary の現状の静的な評価。動的な、活動状態はどうだろうか。English Wiktionary の統計を見ると、記事の増加数は安定している。少なくとも減ってはいない。editor の数も安定している。*1 とりあえず、現状認識を訂正する必要はなさそう。

なぜ Wiktionary に興味を持ったか。正直言って、Wiktionary 自体がこの先どうなろうと知ったことではない。自分の研究に Wiktionary のデータを利用したいとも思わない。興味は辞書を作るという作業そのものにある。辞書作成に関して、Wiktionary から何らかの知見が得られるだろうか。

なぜうまくいかないと予想したのか。辞書は素人が簡単に作れるものではないと考えているから。人間は列挙が苦手。知っている語を列挙しろ、あるいはある語の語義を列挙しろと言われても網羅的にはできない。一旦生成されたテキストから抽出して集約するほかない。語釈文の作成も難しい。語の意味を別の語を使って説明するのは難しい。基本的な語、語義ほど難しい。この手の問題について editor を補助する仕組みを Wiktionary は持たない。おまけに翻訳と同じ問題、つまり作れる人があえて作る動機がとぼしいという問題がある。読み物としての魅力という点で、辞書は事典に劣るだろう。そんな状態でうまくいってたまるかと。

とりあえず先行研究を調べる。Iryna Gurevych という人のグループが Wiktionary をネタに大量の論文を書いている。ただし、自然言語処理のための資源として Wiktionary評価したものばかり。つまり静的な評価*2そんな中、Wiktionary: A new rival for expert-built lexicons? Exploring the possibilities of collaborative lexicography という 2012 年の論文はやや広い観点から分析している。著者らは a comprehensive description of Wiktionary とうたう。たいした自信だが、後半のデータの定量的評価に加えて、前半で Wiktionary の仕様を説明しているだけ。私の疑問にはあまり答えてくれない。それでも得るものもなくはない。

一つは著作権が切れた資料の利用。Webster’s New International Dictionary of the English Language (1913) が出発点として重要な役割を果たしている。つまり、少なくとも英英辞典に関しては、基本的な語、語義の難しさという問題は回避されている。後半の分析を見ると、Wiktionary で追加されているのは、どうやら新語や専門系の語、語義のようである。ただし、繰り返すと、著者らは静的な状態の評価WordNet との比較によって行っているだけ。どう変化してきたかは調査していない。そこが知りたい。

著者らはドイツ語版とロシア語*3も調べているが、それらがどうなっているのかはわからない。ドイツ語ロシア語だって、free ではないかもしれないが、すでに充分な辞書資源がある言語。たとえ既存資源を複製しなかったとしても、Wiktionary がやることは車輪の再発明。私の疑問に答えるには、もっと資源のとぼしい言語の状態を調べた方が良い。

ネタ提供はしたので、誰か調べてくれないかな。

*1:それにしても、2011 年後半の記事の大量削除は何だったのだろうか。

*2Wikipedia なら、動的な評価として、編集合戦可視化した論文などがあるんだけど。

*3:ややこしいが、説明言語がドイツ語ロシア語ということ。説明の対象は多言語。

2014-10-15

翻訳する動機がわからない

良い機会なので翻訳に関する疑問を書いてみる。*1そもそも翻訳を生業としない人間が翻訳する動機がわからない。*2動機がわからないからことには、翻訳に関する生態系の作り方もわからない。

自分で翻訳するのをやめて久しい。だが高校生の頃はやっていた。OSS コミュニティの片隅で。思い返してみる。なぜやめたのか。自分にとって必要なくなったからだ。

なぜそれまで必要だったのか。答えは低い英語力と記憶力の限界だと思う。わからない表現の頻度が一定割合を超えると、辞書を引かないことには文章が理解できない。辞書を引き出すと、文章の内容を記憶しておけなくなる。だから、内容を思い返せるように、途中までで理解した (つもりになっている) 断片を書き出す。それを最後までやると訳文ができあがる。当然質は極めて低い。

必要がなくなった理由はその反対。辞書を引きまくらなくても原文が理解できるようになった。*3そうなると、翻訳なんて手間のかかる作業は時間の無駄。使える時間は有限。読みたい文章は無尽蔵。

ついでなので、なぜ自分にとって必要がなくなったらやめたのかとも問うてみる。結局、私は自分のためにしか、(翻訳を含む) 文章を産出できない。需要にあわせて供給することができない。*4なぜ自分のためになるかというと、翻訳に関しては、上述の通り、記憶力の限界を補って文章を理解する助けになるから。一般の文章については、書き出すことで頭が整理できるから。できた文章は副産物とも言える。その副産物をあえて隠しておく必要もないので公開する。それだけ。

最初の問いを少し修正する必要があるかもしれない。質の高い訳文を作れる人間があえて翻訳する動機がわからない。反対に、(結果的に) 低品質の訳文を作る動機であれば、少なくとも 1 つのサンプルがここにある。しかし、これが他人に当てはまるかは自信がない。

仮に他人に当てはまるとする。低品質の訳文の供給があったとして、それを活用できるだろうか。活用できるとすると、高品質な訳文を生成できる人の作業の省力化だろう。そのためには、低品質の訳文を土台とすることで、1 から訳文を作成するより、あるいは翻訳メモリや機械翻訳を使うよりも省力化できなければならない。直感的には、そうでもない気がする。仮に省力化に使えるとしても、高品質な訳文を生成できる人の供給が 0 に近ければ、1.x を掛けても誤差だろう。

*1:良い機会というのは、かつて同じ時期に同じ研究室にいた人がいま翻訳ネタで話題になっていること。

*2そもそも論を言い出したら、私にとって他人の価値観はわからないものである。他人が良いと評価するものが良いとは思えないし、自分が良いと思うものを他人は評価しない。なぜそうなってしまったのかわからないが、現状そうなっていることは認識している。

*3:質の良い訳文を作るには、原文を理解することが不可欠だが、それだけでは充分ではない。意味が理解できても、適切な訳文を思いつかないことは多々ある。

*4:ついでに言えば金銭も私を突き動かさない。そうでなければ大学に残るという愚かな選択はしなかっただろう。