Hatena::Grouprekken

murawaki の雑記

2014-10-28

Wiktionary がうまくいってたまるか

前回に引き続き、わからないという現状認識を書き残しておく。Wiktionary は失敗が約束されていると思ってきた。昔の記録を漁ると、2007 年には某所でそんな発言をしていた。しかし、2014 年現在、そこそこ何とかなってるっぽい。なぜだろうか。

そもそも現状を「そこそこ何とかなっている」と判断して良いのだろうか。そう思ったのは、自然言語処理Wiktionary のデータを利用する研究を頻繁に目にするようになったから。Google Scholar で Wiktionary を検索すると 8K 件以上返ってくる。にわかに信じがたい。自然言語処理業界から見て、Wiktionary は使える資源になっているということだろう。自然言語処理での利用は、あくまで Wiktionary の現状の静的な評価。動的な、活動状態はどうだろうか。English Wiktionary の統計を見ると、記事の増加数は安定している。少なくとも減ってはいない。editor の数も安定している。*1 とりあえず、現状認識を訂正する必要はなさそう。

なぜ Wiktionary に興味を持ったか。正直言って、Wiktionary 自体がこの先どうなろうと知ったことではない。自分の研究に Wiktionary のデータを利用したいとも思わない。興味は辞書を作るという作業そのものにある。辞書作成に関して、Wiktionary から何らかの知見が得られるだろうか。

なぜうまくいかないと予想したのか。辞書は素人が簡単に作れるものではないと考えているから。人間は列挙が苦手。知っている語を列挙しろ、あるいはある語の語義を列挙しろと言われても網羅的にはできない。一旦生成されたテキストから抽出して集約するほかない。語釈文の作成も難しい。語の意味を別の語を使って説明するのは難しい。基本的な語、語義ほど難しい。この手の問題について editor を補助する仕組みを Wiktionary は持たない。おまけに翻訳と同じ問題、つまり作れる人があえて作る動機がとぼしいという問題がある。読み物としての魅力という点で、辞書は事典に劣るだろう。そんな状態でうまくいってたまるかと。

とりあえず先行研究を調べる。Iryna Gurevych という人のグループが Wiktionary をネタに大量の論文を書いている。ただし、自然言語処理のための資源として Wiktionary評価したものばかり。つまり静的な評価*2そんな中、Wiktionary: A new rival for expert-built lexicons? Exploring the possibilities of collaborative lexicography という 2012 年の論文はやや広い観点から分析している。著者らは a comprehensive description of Wiktionary とうたう。たいした自信だが、後半のデータの定量的評価に加えて、前半で Wiktionary の仕様を説明しているだけ。私の疑問にはあまり答えてくれない。それでも得るものもなくはない。

一つは著作権が切れた資料の利用。Webster’s New International Dictionary of the English Language (1913) が出発点として重要な役割を果たしている。つまり、少なくとも英英辞典に関しては、基本的な語、語義の難しさという問題は回避されている。後半の分析を見ると、Wiktionary で追加されているのは、どうやら新語や専門系の語、語義のようである。ただし、繰り返すと、著者らは静的な状態の評価WordNet との比較によって行っているだけ。どう変化してきたかは調査していない。そこが知りたい。

著者らはドイツ語版とロシア語*3も調べているが、それらがどうなっているのかはわからない。ドイツ語ロシア語だって、free ではないかもしれないが、すでに充分な辞書資源がある言語。たとえ既存資源を複製しなかったとしても、Wiktionary がやることは車輪の再発明。私の疑問に答えるには、もっと資源のとぼしい言語の状態を調べた方が良い。

ネタ提供はしたので、誰か調べてくれないかな。

*1:それにしても、2011 年後半の記事の大量削除は何だったのだろうか。

*2Wikipedia なら、動的な評価として、編集合戦可視化した論文などがあるんだけど。

*3:ややこしいが、説明言語がドイツ語ロシア語ということ。説明の対象は多言語。