Hatena::Grouprekken

murawaki の雑記

2012-03-19

NLP2012

広島市立大学で開催されていた言語処理学会第18回年次大会 (NLP2012) に関するメモ。

  • 1X 年ぶりに山陽新幹線に乗った。みずほさくらを確認したかったがかなわず
  • せっかく広島に来たのに路面電車にも乗らずじまい
  • 広島市立大学は山の中。でも山をトンネルでぶち抜いてあって中心部と直通。思ったほど不便ではない
  • 現地の学生スタッフが働きまくりで感心
  • 噂には聞いていたが、本当に中学生がいて焦る
  • 発表件数が増えすぎ。今の体制はそろそろ限界
  • 自分の発表とか座長とかで、面白そうな発表をかなり見逃した
  • 内容的には二極化が止まらない。日本の縮図
  • 闇の NTT 軍団が他を圧倒していた。日本の NLPNTT 研究所が引っ張っていて、あとはどんぐりの背比べ。
  • お茶大の人たちが手を変え品を変え LDA の発表をしていたのが印象的

A1-2 ベイズ決定理論にもとづく階層Nグラムを用いた最適予測法と日本語入力支援技術への応用

○末永高志 (NTTデータ), 松嶋敏泰 (早大)

  • 可変長 N-gram
    • interpolation ではなく、最適な N を選択する
  • 比較実験をやってくれないと何とも言えない

A1-3 伏字を含むテキストの分ち書き処理

○笠原要, 永田昌明 (NTT)

  • 伏字はとりあえず「○」を含むもののみ
  • 2ちゃんねるの書き込み 5K 文にアノテート
    • さすが NTT!
  • 点推定で単語分割
    • 精度(?) 0.878。伏字を含むものに限定すると 0.679
  • 「○」を含む形態素を CRF で分類
    • 精度は全体をみると 0.934 だが、伏字に限定するとぼろぼろ
  • 普通の学会発表では見たこともないような例文がスライドに並んでいたが、発表者は淡々と話し、聴衆も何事もなかったように聞いていた

A1-7 日本語学習者の作文の誤り訂正に向けた単語分割

○藤野拓也, 水本智也, 小町守 (NAIST), 永田昌明 (NTT), 松本裕治 (NAIST)

  • 日本語学習者が書いた、誤りを含む文を単語分割
  • 原文と添削文のアラインメントをとって、添削文の分割を原文に反映させて学習
  • 副作用があって全体の精度はベースラインに負ける
  • (学習者による) 誤りを含む部分の認識では勝っている
  • 例えば学習者が「じょうず」を「じょず」と書き誤っていたとする。「じょず」という単語を切り出してきたら目的が達成できたかというとそんなことはない。「じょうず」に訂正できてはじめて目的が達成される。どうせ誤りを訂正するには語彙が既知でないといけないはず。それなら最初から (書き損じ系の) 誤り訂正までを辞書ベースで joint で解いた方がいいのではないかという疑問が残る。

D1-8 テキストからの物理モデル生成に向けて

○横野光, 稲邑哲也 (NII)

  • 例の東大入試の話で、これからがんばりますという報告
  • 抽象的な図を画像認識で読み取るのは難しいのでテキストから攻める
    • 人間は補助線が補助線だとなぜわかるのか

P1-28 感動を与える文の自動取得と分析

端大輝, ○村田真樹, 徳久雅人 (鳥取大)

  • アノテータ的には100文に7文は感動を与えるらしい。そんなもんかいな。

D2-8 言語的手がかりを用いた固有表現の二項関係知識の分類

○高久陽平, 鍜治伸裕, 吉永直樹, 豊田正史 (東大)

  • テキストが23億文あっても、時間幅半年で区切って、(複合名詞A, 関係を表す述語, 複合名詞B) の三つ組をとると、頻度4とかになってしまうらしい

F2-7 教師なしマッピングによる言語横断テキスト分類

○平尾努, 岩田具治, 永田昌明 (NTT)

A3-1 極大部分文字列を使った twitter 言語判定

○中谷秀洋 (サイボウズ・ラボ)

  • 手法自体は Twitter に依存していない (若干の前処理ぐらい)
  • Twitter のような短いテキストでも over 99% の高精度で言語判定できますということ
  • 言語オタク臭あふれる面白そうなスライドの数々は時間の都合で結構飛ばされた
  • 極大部分文字列は、訓練データから抽出して未知のテストデータに適用したときに何が起きるのか気になるが、少なくともこのタスクでは問題がないみたい
  • 特徴量ベクトルをダンプして見たい ソースとモデルが公開されていて、server.py というテストスクリプトが用意されており、簡単に遊べる (thanks, n_shuyo さん)

A3-6 2ツイートを用いた対話モデルの構築

○東中竜一郎 (NTT), 川前徳章 (NTTコムウェア), 貞光九月, 南泰浩, 目黒豊美, 堂坂浩二, 稲垣博人 (NTT)

A3-extra Twitterにおける日本語処理について

藤井慶太(Twitter, Inc. ソフトウェアエンジニア

  • 言語判定, 検索用にトークナイズ, トレンド向けにフレーズ抽出
  • やっつけ加減が予想をはるかに超えていた
    • とはいえ、速度を要求されると大口を叩けない。
  • Gomoku を使っているとのこと。辞書については何も言ってなかったので、普通のやつだろう

E3-7 混合ディリクレ分布を用いた潜在クラス翻字生成モデル

○萩原正人, 関根聡 (楽天技研)

  • 事前分布をおいてスムージング
  • 潜在クラスの数は given (development set を使って決定)
  • 分析したところ、大まかに言語に対応しているらしい

F3-5 オノマトペの音象徴を利用した評判分析

○五十嵐沢馬, 笹野遼平, 高村大也, 奥村学 (東工大)

  • オノマトペの極性判定
  • かな文字、音素、音声、IPA のカテゴリなどの特徴量をいろいろ試して分析
  • 2値分類器の SVM を one-versus-rest で組み合わせるのが本当にいいのか

C4-4 単語単位の日本語係り受け解析

○Flannery, Daniel (京大), 宮尾祐介 (NII), Neubig, Graham, 森信介 (京大)

  • 質疑の行方が楽しみだった発表
    • 文節内係り受けの定義が恣意的。例えば接続助詞「が」をどう扱うかで違ってくる。
    • 同じペアでも係ったり係らなかったりするから 2値分類は厳しい。ranking の方がいいのではないか。
  • 数字だけでは何とも言えない。形態素単位の評価だと、隣に係るのばかりで精度を稼いでいるはず。文節単位の評価だと、形態素単位の係り受けという問題設定で良いと主張している部分が本当にうまくいっているのかわからない。

C4-5 シンボル細分化を適用した階層Pitman-Yor過程に基づく木置換文法獲得法と構文解析への応用

○進藤裕之 (NTT), 宮尾祐介 (NII), 藤野昭典, 永田昌明 (NTT)

  • TSG でシンボルを細分化
    • 細分化されたシンボルをどうやって導出するのかと思ったら、(Petrov+, 2005) の split-merge を用いる
    • 本当はモデルが最適な細分化を自分で見つけてくれるとうれしいのだが、そこはまだ難しいか
  • F値 92.4 を達成!

F4-7 強化学習によるテキスト自動要約手法の提案

○梁成基 (東大), 阿辺川武 (NII)

  • あとで読む
  • 質疑にあったように、agent の学習結果 V を分析してみたい

F4-8 ラグランジュ緩和による複数文書要約の高速求解

○西川仁, 平尾努, 牧野俊朗, 松尾義博 (NTT)

  • 立て板に水ですばらしい
  • 参照要約は意外と冗長らしい
  • あとで読む

F4-9 ナップサック問題と劣モジュラ関数最大化問題の合意解形成による要約

○安田宜仁, 西野正彬, 平尾努, 鈴木潤 (NTT)

P3-15 日本語から伝統的モンゴル語への機械翻訳システムの試作とその機能語の翻訳処理

○竹嶌志起, Saren qimuge, 松本忠博 (岐阜大)

  • はやいところコードポイントとグリフの mapping を標準化しないと幸せになれない
  • 横向きにレンダリングした結果を画像にして縦に表示しているとのこと
  • やっぱり語彙が300程度ではおもちゃの域をでない。ないないづくしの言語ペアで、どうにかしておもちゃを脱しようと思ったら、非専門家を動員しないと仕方がない。非専門家を動員しようと思ったら、資源整備の敷居を下げないと仕方がない。敷居を下げようと思ったら、ルールベースのシステムを作り込むのは厳しそう。

P3-20 英語学習者の産出語彙を評価する語彙の豊かさ指標の信頼性比較

○小島ますみ (岐女短)

  • 語彙の使用頻度を使って学習者の語彙の豊かさを測る
  • 以前提案した指標 S の頑健性を示した
  • 使い勝手が良さそう

B5-3 印欧語話者の英文に内在する言語系統樹

○永田亮 (甲南大), Edward Whittaker (Inferret Limited)

C5-2 漸進的な結合モデルによる中国語形態素・依存構造解析

○羽鳥潤, 松崎拓也 (東大), 宮尾祐介 (NII), 辻井潤一 (MSRA)

C5-3 Web上のひらがな交じり文に頑健な形態素解析

○工藤拓, 市川宙, David Talbot, 賀沢秀人 (Google)

C5-5 半教師あり学習に基づく大規模語彙に対応した日本語単語分割

○萩原正人, 関根聡 (楽天技研)

C5-6 拡張ラグランジュ緩和を用いた同時自然言語解析法

鈴木潤, Kevin Duh, 永田昌明 (NTT)

D5-2 極大部分文字列集合を用いたWebテキストの語義曖昧性解消

○三谷亮介, 小町守, 松本裕治 (NAIST), 隅田飛鳥 (KDDI研究所)

  • 実験結果が芳しくないとしても、うまくいった例を見せてほしい
  • あらかじめ訓練データとテストデータの両方から極大部分文字列を抽出するという手続きは、実用上不便

n_shuyon_shuyo2012/03/22 11:10おつかれさまでした&コメントありがとうございます。
murawaki さんにもお目にかかりたかったので、発表後に声をかけていただけて嬉しかったです。


> 極大部分文字列は、訓練データから抽出して未知のテストデータに適用したときに何が起きるのか気になるが、少なくともこのタスクでは問題がないみたい

未知のテキストを加えるとお察しの通りモデルの同値性が崩れるわけですが、
今回の場合は訓練データが十分大きいことで近似できているのだと推測しています。
感触的には 5000ツイートで 98%、40000ツイートで 99% の精度が出るイメージです。


> 特徴量ベクトルをダンプして見たい

github で公開している実装には server.py という評価ツールが含まれていて、
ブラウザで開いてテキストを投げると、判別に使われた素性とそのパラメータがどかんと一覧表示されるので
「ほうほう、ルーマニア語にはこの素性が効いとるのか~」と楽しむ(?)ことができます。

というデモも持っていったのですが全然時間が足りなくて……。

murawakimurawaki2012/03/22 21:50shuyo さん。お目にかかれてよかったです。
さっそく github から ldig を取ってきて、server.py を動かしてみました。
これは本当に面白いですね。
ヨーロッパの言語はあまりわからないので、トルコ語を突っ込んでみたところ、特徴的な文字を抜いても、ちゃんと命中させてきました。おかげさまでしばらく遊べそうです。