Hatena::Grouprekken

murawaki の雑記 (移転跡地)

はてなブログに移転しました

2012-03-19

n_shuyon_shuyo2012/03/22 11:10おつかれさまでした&コメントありがとうございます。
murawaki さんにもお目にかかりたかったので、発表後に声をかけていただけて嬉しかったです。


> 極大部分文字列は、訓練データから抽出して未知のテストデータに適用したときに何が起きるのか気になるが、少なくともこのタスクでは問題がないみたい

未知のテキストを加えるとお察しの通りモデルの同値性が崩れるわけですが、
今回の場合は訓練データが十分大きいことで近似できているのだと推測しています。
感触的には 5000ツイートで 98%、40000ツイートで 99% の精度が出るイメージです。


> 特徴量ベクトルをダンプして見たい

github で公開している実装には server.py という評価ツールが含まれていて、
ブラウザで開いてテキストを投げると、判別に使われた素性とそのパラメータがどかんと一覧表示されるので
「ほうほう、ルーマニア語にはこの素性が効いとるのか~」と楽しむ(?)ことができます。

というデモも持っていったのですが全然時間が足りなくて……。

murawakimurawaki2012/03/22 21:50shuyo さん。お目にかかれてよかったです。
さっそく github から ldig を取ってきて、server.py を動かしてみました。
これは本当に面白いですね。
ヨーロッパの言語はあまりわからないので、トルコ語を突っ込んでみたところ、特徴的な文字を抜いても、ちゃんと命中させてきました。おかげさまでしばらく遊べそうです。