Hatena::Grouprekken

murawaki の雑記

2011-02-06

Dated Corpus (Actually N-grams)

Baidu ブログ・掲示板時間軸コーパス*1を使って新語 (新用法) の出現時期を求めるテスト。結果は芳しくないけど。時系列コーパスといっても、期間は10年程度。通時言語学の一般的な想定よりもオーダーレベルで短い。

時系列コーパスといえば東大喜連川研。定期的にクロールしてウェブスナップショットを作っていた。でも研究報告があるだけで、コーパス自体は門外不出らしい。著作権がらみの問題が原因だったと思う。

ということで (いろんな意味でいま話題の) Baidu の提供するデータを使う。スタッフブログによると、文と時刻の対応付けに時間表現・タイムスタンプを使う。方法自体は私も考えたことあるけど、ちゃんと作って公開されててすばらしい。時刻は月単位で集約されている。

ブログ・掲示板時間軸コーパス」という名前は misleading。公開されているのは N-gram (N <= 3)。文の分割に MeCab + ipadic を使っている。

規模は小さい。ブログと掲示板に限定しているだけに。文数が合計10M。月別では2000年4月で 1K。2010年5月で 330K。基本的に新しいほど量がある。頻度数回の N-gram は除かれている。オーダーがあと一つは大きくないと苦しい。頑張って走査用のデータ構造を作らなくても、単発の query なら grep で事足りる。

調べてみたのは「真逆」。本来「まさか」の当て字。でも「まぎゃく」と読んで「正反対」の意味で使われている。私の感覚ではそんなに古くないはずだが、いったいいつから使われだしたのか。この疑問に BaiduN-gram は答えられるか。

最初の罠は未知語。文の分割に MeCab + ipadic を使っているので、「真逆」は「真」と「逆」に過分割される。*2前後の文字列に関係なくほぼ一貫してこう解析されるはず。*3喜連川研の時系列コーパスを使った研究は、「ファブる」を題材にしていた。未知語がからむと、他人が作った N-gram は使いにくい。*4

とりあえず「真逆」は2形態素扱いで先に進む。bigram (実質 unigram) の grep

2002-12.2gm:真 逆       2
2003-08.2gm:真 逆       3
2004-04.2gm:真 逆       4
2005-04.2gm:真 逆       2
2005-07.2gm:真 逆       3
2005-09.2gm:真 逆       2
2005-11.2gm:真 逆       2
2006-02.2gm:真 逆       3
2006-03.2gm:真 逆       8
2006-05.2gm:真 逆       4
2006-06.2gm:真 逆       3
2006-07.2gm:真 逆       7
2006-08.2gm:真 逆       5
2006-09.2gm:真 逆       3
2006-10.2gm:真 逆       5
2006-12.2gm:真 逆       5
2007-01.2gm:真 逆       3
2007-02.2gm:真 逆       5
2007-03.2gm:真 逆       5
2007-04.2gm:真 逆       4
2007-05.2gm:真 逆       4
2007-06.2gm:真 逆       7
2007-07.2gm:真 逆       9
2007-08.2gm:真 逆       7
2007-09.2gm:真 逆       10
2007-10.2gm:真 逆       9
2007-11.2gm:真 逆       7
2008-01.2gm:真 逆       4
2008-02.2gm:真 逆       10
2008-03.2gm:真 逆       5
2008-04.2gm:真 逆       10
2008-05.2gm:真 逆       6
2008-06.2gm:真 逆       11
2008-07.2gm:真 逆       8
2008-08.2gm:真 逆       8
2008-09.2gm:真 逆       9
2008-10.2gm:真 逆       5
2008-11.2gm:真 逆       5
2008-12.2gm:真 逆       9
2009-01.2gm:真 逆       6
2009-02.2gm:真 逆       11
2009-03.2gm:真 逆       9
2009-04.2gm:真 逆       5
2009-05.2gm:真 逆       7
2009-06.2gm:真 逆       10
2009-07.2gm:真 逆       9
2009-08.2gm:真 逆       14
2009-09.2gm:真 逆       8
2009-10.2gm:真 逆       14
2009-11.2gm:真 逆       7
2009-12.2gm:真 逆       15
2010-01.2gm:真 逆       13
2010-02.2gm:真 逆       6
2010-03.2gm:真 逆       21
2010-04.2gm:真 逆       8
2010-05.2gm:真 逆       15
2010-06.2gm:真 逆       26
2010-07.2gm:真 逆       19

流行語のように、どこかの時点で一気に burst してたらわかりやすいのだが、そんなことはなかった。初出が2002年12月。でも次が2003年8月。安定的に出現するのは2006年頃から。しかし足きり境界近辺をさまよっている。

こんなに小さな値では信頼できないけど、一応確率も求めてみる。文数で割って 1 万をかける。文あたりの形態素数が月ごとに変化しないと仮定すれば、確率に比例した値になっているはず。しかしなんとも言えない結果。グラフを描いてみたけどやっぱり微妙。

2002-12 0.766107
2003-08 0.890208
2004-04 1.445400
2005-04 0.427606
2005-07 0.504838
2005-09 0.327595
2005-11 0.309210
2006-02 0.397314
2006-03 0.981234
2006-05 0.525707
2006-06 0.337712
2006-07 0.749689
2006-08 0.530189
2006-09 0.322615
2006-10 0.516785
2006-12 0.556805
2007-01 0.314495
2007-02 0.564143
2007-03 0.493993
2007-04 0.399768
2007-05 0.379309
2007-06 0.637749
2007-07 0.763080
2007-08 0.523024
2007-09 0.725368
2007-10 0.601480
2007-11 0.537255
2008-01 0.309246
2008-02 0.743649
2008-03 0.360706
2008-04 0.749288
2008-05 0.417304
2008-06 0.745520
2008-07 0.544614
2008-08 0.547645
2008-09 0.540372
2008-10 0.282839
2008-11 0.330635
2008-12 0.585210
2009-01 0.362976
2009-02 0.695736
2009-03 0.528240
2009-04 0.302684
2009-05 0.384168
2009-06 0.565099
2009-07 0.442815
2009-08 0.657431
2009-09 0.389039
2009-10 0.587426
2009-11 0.292954
2009-12 0.511242
2010-01 0.515182
2010-02 0.250815
2010-03 0.705790
2010-04 0.294006
2010-05 0.447716
2010-06 0.784882
2010-07 0.630653

bigram (実質 unigram) では二つの用法が区別できない。次に trigram (実質 bigram) を2通り見る。先に後続要素。

2002-12.3gm:真 逆 に    2
2003-08.3gm:真 逆 で    3
2004-04.3gm:真 逆 に    3
2005-09.3gm:真 逆 な    2
2005-11.3gm:真 逆 な    2
2006-03.3gm:真 逆 の    6
2006-07.3gm:真 逆 の    4
2006-10.3gm:真 逆 の    3
2007-03.3gm:真 逆 な    3
2007-04.3gm:真 逆 な    3
2007-07.3gm:真 逆 の    7
2007-09.3gm:真 逆 の    4
2007-10.3gm:真 逆 だ    3
2007-11.3gm:真 逆 の    3
2008-03.3gm:真 逆 の    4
2008-06.3gm:真 逆 の    7
2008-08.3gm:真 逆 の    6
2008-09.3gm:真 逆 の    4
2008-12.3gm:真 逆 の    4
2009-12.3gm:真 逆 の    7
2010-01.3gm:真 逆 の    5
2010-03.3gm:真 逆 の    8
2010-06.3gm:真 逆 だ    6
2010-06.3gm:真 逆 な    5
2010-06.3gm:真 逆 の    5
2010-07.3gm:真 逆 な    5

bigram とカウントが一致しないのは足きりが原因。

「まさか」の後ろに「の」「だ」*5は後続し得るが、「な」「に」はかなり不自然。「まぎゃく」と考えていいだろう。初出の2002年12月は「に」。「真逆」自体の初出でもある。次が2004年4月「に」。2005年9月、11月と「な」が続くが、その次が2007年3月の「な」。判断が難しい。

次は前接要素。

2003-08.3gm:は 真 逆    3
2004-04.3gm:、 真 逆    3
2005-09.3gm:と 真 逆    2
2006-03.3gm:と 真 逆    5
2006-05.3gm:は 真 逆    3
2006-07.3gm:は 真 逆    3
2006-12.3gm:は 真 逆    4
2007-03.3gm:は 真 逆    3
2007-06.3gm:は 真 逆    4
2007-07.3gm:、 真 逆    3
2007-09.3gm:と 真 逆    3
2007-10.3gm:は 真 逆    4
2007-11.3gm:は 真 逆    5
2008-04.3gm:は 真 逆    6
2008-08.3gm:は 真 逆    5
2010-01.3gm:は 真 逆    7
2010-03.3gm:が 真 逆    5
2010-03.3gm:は 真 逆    7
2010-06.3gm:と 真 逆    5
2010-06.3gm:は 真 逆    10
2010-07.3gm:は 真 逆    6

前接要素は自由度が高い。その分足きりにあいまくり。「と」は「まぎゃく」用法と見ていいだろう。「と」の例は2005年9月、2006年3月、2007年9月と続く。

感覚的には「まさか」の用法はほぼ0で、全部「まぎゃく」だと予想。でもデータからは確証が得られない。やっぱりもっとデータ量がほしい。月毎じゃなくて、半年ごとぐらいの N-gram をつくって、足きりにあってる語をもう少し救ってくれるだけでも違いそう。

余談。スタッフブログに載っている実行例を見て絶望的な気分になった。「ワールドカップ」と「オリンピック」、「モーニング娘」と「AKB48」を比較している。そんな発想は私にはなかった。もうちょっとお金のにおいのする方向に関心を向けないと、この先生き残れないと宣告されたみたい。確かにそうなんだけど。

2011年2月10日 追記: 月ごとに足きりされていることを無視して、bigram 「真 逆」を半年ごとに集約してみた。月ごとだと分解しすぎて分かりにくかったのが、いい感じに均された。やはり2006年頃から「真逆」表記が安定的に使われだしている。

2002-9  0.127769
2003-3  0.000000
2003-9  0.160504
2004-3  0.189328
2004-9  0.000000
2005-3  0.069075
2005-9  0.182314
2006-3  0.373704
2006-9  0.450211
2007-3  0.466270
2007-9  0.525426
2008-3  0.556077
2008-9  0.467429
2009-3  0.471446
2009-9  0.481147
2010-3  0.515197
2010-9  0.630653

2011年7月8日追記: その後もたまにいろんなフレーズを調べてみている。「ブヒる」は N-gram 公開 (2010年7月) 以降に普及したらしくヒットしない。ここの調査によると、広まりだしたのは2011年1月頃とのこと。

心が折れる」は初出が2005年6月、ついで2006年4月。2007年4月からほぼ毎月出現している。「心を折る」は少なく、2005年12月、2008年4月のみ。2008年4月に「心を折られる」がある。「感動をもらう」はまったくヒットしない。「感動をありがとう」という気持ちの悪いフレーズは、2004年2月にはもうヒットする。思ったより昔からあるみたい。

2011年8月22日追記: 「上から目線」の初出は2006年10月。以後安定的に頻度が上がっていっている。

f:id:murawaki:20110924173537p:image

ドヤ顔」は2010年5月が初出。こちらはずっと新しい。

2011年8月28日追記: 「常考」は初出が2007年6月。2007年10月を peak とするわかりやすい burst があって、その後はあまり使われなくなっている。

f:id:murawaki:20110924173530p:image

2011年9月1日追記: 「マジキチ」は2008年7月が初出。2008年10月以降一貫して出現する。

f:id:murawaki:20110924173532p:image

2011年9月15日追記: 「俺の嫁」は2006年半ばから使われだした模様。もちろんそれ以前から出現するし、2003年12月に謎の burst があるけど。「俺の嫁」だけで trigram を消費するから文脈がわからない。「孕む」系の表現も調べてみたけどなんとも言えない。

f:id:murawaki:20110924173534p:image

2011年9月18日追記: 「残念な N」の新用法。普通の用法だと、誰かがいて、そいつが何かをあきらめきれない。新用法では、N 自体の出来が悪いという意味になる (もっとうまく説明できないか)。"^残念 な " で *.3gm を grep して眺める。新用法の可能性のある用例。

  • 2006/02: 残念な兄貴
  • 2009/06: 残念な友人
  • 2009/08: 残念なやつ
  • 2009/12: 残念な人
  • 2010/02: 残念な人
  • 2010/04: 残念な人
  • 2010/06: 残念な人

2009年頃から使われだしたみたい。2006年のは謎。trigram だから頻度足きりにあいまくっているはずで、もっと早い用例が存在するかもしれない。

2011年9月22日追記: 「ハロウィン」は周期性があって、毎年10月に burst。2000年代前半はほとんど出現しない。2004年、2005年、2006年と毎年頻度が上昇し、以降は定着している。この時期に誰かが仕掛けたのだろう。

f:id:murawaki:20110924173528p:image

2011年9月23日追記: いくつかの例について頻度のグラフを upload してみた。

スイーツ」は使われだすのは2005年頃からだが、普及するのはもっと後。2007年11月に何かが起きたみたい。「スイーツ ( 笑」(これで trigram) の初出も2007年11月。この月の bigram は

スイーツ ( 13

スイーツ の 9

スイーツ は 5

スイーツ を 4

スイーツ 座れ 3

スイーツ 脳 6

だから「スイーツ(笑)」だけで burst説明するのは苦しい。

f:id:murawaki:20110924173536p:image

2011年9月24日追記: 「~脳」である種の思考様式を表す用法。きれいな結果がでない。「ゲーム脳」が2002年7月だから相当古い。全般的に出現頻度が低く、脚きりと戦っている。

2001-07.2gm:女性 脳 2

2001-07.2gm:男性 脳 2

2001-12.2gm:男 脳 3

2002-01.2gm:車 脳 2

2002-08.2gm:バブル 脳 2

2004-01.2gm:女 脳 12

2004-01.2gm:男 脳 6

2004-09.2gm:エロゲ 脳 3

2004-12.2gm:野球 脳 2

2005-01.2gm:野球 脳 3

2005-02.2gm:ゲーム 脳 2

2005-02.2gm:野球 脳 5

2005-03.2gm:野球 脳 6

2005-04.2gm:ゲーム 脳 3

2005-06.2gm:ゲーム 脳 4

2005-07.2gm:先入観 脳 2

2005-07.2gm:成功 脳 3

2005-08.2gm:野球 脳 4

2005-09.2gm:女 脳 2

2005-09.2gm:小学生 脳 4

2005-09.2gm:男 脳 2

2005-12.2gm:英語 脳 2

2005-12.2gm:野球 脳 2

2006-01.2gm:エロゲ 脳 5

2006-02.2gm:男性 脳 4

2006-03.2gm:野球 脳 6

2006-06.2gm:メリポ 脳 3

2006-07.2gm:エロゲ 脳 6

2006-07.2gm:キチガイ 脳 4

2006-07.2gm:野球 脳 4

2006-08.2gm:奴隷 脳 3

2007-02.2gm:ゲーム 脳 4

2007-07.2gm:野球 脳 4

2007-08.2gm:ゲーム 脳 4

2007-10.2gm:エロゲ 脳 3

2007-11.2gm:スイーツ 脳 6

2007-11.2gm:スクイズ 脳 7

2007-11.2gm:恋愛 脳 3

2007-12.2gm:エロゲ 脳 7

2007-12.2gm:ゲーム 脳 3

2007-12.2gm:スイーツ 脳 4

2008-03.2gm:ゲーム 脳 25

2008-05.2gm:ゲーム 脳 5

2008-05.2gm:野球 脳 4

2008-07.2gm:ゲーム 脳 4

2008-08.2gm:ゲーム 脳 11

2008-08.2gm:勝負 脳 4

2008-09.2gm:ゆとり 脳 4

2008-11.2gm:ゲーム 脳 14

2008-12.2gm:ゲーム 脳 11

2009-01.2gm:野球 脳 17

2009-02.2gm:ゲーム 脳 7

2009-03.2gm:野球 脳 13

2009-06.2gm:ゲーム 脳 5

2009-07.2gm:ゲーム 脳 10

2009-07.2gm:スイーツ 脳 15

2009-10.2gm:ゲーム 脳 9

2010-01.2gm:アイマス 脳 16

2010-01.2gm:ゲーム 脳 5

2010-02.2gm:ゲーム 脳 12

2010-04.2gm:野球 脳 10

2010-06.2gm:ブログ 脳 5

2010-07.2gm:恋愛 脳 5

ブラック企業」が使われだすのは2009年頃。2001年1月に3回、同年9月に2回出現しているけど、その次が2007年12月。

f:id:murawaki:20110924173526p:image

リア充」は初出が2006年7月で、2008年以降順調に普及している。「リア 充 爆発」(trigram) は2009年12月しかヒットしない。リア充爆発しろ

f:id:murawaki:20110924173535p:image

2015年11月8日追記: 「キョロ充」の用例もあった。

2010-04.2gm:キョロ 充 5

情弱」は初出が2008年12月。すぐに広まっている。

f:id:murawaki:20110924173531p:image

「ビッチ」はもちろん昔からある言葉だが、2007年以降よく使われるようになっている。2007年9月から10月にかけて burst している。みんなビッチ、ビッチ言いすぎ。

f:id:murawaki:20110924173525p:image

「イケメン」は他とは段違いでよく使われている。初出は2000年9月。思ってたよりずっと早い。2002年あたりから着実に頻度が上がっている。

f:id:murawaki:20110924173529p:image

「※ただしイケメンに限る」も若干の使用例が確認できる。

2008-08.3gm:ただし イケメン に 5

2009-07.3gm:ただし イケメン に 7

2009-08.3gm:ただし イケメン に 7

2009-12.3gm:ただし イケメン に 6

2010-06.3gm:ただし イケメン に 9

かつて使われていて、いまでは廃れた例。「ドキュン」と「ドキュソ」。2002年ぐらいまで使われていた。「ドキュン」の peak は分からないが、「ドキュソ」の peak は遅れて2001年半ばに来ている。これらと交替するように「DQN」が出てきて定着している。ちなみに「DQNネーム」は2003年2月にはもう出現する。

f:id:murawaki:20110924173527p:image

「おまいら」は解析誤りを起こすので、「お + まいら」(bigram) と「お + まい + ら」(trigram) のカウントを足して対処。一時期流行って、その後落ち着いている。

f:id:murawaki:20110924173533p:image

2011年9月24日追記 (25日加筆): いまある意味話題の「韓流」。初登場は2004年6月。ゆるやかな減少傾向にあったのに、2010年4月に異常な burst をみせる。出現回数が異常なので trigram をたどっていくと文が完全復元できた。

<S>韓流ドラマ新番組「ニューハート」始まるよ♪ニューハーフじゃなくて…胸部外科の医療ドラマだよ</S>

これが3,385回出現している。「韓流」が3,484回だから97%以上を占める。不自然にもほどがある。とりあえず補正してみた (緑線)。4月はこの spam コメントを除去。5~7月は「韓流タウン」という宣伝臭あふれるフレーズが半分ぐらいを占めていたのでこれを除去。補正値でも一応3月以降は頻度が上昇している。「韓流タウン」がらみの出現が完全には除去できていないのかもしれない。ついでに「嫌韓流」のカウントを引いてみた (青線) が、大勢に変化はない。

f:id:murawaki:20110925180722p:image

縦軸の数値は、出現確率に比例した値になっている (はず)。小さな値で扱いにくいので、いま仮に0.0002を1ビッチとする。burst 時の「ハロウィン」が10ビッチ、「イケメン」が5ビッチ、「DQN」が1.5ビッチにあたる。「韓流」の適正水準はおそらく0.5ビッチ程度。それを無理にテコ入れするから、ゴリ押しとして嫌われているのだろう。

2011年10月1日追記: 「違くて」を調べてみる。ipadic には「違く」から始まる語はないので、「違」と「く」は切れる。統計をとれるほど出てこない。以下が '^違 く' で trigram を grep した結果:

2002-08.3gm:違 く て 3

2006-01.3gm:違 く ない 3

2009-06.3gm:違 くね ? 5

bigram ならもう少しヒットする。分かったのは、2002年には既に使われていたということぐらい。

2011年12月17日追記: 「誰得」と「俺得」を調べてみた。前者の初出は2009年7月、後者は2010年3月。半年以上経ってから派生形が登場していることになる。

f:id:murawaki:20111217192417p:image

2011年12月23日追記: 「アッー!」を最近よく見かけると思ったけど、実は2006年頃から安定的に使われている。グラフは「アッー」の unigram を集計したもの。bigram を見ると、ほぼ必ず「!」が後続している。

f:id:murawaki:20111226104105p:image

2011年12月28日追記: 「スルーする」は2002年頃に生まれた様子。サ変の用法は "スルー (さ|し|す|出来|でき)" で判定。

f:id:murawaki:20111228222150p:image

2011年12月31日追記: いったいいつから「空気」は「読む」ものになってしまったのか。山本七平専売特許ではなかったのか。bigram を "^空気 読"、trigram を "^空気 .* 読" で grep (助詞を抜く場合と抜かない場合、「読む」と可能動詞「読める」を合算)。月ごとにやたら頻度がばらついているのが気になる。2000年代前半にはすでに空気は読むものだったみたい。2007年10月を peak とする burst がある。それに少し遅れる形で、2008年1月を peak とする「KY」の burst がある。「KY」の初出は2007年5月。

f:id:murawaki:20111231101748p:image

2012年1月5日追記: 「萌え」は2000年には既に使われている。

f:id:murawaki:20120105170605p:image

長期減少傾向が見られる。ウェブ上の書き手の割合の変化を疑う。しかし、「アニメ」の頻度を見ると、長期増加傾向にある。やっぱり純粋に使用頻度が落ちているのか。

f:id:murawaki:20120106092432p:image

就活」は辞書にないが、MeCab の未知語処理が一語にする。データ量の少ない2001年5月には出現するので、それ以前から存在した可能性がある。「就活」には周期性があり、3月を peak とする burst がある。年々 burst 性が弱まり、通年化している様子。

f:id:murawaki:20120105170606p:image

2015年9月2日追記: とある tweet を見て、「就活」と「婚活」を比較してみた。「婚活」は初出が2008年7月で、「就活」よりかなり遅れる。

f:id:murawaki:20150902120248p:image

2012年2月3日追記: 「ドン引き」の初出は2004年7月。「ドン引く」という、「ドン引き」からの類推が出てこないかと思ったが、2007年11月に3回出てくるだけ。

f:id:murawaki:20120203204816p:image

2012年2月20日追記: 「胸熱」は初出が2010年6月。コーパス作成時にぎりぎり間に合っている。

2012年3月17日追記: 「イラッと/イラっと」の初出は2005年8月。徐々に増えているが、「イライラ/いらいら」を置き換える様子はない。

f:id:murawaki:20120317102807p:image

2012年3月20日追記: 「くんかくんか」は解析誤りを起こすので、trigram を「くん + かく + ん」で引く。実は昔からある。

2005-12.3gm:くん かく ん 2

2007-12.3gm:くん かく ん 3

2009-07.3gm:くん かく ん 6

2009-08.3gm:くん かく ん 5

2009-11.3gm:くん かく ん 5

2010-05.3gm:くん かく ん 6

2010-06.3gm:くん かく ん 7

2010-07.3gm:くん かく ん 6

2012年4月8日追記: 「ヒャッハー」は出典は『北斗の拳』と言われる割に、見かけるようになったのは最近。

f:id:murawaki:20120408131112p:image

2012年4月10日追記: 「これはひどい」は2006年頃からよく使われてるようになっている。ニコニコ大百科では「大冒険セントエルモスの奇跡」が元ネタという説が紹介されているが、1996年発売だから時期があわない。むしろ、悪名高きはてなブックマークベータ版開始が2005年2月だから、こっちの影響ではないか (要検証)。

f:id:murawaki:20120410103123p:image

2012年6月7日追記: 「ナマポ」は2009年になって登場。

2009-04.2gm:ナマ ポ 8

2009-09.2gm:ナマ ポ 8

2009-10.2gm:ナマ ポ 9

2009-12.2gm:ナマ ポ 10

2010-05.2gm:ナマ ポ 11

2010-06.2gm:ナマ ポ 9

2010-06.1gm:ナマポヤクザ 12

2010-07.2gm:ナマ ポ 10

2012年6月16日追記: 「^ガチャ\t」をプロットしてみる。「コンプガチャ」はヒットしない。そろそろデータが古くてつらくなってきた。

f:id:murawaki:20120616132913p:image

半端ない」は "^(半端|ハンパ) (な[^\t]|無)" で grep。「半端な」を除去しつつ、「ない」の活用形を網羅する。初出は2003年。「イケメン」もそうだけど、一気に普及するのではなく、じりじり使用頻度が上がっていくのが興味深い。

f:id:murawaki:20120616214754p:image

2012年6月17日追記: 「社畜」はなぜか ipadic に入っている。2006年には用例がある。2010年7月までのデータだとあまりヒットしない。

2006-02.1gm:社畜 3

2006-04.1gm:社畜 11

2008-12.1gm:社畜 8

2009-09.1gm:社畜 7

2009-10.1gm:社畜 5

2010-01.1gm:社畜 10

2012年8月22日追記: 最近「日射病」という言葉を聞かなくなって、もっぱら「熱中症」というという話が出たので調べてみた。対象期間内だと、「日射病」は最初から「熱中症」に圧倒されていた。

2003-06.1gm:日射病 3

2003-07.1gm:日射病 2

2005-07.1gm:日射病 5

2005-08.1gm:日射病 2

2006-05.1gm:日射病 3

2006-07.1gm:日射病 3

2006-08.1gm:日射病 8

2007-08.1gm:日射病 4

2008-07.1gm:日射病 6

2009-08.1gm:日射病 5

2010-07.1gm:日射病 12

2012年10月9日追記: 「女子力」はもっとヒットするかと思った。

2009-11.2gm:女子 力 5

2010-02.2gm:女子 力 6

2010-04.2gm:女子 力 5

2010-06.2gm:女子 力 5

2010-07.2gm:女子 力 7

2013年7月5日追記: 「老害」は、言葉自体は昔からあるし、絶対頻度が低いので断定的なことは言いづらいが、2007年頃から使用頻度が高くなっていっているように見える。

f:id:murawaki:20130705191924p:image

2013年8月3日追記: 「ふとましい」はほとんどヒットしない。2005年9月には用例がある。

2005-09.2gm:ふと まし 3

2009-09.2gm:ふと まし 6

2005年9月の bigram の 3 件はすべて「ふとましい」だったので trigram にも出現する。2009年9月のは活用変化させているのか、足切りにあって trigram には出現しない。

2005-09.3gm:ふと まし い 3

2014年3月6日追記: 「ぶっちゃけ」は「ぶっ + ちゃ + け」と誤解析される。初出は2001年6月だが、それ以前からあったのだろう。2004年2月の burst は "ぶっちゃけ「最速" というフレーズの断片。2008年6月のは "ぶっちゃけ、男声を増やしたいんです" というフレーズが trigram の連鎖が復元できた。

f:id:murawaki:20140306103719p:image

2014年4月17日追記: Twitter で見かけた (が元ツイートをひかえるのを忘れた) ネタとして、「素足」と「生足」の関係がある。n-gram の比較では、頻度が低すぎて何とも言えない。Google Trends の比較だと、2005 年以前からほぼ一貫して「生足」の方が interest が高い。ただし、「生足」は台湾中国も含んでいる。

f:id:murawaki:20140417102344p:image

2015年9月2日追記: 「~沼」という表現は最近になって聞くようになった気がするが、2007年にそれっぽい用例があった。

2007-06.2gm:レンズ 沼 3

2015年10月4日追記: 「シルバーウィーク」が2009年にしか使われていないことに気付いた。

2009-09.2gm:シルバー ウィーク 831

2009-10.2gm:シルバー ウィーク 52

2009-12.2gm:シルバー ウィーク 5

2016年3月8日追記: 「キレッキレ」はヒットしない。Google Trends で最初に非ゼロの interest が現れるのは 2013 年 9 月。

2016年6月20日追記: 「<地名>+住み」でそこに居住していることを表す表現。違和感しかないが古くからある。初期の用例の地名が関西なのが気になるが、気のせいだろうか。なぜか 2006 年 1 月以降引っかからなくなる。

2003-12.2gm:湖西 住み 2

2004-01.2gm:関西 住み 3

2004-03.2gm:茨城 住み 2

2005-02.2gm:加古川 住み 2

2005-02.2gm:地方 住み 4

2005-04.2gm:福岡 住み 2

2005-06.2gm:市 住み 2

2005-07.2gm:中部 住み 2

2005-09.2gm:静岡 住み 2

2005-10.2gm:県 住み 5

2006-01.2gm:東京 住み 3

居住地を聞く「どこ住み」という表現はさらに古く、初出は 2003 年 7 月。

2003-07.2gm:どこ 住み 2

2004-01.2gm:どこ 住み 2

2005-03.2gm:どこ 住み 2

2005-06.2gm:どこ 住み 6

2005-07.2gm:どこ 住み 5

2005-08.2gm:どこ 住み 2

2005-09.2gm:どこ 住み 2

2005-10.2gm:どこ 住み 4

2005-11.2gm:どこ 住み 2

2005-11.2gm:ドコ 住み 3

2005-12.2gm:どこ 住み 4

2006-01.2gm:どこ 住み 9

2006-02.2gm:どこ 住み 4

2006-03.2gm:どこ 住み 4

2006-05.2gm:どこ 住み 3

2006-06.2gm:どこ 住み 5

2006-08.2gm:どこ 住み 4

2006-09.2gm:どこ 住み 3

2007-06.2gm:何処 住み 3

2007-08.2gm:どこ 住み 4

2008-03.2gm:どこ 住み 6

2008-10.2gm:どこ 住み 8

2008-11.2gm:どこ 住み 5

2008-12.2gm:どこ 住み 6

2009-08.2gm:どこ 住み 5

2009-09.2gm:どこ 住み 6

2010-03.2gm:どこ 住み 5

2016年6月30日追記: 「ほぼほぼ」が朝日新聞で取り上げられていたので調べてみた。期間内で一度もヒットしない。Google Trends 的には昔からあって、一定周期でバーストすることが話題になっていたが。

2016年9月7日追記: 「わちゃわちゃ」は2010年5月に6件ひっかかるだけ。単語分割に失敗するので「わ ちゃわ ちゃ」で trigram を grep

全参」も2005年8月に2件ひっかかるだけ。単語分割に失敗するので「全 参」で bigram を grep

2016年9月30日追記: 「ちょいちょい」は2002年にはヒットするので昔からあったようだけど、使用頻度が徐々に上がっている。

f:id:murawaki:20160930230825p:image

不定期更新: このデータだと面白い結果が得られなかった例を適当に載せる。

  • コミュ力」は2007年12月初出。その後あまり頻度が増えていない。「コミュ障」は2010年6月の6件だけ。
  • 「ボコる」は2001年5月には既に出現するけど、散発的にしか使われないのでよくわからない。
  • 「告る」は2001年2月には既に出現するけど、ずっと低頻度。
  • 「爆ぜる」が「爆発する」の意味で再利用されだしたのは、2012年あたりからっぽくて、全然ヒットしない
  • 炎上」は字義的な意味とネット用語としての意味を区別するのが難しい。特に頻度が増加傾向にあるというわけでもない。
  • 勝ち組」は当然昔から使われていて、特によく使われる時期があるようにも見えない。
  • 「ズッ友」も新しすぎてヒットしない。
  • 壁ドン」は2010年2月に6件ヒットするだけ。
  • 「良さげ」など「形容詞語幹 + さ + 気/げ」は2001年にはヒットするから、相当前から使われている。
  • ふつくしい」は「ふつ + くし」で2008年7月と2010年6月にヒットがある。

*1:readme では英語表記が Baidu Blog and Forum Timed Corpus となっている。timed は「テンポを取った」「(何かと) タイミングを合わせた」ぐらいの意味で、「時刻つきの」という意味にはならないと思う。自信ないけど。かといって dated というと何だか古いみたいに聞こえる。

*2:「まさか」と読む場合は確実に1形態素。「まぎゃく」の場合も ipadic の方針だと 1 形態素じゃないかと思う。

*3:ただし「真逆さ」を与えると「ま」+「さかさ」と分割された。

*4:未知語問題は Google N-gram にもあてはまる

*5:「だ」の後続は、「そのまさかだ」のように文脈の補助がいりそう。