マイクロブログ、ソーシャルメディア上の崩れた表記の現在

Twitterのマイニング技術については東工大の奥村先生が2012年1月に発表された「マイクロブログマイニングの現在」という原稿が非常にわかりやすかった。
マイクロブログマイニングの現在

自分が今関心がある分野の1つとして「崩れた表記」がある。
崩れた表記の定義は非常に難しいのだが、「標準の表記でないもの(not in canonical form)」と自分は定義付けている。例を挙げると標準的な表記である「きた」に対して「きたあああああ」等に余分に「あ」を足して、自分の感情の強さを表す事などがそうである。自分は「崩れた表記」と呼んでいるが、「くだけた表現」、「口語的表現」、「表記揺れ」等、様々な呼び方がある。

奥村先生の原稿の続編ではないが、2013年6月に開催予定のNAACLにacceptされた崩れた表記に関するサーベイ論文が最新の話題をカバーしている。

What to do About Bad Language on the Internet
ここでいう「bad language」とは悪い言葉ではなく、「NLPのツールに対して悪さをする言葉=崩れた表記」という意味で用いられている。

主に書かれている事は二点:

  1. ソーシャルメディア上で崩れた表記を用いている要因は何か。
  2. 崩れた表記に対するNLP界隈の反応。

1.に関しては最後に図を用いて示す。原因の一部は特定、もしくは議論されているが、まだ要因の全体像は掴めていない。
2.では主に2つあり、1つは標準的な表記に変換してしまう(normalziation)という処理を施すこと。もう1つはTwitter専門のツールを作ってしまう、分野適応?(domain adaptation)をすることである。
ちなみに、NAACLのワークショップに提出された同じ著者の英語の音韻と崩れた表記が関係しているかどうか、を調べた論文も非常に面白かった。

Phonological Factors in Social Media Writing

これは子音が次の単語の先頭音韻としてくる場合、直前の単語の一文字が削除されやすいこと(consonant cluster reduction)を利用している。
例:

I lef the house (tは子音)
I left a tip (aは母音)

実験では単純な頻度とロジスティック回帰により、省略された場合とそうでない場合について、母音が後に続くかどうかについての統計的有意差を示している。

自分にとって表4のロジスティック回帰による実験結果を理解するのに苦労した(まあ知識が浅はかだからだろうけど)。ここではおそらくWald検定を用いているので、|z| >= 1.96 もしくは p < 0.05の場合に統計的有意差を見ていると思われる。すなわち、just, left, with, doingの最後の文字の省略に関しては、後に子音が続くかどうかが影響している
しかし、goingの方では有意差が見られないため、gの省略(g-dropping)に関しては子音が影響しない、と結論付けている。

以下に著者が触れていた、「崩れた表記の原因」を図で表したものを示す。
なお、点線部分が著者の2つ目の論文での貢献部分である。

2013年4月29日追記:
くだけた表現の分類が2009年以前の状況について詳しい。