日本語の文章を形態素解析するときのノイズ処理

をする必要があるんだけど、

  • 半角記号
  • 1、2文字のひらがな

とくにやっかいな上記2つの処理方法はphpでは

// 半角記号を除去
(!preg_match("/[[:punct:]]/", $token))

// 1,2文字のひらがなを除去
(!preg_match("/^[ぁ-んー]{1,2}$/u", $token))

という正規表現でいける。

POSIXキャラクタクラス

というものがあって、ここにいろいろ書いてある。
コマンド感覚で正規表現が使えるので頭使わなくてもできるね。

スペシャルサンクス