2010-07-24 日本語の文章を形態素解析するときのノイズ処理 php 正規表現 メモ をする必要があるんだけど、 半角記号 1、2文字のひらがな とくにやっかいな上記2つの処理方法はphpでは // 半角記号を除去 (!preg_match("/[[:punct:]]/", $token)) // 1,2文字のひらがなを除去 (!preg_match("/^[ぁ-んー]{1,2}$/u", $token)) という正規表現でいける。 POSIXキャラクタクラス というものがあって、ここにいろいろ書いてある。 コマンド感覚で正規表現が使えるので頭使わなくてもできるね。 スペシャルサンクス 正規表現メモ