正規表現

日本語の文章を形態素解析するときのノイズ処理

をする必要があるんだけど、 半角記号 1、2文字のひらがな とくにやっかいな上記2つの処理方法はphpでは // 半角記号を除去 (!preg_match("/[[:punct:]]/", $token)) // 1,2文字のひらがなを除去 (!preg_match("/^[ぁ-んー]{1,2}$/u", $token)) という正規表…