2010-07-01から1ヶ月間の記事一覧

日本語の文章を形態素解析するときのノイズ処理

をする必要があるんだけど、 半角記号 1、2文字のひらがな とくにやっかいな上記2つの処理方法はphpでは // 半角記号を除去 (!preg_match("/[[:punct:]]/", $token)) // 1,2文字のひらがなを除去 (!preg_match("/^[ぁ-んー]{1,2}$/u", $token)) という正規表…

tf-idfを用いてWEBページの特徴語を抽出する

tf-idf まぁ、やってることはこちらでやってることと何一つ変わらない。 ただ、対象テキストがWEBページってだけ。 なので内容については上記リンク先で。 http://ja.wikipedia.org/wiki/Tf-idfを引数にしてテスト テスト結果 Array ( [ノート] => 70.550270…

mysqlでcsvファイルの読み込み

phpmyadminだと、インポート可能なファイルサイズは最長: 2,048KiBという制限があるので、 それ以上のファイルをインポートするには端末からmysqlコマンドでインポートする。 大体のcsvファイルに該当しそうなコマンドは以下 mysql> load data local infile …

php_mecab0.3.0でmakeが通らない >> 解決

環境 Ubuntu 10.04 LTS PHP Version 5.3.2-1ubuntu4.2 MeCab 0.98 追記(2010/07/08) 開発者のid:rskyさんからコメントいただきました。 PHP5.3に対応したphp_mecab0.4.1がこちらで公開されています。 $cd mecab-0.4.1/ $phpize $./configure --with-mecab $l…

『告白』

観てきたー 映画の予告編を観ておもしろそうだったので、 原作を読んでから映画を観に行ってきた。以下、ネタバレ注意。 3つの異様さ 内容そのものは原作に忠実だったのだけれど、それでも飽きることはなかった。 この映画が原作に忠実でいながら自身のオリ…