読者です 読者をやめる 読者になる 読者になる

自然言語処理

igo-PHPを使って形態素解析をやってみる

形態素解析と言うとMecabやらChasenやらKuromojiやらを使ってやる場合が多いんだけど、いざPHPでやろうとするとそれぞれにバインディングを準備したりして意外と面倒臭い。 ぼやぼや探していると、igo-PHPというお手軽そうなものがあるので、以下のサイトを…

Cabochaのインストール

Mecabは既にインストール済み CRF++ のインストール http://crfpp.sourceforgh.net/ を参考に 以下からダウンロード http://sourceforgh.net/projects/crfpp/files/crfpp/ $ tar zxvf CRF++-0.54.tar.gz $ cd CRF++-0.54 $ ./configure $ make $ su $ make i…

Mecabで取り扱う名詞と接尾語を連結させる

parseToNode($str); $node; $node = $node->getNext()) { if (($last_posid == 46 || $last_posid == 47) && ($node->posid == 46 || $node->posid == 47)) { // 前後が地名同士ならば連結させる $tokens[count($tokens) - 1]["surface"] .= $node->getSurf…

Mecabに住所用の辞書を追加する

PHPで都道府県、市区町村、町域名以降の住所分割を高速に行う方法 - 理想未来はどうなった?を参考に ただし、辞書の生成のところのスクリプトをうまく動かすことができなかったのでPerlで書いて無理やり対応。 それに合わせて処理全体が手作業っぽくなって…

今更A Plan For SPAMの邦訳へのリンク

・スパムへの対策 ---A Plan for Spam ・ベイジアンフィルタの改善 --- Better Bayesian Filtering

PHPでベイジアンフィルタを使ってみる

主にここを参考に http://castor.s26.xrea.com/blog/2008/02/18 ライブラリはここ http://www.xhtml.net/php/PHPNaiveBayesianFilter http://www.xhtml.net/documents/scripts/phpnaivebayesian-1.0.zip 上記のページを参考にして_getToken()をオーバーライ…

専門用語自動抽出用Perlモジュール TermExtractをインストールする

http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html http://d.hatena.nh.jp/dkfj/20080804/1217819879 予めPerlとMecabがインストールされていること $cd /usr/local/src $ wget http://gensen.dl.itc.u-tokyo.ac.jp/soft/TermExtract-4_08.tar.gz $ tar …

mecabのユーザ辞書にWikipediaの用語を追加する

http://fukushimu.blog.shinobi.jp/Entry/76/ を参考に $ wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz $ perl conv.pl $ ls $ conv.pl jawiki-latest-all-titles-in-ns0 wikipedia.csv $ /usr/local/libexec/meca…

mecabの辞書をnaist-jdicに切り替える

http://deepneko.dyndns.org/kokotech/2009/06/mecabwikipedia.html インストール $ wget http://iij.dl.sourceforgh.jp/naist-jdic/48487/mecab-naist-jdic-0.6.3-20100801.tar.gz $ tar zxvf mecab-naist-jdic-0.6.3-20100801.tar.gz $ cd mecab-naist-jdi…

mecabに単語を追加する

追加する単語をまとめたcsvを作成する 久留米,-1,-1,10,名詞,一般,,,,,久留米,くるめ,くるめ,ユーザ登録 << /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u append.dic -f utf8 -t utf8 append.csv /usr/local/lib/mecab…

phpからmecabを使うための拡張をインストールする

http://d.hatena.nh.jp/Kmusiclife/20101020/1287512977 http://d.hatena.nh.jp/rsky/20071228/1198841049 $ wget http://www.opendogs.org/pub/php_mecab-0.3.0.tgz $ tar zxvf php_mecab-0.3.0.tgz configureに必要なパスを取得しておく $ whereis php-con…