VMware内のUbuntuで忍殺語形態素解析辞書「チャドー」を使う

めっちゃハマった(悪い方に)のでメモ。

まず何が問題なのかというと
・WinでC++pythonからMecabを使おうとしてもうまくいかない
(僕はMinGWなのでなおさら…)
・チャドーはWindows用しかない

それでどっちが楽かというとまあUbuntuを使うほうが楽かな……と。

以下、手順のメモ。ユーザー辞書ではなくシステム辞書に合成しています。
ポイントはapt-getを使わないことです。
まずUbuntuMecabをインストール

$ sudo wget http://mecab.googlecode.com/files/mecab-0.994.tar.gz
$ sudo tar zxvf mecab-0.994.tar.gz
$ cd mecab-0.994.tar.gz
$ sudo ./configure --enable-utf8-only
$ make
$ sudo make install
$ sudo ln -s /usr/local/bin/mecab-config /usr/bin/mecab-config
$ cd
$ sudo gedit(viでもよい)/etc/ld.so.conf
→/usr/local/libを追加
$ sudo ldconfig

次にWindowsでチャドーのzipをダウンロードしておきます。Ubuntuからだと文字コードの関係で開くのが大変らしい。
使うのはMecabシステム辞書フォルダ内の全てのファイルと忍殺語辞書フォルダ内のchado.csvです。これらのファイルを共有ファイルとかでUbuntuに移動し

nkf --overwrite -e -Lu -d *.csv *.def
sed -i '/\x1a/d' chado.csv

を実行。文字コードと改行コードを変更し、chado.csvの末尾にあるCtrl-Zを取り除いているらしい。
次にIPA辞書のダウンロード。

$ sudo wget http://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
$ sudo tar zvxf mecab-ipadic-2.7.0-20070801.tar.gz

いよいよ完成間近です。Ubuntuに移しておいたチャドーのファイルすべてをmecab-ipadic-2.7.0-20070801内へ上書きコピーまたは移動しましょう。普通にGUIで操作するのがおすすめ。仕上げに

$ cd mecab-ipadic-2.7.0-20070801
$ sudo ./configure --with-charset=utf8
$ make
$ sudo make install

で終了。
こんな感じです。
f:id:mio_hirona:20160321193214p:plain
さて、この努力が身を結ぶかどうかは今後の頑張りにかかっているのですか、どうなることやら……。