DebianにMecabを入れてみる.

研究の関係でDebian4.0にmecabを入れようとしたら,
どうも文字コードutf-8な辞書がないようで.
lenny用のdebパッケージをダウンロードして強制的に入れようとするも挫折.
結局,ソースからコンパイルして入れることにしたので,その時のメモです.*1

まずは,mecabと辞書,pythonバインディングwget

%wget http://nchc.dl.sourceforge.net/sourceforge/mecab/mecab-0.97.tar.gz
%wget http://nchc.dl.sourceforge.net/sourceforge/mecab/mecab-ipadic-2.7.0-20070801.tar.gz
%wget http://nchc.dl.sourceforge.net/sourceforge/mecab/mecab-python-0.97.tar.gz

続いて解凍.

%tar xvfz mecab-0.97.tar.gz
%tar xvfz mecab-ipadic-2.7.0-20070801.tar.gz
%tar xvfz mecab-python-0.97.tar.gz

mecabのインストール

%cd mecab-0.97
%./configure --enable-utf8-only
%make
%sudo make install

問題なし.

mecab-ipadicのインストール

%cd mecab-ipadic-2.7.0-20070801
%./configure --with-charset=utf8
%make
%sudo make install

ファイルが大きくて面倒だけど,こちらも問題なし.

mecab-pythonのインストール

%cd mecab-python-0.97
%sudo python setup.py install

OKOK.

pythonから利用できるか試してみる

インタラクティブシェルでインポート.

%python
>>> import MeCab
ImportError: libmecab.so.1: cannot open shared object file: No such file or directory

ぐぬぬ,
検索してみたらば,参考URL2を発見

%sudo emacs /etc/ld.so.conf
/usr/local/lib
%sudo ldconfig
%python
>> import MeCab
>> m = MeCab.Tagger()
>> print m.parse("こんにちわ世界")

こんにちわ      感動詞,*,*,*,*,*,こんにちわ,コンニチワ,コンニチワ
世界    名詞,一般,*,*,*,*,世界,セカイ,セカイ
EOS

嫌いではないけど,ちょっと面倒な作業でした.

*1:mecab本体は別にソースから入れることはなかったかもかも