読者です 読者をやめる 読者になる 読者になる

HYT Machineworks 作業日誌

やったこととか思いついたことをメモしておくブログです。

Python3の環境でmecab-pythonを使い、さらにWindows7 64bitで、mecab-ipadic-neologdを使う

Python Windows LinuxMint MeCab

Python3でmecab-pythonを入れたのでメモ。

基本的に

pop365.cocolog-nifty.com

サイトの通りにやればOK

ただ、私は、先に公式のバイナリをインストールしてから上書きする形でインストールした。そのときに、文字コードutf-8を指定した。というか、しないとこの後のmecab-ipadic-neologdが使えないと思う。

ただし、リンク先のサイトはpython2系でやっているのでというかmecab-pythonについてくるtest.pyはpython2系で書かれているので動かないのでprint関係を修正すること。

あと、Mecabのビルドの際に修正する行の最後にスペースがあるとエラーになるので注意。

ここからが本題で、分かち書きをするとブチブチ切れていたので凄いと話題なmecab-ipadic-neologdを入れる。

github.com

ipadicに新語を超たくさん登録してくれている(追加だけじゃなくって修正もしてるみたいで)サイコーな辞書なんですが、作者のサイトにあるようにwidows7には対応してません。

なので、何らかの*nixが入ったマシンを用意します。僕は、LinuxMint18.1が入ったマシンがあったのでそれで入れました。

で、インストールされた先がデフォルトでは、

/usr/lib/mecab/dic/

の中に、mecab-ipadic-neologdという名前のディレクトリで保存されています。そのディレクトリごとwindowsマシンの

\Mecabインストールディレクトリ\dic\

にコピーしてetc内にあるmecabrcを

変更前:dicdir = $(rcpath)\..\dic\ipadic
変更後:dicdir = $(rcpath)\..\dic\mecab-ipadic-neologd

 と編集すればOKです。

試しに、mecab-ipadic-neologdでの例文を分かち書きしてみる。

結果

10日 トオカ 10日 名詞-固有名詞-一般
放送 ホウソウ 放送 名詞-サ変接続
の ノ の 助詞-連体化
「 「 「 記号-括弧開
中居正広のミになる図書館 ナカイマサヒロノミニナルトショカン 中居正広のミになる図書館 名詞-固有名詞-一般
」 」 」 記号-括弧閉
( ( ( 記号-括弧開
テレビ朝日 テレビアサヒ テレビ朝日 名詞-固有名詞-組織
系 ケイ 系 名詞-接尾-一般
) ) ) 記号-括弧閉
で デ で 助詞-格助詞-一般
、 、 、 記号-読点
SMAP スマップ SMAP 名詞-固有名詞-一般
の ノ の 助詞-連体化
中居正広 ナカイマサヒロ 中居正広 名詞-固有名詞-人名-一般
が ガ が 助詞-格助詞-一般
、 、 、 記号-読点
篠原信一 シノハラシンイチ 篠原信一 名詞-固有名詞-人名-一般
の ノ の 助詞-連体化
過去 カコ 過去 名詞-副詞可能
の ノ の 助詞-連体化
勘違い カンチガイ 勘違い 名詞-サ変接続
を ヲ を 助詞-格助詞-一般
明かす アカス 明かす 動詞-自立 五段・サ行 基本形
一幕 ヒトマク 一幕 名詞-一般
が ガ が 助詞-格助詞-一般
あっ アッ ある 動詞-自立 五段・ラ行 連用タ接続
た タ た 助動詞 特殊・タ 基本形
。 。 。 記号-句点

 出来た。

これも、windows10になればBoW上でできるようなので少しの間の対応かもしれませんね。