HOME
  Security
   Software
    Hardware
  
FPGA
  CPU
   Android
    Raspberry Pi
  
nLite
  Xcode
   etc.
    ALL
  
LINK
BACK
 

2016/04/27

Raspberry Pi 3に形態素解析エンジン MeCabをインストールして形態素解析をする方法 Raspberry Pi 3に形態素解析エンジン MeCabをインストールして形態素解析をする方法

(ラズパイ3で オープンソースの形態素解析エンジン MeCabをコンパイルして使用する方法まとめ)

Tags: [Raspberry Pi], [電子工作]





● Raspberry Pi 3 Model Bを遂に購入

 Raspberry Pi3 Model B RPI2 RPI3

 大人気の CPUボードの Raspberry Piに WiFiと Bluetoothが搭載されたモデルが新発売となりました。
 以前から Raspberry Pi 2を買おうかどうか迷っていましたが、Raspberry Pi 3 Model Bの発売を機に購入を決意してラズベリアンになる事にしました。

 ※ ラズパイの OS Raspbianはバージョンが上がる毎に過去の版と OSの内部の作りが変わり、過去に書かれた製作記事(例えば Raspbian Wheezyの時代の記事)がそのままではエラーが出たりして動かない事が有ります。
 ※ 当方のホームページのラズパイ記事は全て Raspberry Pi 3 Model Bと Raspbian Jessieの組み合わせで動作確認をしております。
(ただし、将来的に新しい Raspbian OSが出た場合に、当方の Raspbian Jessieを基にした内容がそのままでは動かない可能性が有ります。)
 ※ 2017/08/16から Raspbian OSは Raspbian Jessieから Raspbian Stretchに変わりました。
 ※ 2019/06/20から Raspbian OSは Raspbian Stretchから Raspbian Busterに変わりました。

Download Raspbian for Raspberry Pi

ちなみに、歴代のバージョンと名称は
Debianコードネーム年月備考(参考)Ubuntuでの該当名称
Debian 11Bullseye2021/08/14~2021/11からラズパイにリリースFocal Fossa 20.04 LTS ?
Debian 10Buster2019/06/20~2019/06からラズパイ4対応Bionic 18.04 LTS
Debian 9Stretch2017/08/16~2018/03からラズパイ3B+対応Xenial 16.04 LTS
Debian 8Jessie2015~2016/02からラズパイ3対応Trusty 14.04 LTS
Debian 7Wheezy2013~2016
Debian 6.0Squeeze2011~2014
Debian GNU/Linux 5.0Lenny2009~2012


● Raspberry Pi 3 Model Bでオープンソースの形態素解析エンジン MeCabを動かす

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

 MeCab (和布蕪)とはオープンソース 形態素解析エンジンです。
 名称は開発者の好物「和布蕪(めかぶ)」から取られた。

● MeCabインストール手順

MeCab ダウンロード
 からダウンロードします。
 ・MeCab本体
 ・MeCab用の辞書
 ・Python用ライブラリ

 現在はグーグルドライブにファイルが置かれており、wgetでダウンロードするには URLを工夫する必要が有ります。

https://drive.google.com/uc?export=download&id={idパラメータ}
 を
https://googledrive.com/host/{idパラメータ}
 の様に修正します。

 例えば、 mecab-0.996.tar.gz ソースコードのダウンロード URL
https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7cENtOXlicTFaRUE
 を wgetするには、
https://googledrive.com/host/0B4y35FiV1wh7cENtOXlicTFaRUE
 の様に修正します。


● MeCab本体のコンパイルとインストール

 MeCab 2013-02-18 MeCab 0.996

$ cd
$ wget https://googledrive.com/host/0B4y35FiV1wh7cENtOXlicTFaRUE -O mecab-0.996.tar.gz
$ tar zxfv mecab-0.996.tar.gz
$ cd mecab-0.996
$ ./configure --with-charset=utf8 --enable-utf8-only
$ make
$ sudo make install

※ sudoが使えない場合や /usr/local/lib以外に配置したい場合は configureに --prefix=$HOME/usr/localを追加するとかなんとかでググる(パラメータ指定とファイル書き換えで苦労する)

MeCab本体の動作チェック

$ mecab
mecab: error while loading shared libraries: libmecab.so.2: cannot open shared object file: No such file or directory
soライブラリファイルが無いと怒っている

soライブラリファイルを認識させる
$ ls -l /usr/local/lib
$ cat /etc/ld.so.conf
$ sudo bash -c "echo /usr/local/lib >> /etc/ld.so.conf"
$ cat /etc/ld.so.conf
$ sudo ldconfig

$ mecab
param.cpp(69) [ifs] no such file or directory: /usr/local/lib/mecab/dic/ipadic/dicrc
辞書ファイルが無いと怒っている

● MeCabは /usr/local/lib以下に作成されます。
 MeCab本体と soライブラリファイル
$ ls -l /usr/local/lib/
-rw-r--r-- 1 root staff 2693430 Apr 29 16:18 libmecab.a
-rwxr-xr-x 1 root staff     956 Apr 29 16:18 libmecab.la
lrwxrwxrwx 1 root staff      17 Apr 29 16:18 libmecab.so -> libmecab.so.2.0.0
lrwxrwxrwx 1 root staff      17 Apr 29 16:18 libmecab.so.2 -> libmecab.so.2.0.0
-rwxr-xr-x 1 root staff 1891384 Apr 29 16:18 libmecab.so.2.0.0
drwxr-sr-x 3 root staff    4096 Apr 29 16:21 mecab

 辞書
$ ls -l /usr/local/lib/mecab/dic
drwxr-sr-x 2 root staff 4096 Apr 29 16:27 ipadic
drwxr-sr-x 2 root staff 4096 Apr 30 06:50 jumandic
drwxr-sr-x 2 root staff 4096 Apr 30 06:57 unidic

● MeCab用辞書のインストール(sudo raspi-configの Expand Filesystemを実行しておく事)

 下記の 3種類の辞書が有ります。IPA辞書だけで使えます。Juman辞書や Unidic辞書は必要に応じて入れます。

 ・IPA 辞書
mecab-ipadic-2.7.0-20070801.tar.gz
 ・Juman 辞書
mecab-jumandic-7.0-20130310.tar.gz
 ・Unidic 辞書
OSDN - Unidic 辞書

 ・IPA 辞書
$ cd
$ wget https://googledrive.com/host/0B4y35FiV1wh7MWVlSDBCSXZMTXM -O mecab-ipadic-2.7.0-20070801.tar.gz
$ tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
$ cd mecab-ipadic-2.7.0-20070801
$ ./configure --with-charset=utf8
$ make
$ sudo make install
$ ls -l /usr/local/lib/mecab/dic
$ df -h

 ・Juman 辞書
$ cd
$ wget https://googledrive.com/host/0B4y35FiV1wh7X2pESGlLREpxdXM -O mecab-jumandic-7.0-20130310.tar.gz
$ tar zxfv mecab-jumandic-7.0-20130310.tar.gz
$ cd mecab-jumandic-7.0-20130310
$ ./configure --with-charset=utf8
$ make
$ sudo make install
$ ls -l /usr/local/lib/mecab/dic
$ df -h

 ・Unidic 辞書
$ cd
$ wget http://iij.dl.osdn.jp/unidic/58338/unidic-mecab-2.1.2_src.zip
$ unzip unidic-mecab-2.1.2_src.zip
$ cd unidic-mecab-2.1.2_src
$ ./configure --with-charset=utf8
$ make
$ sudo make install
$ ls -l /usr/local/lib/mecab/dic
$ df -h

● MeCab本体の動作チェック(辞書も soライブラリも正しい状態)

$ mecab
あいうえお
あい 動詞,自立,*,*,五段・カ行イ音便,連用タ接続,あく,アイ,アイ
う 助動詞,*,*,*,不変化型,基本形,う,ウ,ウ
え フィラー,*,*,*,*,*,え,エ,エ
お 感動詞,*,*,*,*,*,お,オ,オ
EOS
[Ctrl+D]で終了


● MeCab Pythonライブラリのコンパイルとインストール

$ sudo apt-get -y install python-dev
$ cd
$ wget https://googledrive.com/host/0B4y35FiV1wh7UlJpaWJKM01KRVE -O mecab-python-0.996.tar.gz
$ tar xvzf mecab-python-0.996.tar.gz
$ cd mecab-python-0.996
$ python setup.py build
$ sudo python setup.py install

 python-devが無いと下記のエラーが発生する
$ python setup.py build
MeCab_wrap.cxx:149:20: fatal error: Python.h: No such file or directory
 #include <Python.h>
                    ^
compilation terminated.
error: command 'arm-linux-gnueabihf-gcc' failed with exit status 1
 soライブラリファイルが無いと怒っている(上記方法で soファイルを認識させる)
$ python
Python 2.4.3 (#1, Jun 18 2012, 08:55:31)
[GCC 4.1.2 20080704 (Red Hat 4.1.2-52)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import MeCab
Traceback (most recent call last):
  File "<stdin>", line 1, in ?
  File "/root/mecab-python-0.996/MeCab.py", line 29, in ?
    import _MeCab
ImportError: libmecab.so.2: cannot open shared object file: No such file or directory
$ python
Python 2.4.3 (#1, Jun 18 2012, 08:55:31)
[GCC 4.1.2 20080704 (Red Hat 4.1.2-52)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import MeCab
>>>
[Ctrl+D]で終了
 import MeCabでエラーが出なければ pythonから MeCabを使用できる。
$ python
Python 2.7.9 (default, Mar  8 2015, 00:52:26)
[GCC 4.9.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import MeCab
>>> mt = MeCab.Tagger("-Ochasen")
>>> print mt.parse("MeCabはオープンソースの形態素解析エンジン")
MeCab   MeCab   MeCab   名詞-固有名詞-組織
は      ハ      は      助詞-係助詞
オープン        オープン        オープン        名詞-サ変接続
ソース  ソース  ソース  名詞-一般
の      ノ      の      助詞-連体化
形態素  ケイタイソ      形態素  名詞-一般
解析    カイセキ        解析    名詞-サ変接続
エンジン        エンジン        エンジン        名詞-一般
EOS

● MeCabの辞書毎の出力内容の違い
 デフォルト、IPA辞書
$ mecab
汎用的な設計を基本方針としています。
汎用    名詞,一般,*,*,*,*,汎用,ハンヨウ,ハンヨー
的      名詞,接尾,形容動詞語幹,*,*,*,的,テキ,テキ
な      助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
設計    名詞,サ変接続,*,*,*,*,設計,セッケイ,セッケイ
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
基本    名詞,一般,*,*,*,*,基本,キホン,キホン
方針    名詞,一般,*,*,*,*,方針,ホウシン,ホーシン
と      助詞,格助詞,一般,*,*,*,と,ト,ト
し      動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
て      助詞,接続助詞,*,*,*,*,て,テ,テ
い      動詞,非自立,*,*,一段,連用形,いる,イ,イ
ます    助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス
。      記号,句点,*,*,*,*,。,。,。
EOS

 Juman辞書
$ mecab -d /usr/local/lib/mecab/dic/jumandic
汎用的な設計を基本方針としています。
汎用    名詞,サ変名詞,*,*,汎用,はんよう,代表表記:汎用/はんよう カテゴリ:抽象物
的な    接尾辞,形容詞性名詞接尾辞,ナ形容詞,ダ列基本連体形,的だ,てきな,代表表記:的だ/てきだ 準内容語 カテゴリ:抽象物
設計    名詞,サ変名詞,*,*,設計,せっけい,代表表記:設計/せっけい カテゴリ:抽象物 ドメイン:科学・技術
を      助詞,格助詞,*,*,を,を,連語
基本    名詞,普通名詞,*,*,基本,きほん,代表表記:基本/きほん 〜を〜に構成語 カテゴリ:抽象物
方針    名詞,普通名詞,*,*,方針,ほうしん,代表表記:方針/ほうしん カテゴリ:抽象物
と      助詞,格助詞,*,*,と,と,連語
して    動詞,*,サ変動詞,タ系連用テ形,する,して,代表表記:する/する 付属動詞候補(基本) 自他動詞:自:成る/なる
い      接尾辞,動詞性接尾辞,母音動詞,基本連用形,いる,い,代表表記:いる/いる
ます    接尾辞,動詞性接尾辞,動詞性接尾辞ます型,基本形,ます,ます,代表表記:ます/ます
。      特殊,句点,*,*,。,。,*
EOS

 Unidic辞書
$ mecab -d /usr/local/lib/mecab/dic/unidic
汎用的な設計を基本方針としています。
汎用    ハンヨー        ハンヨウ        汎用    名詞-普通名詞-一般
的      テキ    テキ    的      接尾辞-形状詞的
な      ナ      ダ      だ      助動詞  助動詞-ダ       連体形-一般
設計    セッケー        セッケイ        設計    名詞-普通名詞-サ変可能
を      オ      ヲ      を      助詞-格助詞
基本    キホン  キホン  基本    名詞-普通名詞-一般
方針    ホーシン        ホウシン        方針    名詞-普通名詞-一般
と      ト      ト      と      助詞-格助詞
し      シ      スル    為る    動詞-非自立可能 サ行変格        連用形-一般
て      テ      テ      て      助詞-接続助詞
い      イ      イル    居る    動詞-非自立可能 上一段-ア行     連用形-一般
ます    マス    マス    ます    助動詞  助動詞-マス     終止形-一般
。                      。      補助記号-句点
EOS

● MeCabの出力指定毎の違い
 ヨミ付与
$ mecab -Oyomi
汎用的な設計を基本方針としています。
ハンヨウテキナセッケイヲキホンホウシントシテイマス。

 わかち書き
$ mecab -Owakati
汎用的な設計を基本方針としています。
汎用 的 な 設計 を 基本 方針 と し て い ます 。

 ChaSen互換
$ mecab -Ochasen
汎用的な設計を基本方針としています。
汎用    ハンヨウ        汎用    名詞-一般
的      テキ    的      名詞-接尾-形容動詞語幹
な      ナ      だ      助動詞  特殊・ダ        体言接続
設計    セッケイ        設計    名詞-サ変接続
を      ヲ      を      助詞-格助詞-一般
基本    キホン  基本    名詞-一般
方針    ホウシン        方針    名詞-一般
と      ト      と      助詞-格助詞-一般
し      シ      する    動詞-自立       サ変・スル      連用形
て      テ      て      助詞-接続助詞
い      イ      いる    動詞-非自立     一段    連用形
ます    マス    ます    助動詞  特殊・マス      基本形
。      。      。      記号-句点
EOS

 全情報を出力
$ mecab -Odump
汎用的な設計を 基本方針としています。
0 BOS BOS/EOS,*,*,*,*,*,*,*,* 0 0 0 0 0 0 2 1 0.000000 0.000000 0.000000 0
2 汎用 名詞,一般,*,*,*,*,汎用,ハンヨウ,ハンヨー 0 6 1285 1285 38 2 0 1 0.000000 0.000000 0.000000 5339
7 的 名詞,接尾,形容動詞語幹,*,*,*,的,テキ,テキ 6 9 1299 1299 52 2 0 1 0.000000 0.000000 0.000000 7243
12 な 助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ 9 12 454 454 25 6 0 1 0.000000 0.000000 0.000000 6962
16 設計 名詞,サ変接続,*,*,*,*,設計,セッケイ,セッケイ 12 18 1283 1283 36 2 0 1 0.000000 0.000000 0.000000 8935
17 を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ 18 21 156 156 13 6 0 1 0.000000 0.000000 0.000000 8486
24 基本 名詞,一般,*,*,*,*,基本,キホン,キホン 22 28 1285 1285 38 2 0 1 0.000000 0.000000 0.000000 11459
43 方針 名詞,一般,*,*,*,*,方針,ホウシン,ホーシン 28 34 1285 1285 38 2 0 1 0.000000 0.000000 0.000000 16482
50 と 助詞,格助詞,一般,*,*,*,と,ト,ト 34 37 150 150 13 6 0 1 0.000000 0.000000 0.000000 19271
59 し 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ 37 40 610 610 31 6 0 1 0.000000 0.000000 0.000000 20727
68 て 助詞,接続助詞,*,*,*,*,て,テ,テ 40 43 307 307 18 6 0 1 0.000000 0.000000 0.000000 19234
72 い 動詞,非自立,*,*,一段,連用形,いる,イ,イ 43 46 930 930 33 6 0 1 0.000000 0.000000 0.000000 23144
85 ます 助動詞,*,*,*,特殊・マス,基本形,ます,マス,マス 46 52 491 491 25 6 0 1 0.000000 0.000000 0.000000 20941
93 。 記号,句点,*,*,*,*,。,。,。 52 55 8 8 7 3 0 1 0.000000 0.000000 0.000000 18106
96 EOS BOS/EOS,*,*,*,*,*,*,*,* 56 56 0 0 0 0 3 1 0.000000 0.000000 0.000000 16570

 /usr/local/lib/mecab/dic/ipadic/dicrcファイルに定義されている
$ cat /usr/local/lib/mecab/dic/ipadic/dicrc
;
; Configuration file of IPADIC
;
; $Id: dicrc,v 1.4 2006/04/08 06:41:36 taku-ku Exp $;
;
cost-factor = 800
bos-feature = BOS/EOS,*,*,*,*,*,*,*,*
eval-size = 8
unk-eval-size = 4
config-charset = EUC-JP

; yomi
node-format-yomi = %pS%f[7]
unk-format-yomi = %M
eos-format-yomi  = \n

; simple
node-format-simple = %m\t%F-[0,1,2,3]\n
eos-format-simple  = EOS\n

; ChaSen
node-format-chasen = %m\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen  = %m\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen  = EOS\n

; ChaSen (include spaces)
node-format-chasen2 = %M\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen2  = %M\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen2  = EOS\n



Tags: [Raspberry Pi], [電子工作]

●関連するコンテンツ(この記事を読んだ人は、次の記事も読んでいます)

Raspberry Pi 3に USB Micを接続して日本語の音声認識をする方法(Julius編)
Raspberry Pi 3に USB Micを接続して日本語の音声認識をする方法(Julius編)

  ラズパイ3で汎用大語彙連続音声認識エンジン Juliusをコンパイルして使用する方法

Raspberry Pi 3に PyAudioを入れて USBマイクを接続して音声入力を行なう方法
Raspberry Pi 3に PyAudioを入れて USBマイクを接続して音声入力を行なう方法

  ラズパイに USB Micを接続して音声入力をする方法(PyAudio編)

Raspberry Pi 3に PortAudioを入れて USBマイクを接続して音声入力を行なう方法
Raspberry Pi 3に PortAudioを入れて USBマイクを接続して音声入力を行なう方法

  ラズパイに USB Micを接続して音声入力をする方法(PortAudio編)

Raspberry Pi 3に日本語 OCR Tesseractをインストールして OCR文字認識をする方法
Raspberry Pi 3に日本語 OCR Tesseractをインストールして OCR文字認識をする方法

  ラズパイ3で オープンソースの OCRエンジン Tesseractをインストールして使用する方法まとめ

Raspberry Pi 3に日本語 OCR NHocrをビルドして OCR文字認識をする方法
Raspberry Pi 3に日本語 OCR NHocrをビルドして OCR文字認識をする方法

  ラズパイ3で オープンソースの OCRエンジン NHocrをコンパイルして使用する方法まとめ

Raspberry Pi 3で日本語音声を合成して喋らせる方法(AquesTalk編)
Raspberry Pi 3で日本語音声を合成して喋らせる方法(AquesTalk編)

  ラズパイ3で 音声合成アプリ AquesTalk Piを使用してお手軽に日本語文章を喋らせる方法

Raspberry Pi 3で日本語音声を合成して喋らせる方法(OpenJTalk編)
Raspberry Pi 3で日本語音声を合成して喋らせる方法(OpenJTalk編)

  ラズパイ3で 音声合成システム Open JTalkをコンパイルして、お手軽に日本語の文章を喋らせる方法

Raspberry Pi 3で音声合成して喋らせる方法(英語、中国語編)
Raspberry Pi 3で音声合成して喋らせる方法(英語、中国語編)

  ラズパイ3で 音声合成アプリを使用してお手軽に英語と中国語の文章を喋らせる方法

Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法
Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法

  ラズパイに Google Cloud Speech APIを設定する方法(Python言語編)

Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法
Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法

  ラズパイに Google Cloud Speech APIを設定する方法(Java言語編)

Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法
Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法

  ラズパイに Google Cloud Speech APIを設定する方法(Node.js言語編)

Raspberry Pi 3に AVSを入れて Amazon Echoを作る方法(Alexa Voice Service)
Raspberry Pi 3に AVSを入れて Amazon Echoを作る方法(Alexa Voice Service)

  ラズパイを Amazon Echoにする方法、Alexa Voice Service AVSをインストール

Raspberry Piで docomo Developer APIに挑戦 雑談対話 API編
Raspberry Piで docomo Developer APIに挑戦 雑談対話 API編

  ラズパイ + Javaでドコモの docomo Developer supportの雑談対話 APIを動かす

Raspberry Piで docomo Developer APIに挑戦 音声合成 API編
Raspberry Piで docomo Developer APIに挑戦 音声合成 API編

  ラズパイ + Javaでドコモの docomo Developer supportの音声合成 APIを動かす

Visual Studio 2013の C# .NETで 日本語対応の OCR文字認識アプリを自作する方法
Visual Studio 2013の C# .NETで 日本語対応の OCR文字認識アプリを自作する方法

  オフライン環境で動作可能な 世界各国語対応の OCR文字認識アプリを C# .NETで作成、MS製 OCRライブラリを使用

Visual Studio 2013の C#で日本語対応の手書き文字認識アプリを自作する方法
Visual Studio 2013の C#で日本語対応の手書き文字認識アプリを自作する方法

  オフライン環境で動作する世界各国語対応の手書き文字認識アプリを作成、MS製 手書き認識ライブラリを使用

Windows 10の音声合成エンジンを使用して入力した文字列を喋る & Waveファイル書き出し
Windows 10の音声合成エンジンを使用して入力した文字列を喋る & Waveファイル書き出し

  SpeechApp Windows 10用 Speech 音声合成 Text-to-Speech TTSのアプリ

Windows 10対応 Microsoft Speech使用の音声認識アプリ
Windows 10対応 Microsoft Speech使用の音声認識アプリ

  SpeechRecognizeApp 音声認識エンジンを使用してマイク入力の音声を認識します

Windows 10対応の日本語対応の音声合成エンジン TTSアプリを C# .NETで自作する
Windows 10対応の日本語対応の音声合成エンジン TTSアプリを C# .NETで自作する

  Visual Studio 2013の C# .NETで入力した文字列を喋る音声合成 TTSアプリを作成する 世界各国語に対応




[HOME] | [BACK]
リンクフリー(連絡不要、ただしトップページ以外は Web構成の変更で移動する場合があります)
Copyright (c) 2016 FREE WING,Y.Sakamoto
Powered by 猫屋敷工房 & HTML Generator

http://www.neko.ne.jp/~freewing/raspberry_pi/raspberry_pi_3_mecab_morphological_analysis/