HOME
  Security
   Software
    Hardware
  
FPGA
  CPU
   Android
    Raspberry Pi
  
nLite
  Xcode
   etc.
    ALL
  
English Translate 中文翻訳
LINK
BACK
 

2016/06/02

Raspberry Pi 3に日本語 OCR Tesseractをインストールして OCR文字認識をする方法 Raspberry Pi 3に日本語 OCR Tesseractをインストールして OCR文字認識をする方法

(ラズパイ3で オープンソースの OCRエンジン Tesseractをインストールして使用する方法まとめ)

Tags: [Raspberry Pi], [電子工作]






● Raspberry Pi 3 Model Bを遂に購入

 Raspberry Pi3 Model B RPI2 RPI3

 大人気の CPUボードの Raspberry Piに WiFiと Bluetoothが搭載されたモデルが新発売となりました。
 以前から Raspberry Pi 2を買おうかどうか迷っていましたが、Raspberry Pi 3 Model Bの発売を機に購入を決意してラズベリアンになる事にしました。

 ※ ラズパイの OS Raspbianはバージョンが上がる毎に過去の版と OSの内部の作りが変わり、過去に書かれた製作記事(例えば Raspbian Wheezyの時代の記事)がそのままではエラーが出たりして動かない事が有ります。
 ※ 当方のホームページのラズパイ記事は全て Raspberry Pi 3 Model Bと Raspbian Jessieの組み合わせで動作確認をしております。
(ただし、将来的に新しい Raspbian OSが出た場合に、当方の Raspbian Jessieを基にした内容がそのままでは動かない可能性が有ります。)
 ※ 2017/08/16から Raspbian OSは Raspbian Jessieから Raspbian Stretchに変わりました。

Download Raspbian for Raspberry Pi

ちなみに、歴代のバージョンと名称は
Debianコードネーム年月備考
Debian 9Stretch2017/08/16~
Debian 8Jessie2015~2016/02からラズパイ3対応
Debian 7Wheezy2013~2016
Debian 6.0Squeeze2011~2014
Debian GNU/Linux 5.0Lenny2009~2012


● Tesseractのインストール方法

GitHub - tesseract-ocr/tesseract
 Tesseract Open Source OCR Engine (main repository)

sudo apt-get update
sudo apt-get -y install tesseract
 これでインストールできます。

$ tesseract -v
tesseract 3.03
 leptonica-1.71
  libgif 4.1.6(?) : libjpeg 6b : libpng 1.2.50 : libtiff 4.0.3 : zlib 1.2.8 : libwebp 0.4.1 : libopenjp2 2.1.0

$ tesseract
Usage:
  tesseract imagename|stdin outputbase|stdout [options...] [configfile...]

OCR options:
  --tessdata-dir /path  specify location of tessdata path
  -l lang[+lang]        specify language(s) used for OCR
  -c configvar=value    set value for control parameter.
                        Multiple -c arguments are allowed.
  -psm pagesegmode      specify page segmentation mode.
These options must occur before any configfile.

pagesegmode values are:
  0 = Orientation and script detection (OSD) only.
  1 = Automatic page segmentation with OSD.
  2 = Automatic page segmentation, but no OSD, or OCR
  3 = Fully automatic page segmentation, but no OSD. (Default)
  4 = Assume a single column of text of variable sizes.
  5 = Assume a single uniform block of vertically aligned text.
  6 = Assume a single uniform block of text.
  7 = Treat the image as a single text line.
  8 = Treat the image as a single word.
  9 = Treat the image as a single word in a circle.
  10 = Treat the image as a single character.

Single options:
  -v --version: version info
  --list-langs: list available languages for tesseract engine. Can be used with --tessdata-dir.
  --print-parameters: print tesseract parameters to the stdout.


● Tesseractのインストール方法
 2019/03/08 追記
 最近は下記の様に tesseract-ocrを指定します。
sudo apt-get -y install tesseract
E: Unable to locate package tesseract

sudo apt-get update
sudo apt-get -y install tesseract-ocr

pi@raspberrypi:~ $ tesseract -v
tesseract 3.04.01
 leptonica-1.74.1
  libgif 5.1.4 : libjpeg 6b (libjpeg-turbo 1.5.1) : libpng 1.6.28 : libtiff 4.0.8 : zlib 1.2.8 : libwebp 0.5.2 : libopenjp2 2.1.2

● tesseract ocr 各種言語認識データ
https://sourceforge.net/projects/tesseract-ocr-alt/files/

 日本語
tesseract-ocr-3.02.jpn.tar.gz
https://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.jpn.tar.gz

 中国語、簡体字(中国本土)
tesseract-ocr-3.02.chi_sim.tar.gz
http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.chi_sim.tar.gz

 中国語、繁体字(台湾とか)
tesseract-ocr-3.02.chi_tra.tar.gz
http://tenet.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.chi_tra.tar.gz

● tesseract ocr 各種言語の認識データを配置する
# === 日本語
cd
wget https://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.jpn.tar.gz
tar xvfz tesseract-ocr-3.02.jpn.tar.gz

cd tesseract-ocr/tessdata/
sudo cp jpn.traineddata /usr/share/tesseract-ocr/tessdata/

# === 中国語、簡体字(中国本土)
cd
wget http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.chi_sim.tar.gz
tar xvfz tesseract-ocr-3.02.chi_sim.tar.gz

cd tesseract-ocr/tessdata/
sudo cp chi_sim.traineddata /usr/share/tesseract-ocr/tessdata/

# === 中国語、繁体字(台湾とか)
cd
wget http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.chi_tra.tar.gz
tar xvfz tesseract-ocr-3.02.chi_tra.tar.gz

cd tesseract-ocr/tessdata/
sudo cp chi_tra.traineddata /usr/share/tesseract-ocr/tessdata/

● tesseract ocr 各種言語の画像データを OCRで認識する
tesseract test_jpn.jpg stdout -l jpn
tesseract test_chs.jpg stdout -l chi_sim
tesseract test_chs.jpg stdout -l chi_tra


● tesseract ocr 中国語 簡体字の画像データを OCRで認識する

2018/05/10
Visual Studio 2013の C#で 日本語対応の OCR文字認識アプリを自作する方法
Visual Studio 2013の C#で 日本語対応の OCR文字認識アプリを自作する方法

  オフライン環境で動作可能な 世界各国語対応の OCR文字認識アプリを作成、MS製 OCRライブラリを使用
tesseract simplified_chinese_ocr_sample_org.jpg stdout -l chi_sim

Detected 122 diacritics
需厅\霓(,言,

美重卜伪麻片说明书郦 甲类

请仔细阅 读说明书并按说明使用或在药师指导下购买和使用o

英文名称: COmpOund DeX甘OmethO「phan HVd「Ob「Omlde 丁abletS

汉语拼音 Meiqueima Pian

【成份】 本品为复方制剂 每片含主要成份对乙酰氨墓酚5皿亳克 氢溴酸右
美沙芬伍亳克 盐酸伪麻黄碱30亳克和马来酸氢苯那敏2亳克o 辅料为 胶

化淀粉 聚Z烯毗略烷酮 蓝色T# 微晶纤维素 羧甲基淀粉钠\ 硬脂酸、
蓝色干啧料 巴西棕榈蜡o

【性状】 本品为蓝色椭圆形蒲膜衣片, 除去包衣旨显蓝色o

【作用类别】 本品为感冒用药类非处方药药品o

【遭应症】 用于普通感冒或流行性感冒引起的发热 头痛` 四肢酸痛为 打喷嚏、
流鼻涕、 鼻塞 咳嗽 咽痛等症状o

_ 一 【矗赡】 每片含对乙酰氨基酚5oO亳克, 氢溴酸右美沙芬T5亳克, 盐酸伪麻黄
鬣、鲫毫克和马来酸氯苯那敏2亳克o

ˉ ′ I'l′口服_ 12岩以 卜J丨麒蚩7;爹衢〒鑫膏人一 一沛T怯 伍R…盼胞们加 n血山蚪



Tags: [Raspberry Pi], [電子工作]


[HOME] | [BACK]
リンクフリー(連絡不要、ただしトップページ以外は Web構成の変更で移動する場合があります)
Copyright (c) 2016 FREE WING,Y.Sakamoto
Powered by 猫屋敷工房 & HTML Generator

http://www.neko.ne.jp/~freewing/raspberry_pi/raspberry_pi_3_ocr_tesseract/