HOME
  Security
   Software
    Hardware
  
FPGA
  CPU
   Android
    Raspberry Pi
  
nLite
  Xcode
   etc.
    ALL
  
LINK
BACK
 

2016/06/02

Raspberry Pi 3に日本語 OCR Tesseractをインストールして OCR文字認識をする方法 Raspberry Pi 3に日本語 OCR Tesseractをインストールして OCR文字認識をする方法

(ラズパイ3で オープンソースの OCRエンジン Tesseractをインストールして使用する方法まとめ)

Tags: [Raspberry Pi], [電子工作]






● Raspberry Pi 3 Model Bを遂に購入

 Raspberry Pi3 Model B RPI2 RPI3

 大人気の CPUボードの Raspberry Piに WiFiと Bluetoothが搭載されたモデルが新発売となりました。
 以前から Raspberry Pi 2を買おうかどうか迷っていましたが、Raspberry Pi 3 Model Bの発売を機に購入を決意してラズベリアンになる事にしました。

 ※ ラズパイの OS Raspbianはバージョンが上がる毎に過去の版と OSの内部の作りが変わり、過去に書かれた製作記事(例えば Raspbian Wheezyの時代の記事)がそのままではエラーが出たりして動かない事が有ります。
 ※ 当方のホームページのラズパイ記事は全て Raspberry Pi 3 Model Bと Raspbian Jessieの組み合わせで動作確認をしております。
(ただし、将来的に新しい Raspbian OSが出た場合に、当方の Raspbian Jessieを基にした内容がそのままでは動かない可能性が有ります。)
 ※ 2017/08/16から Raspbian OSは Raspbian Jessieから Raspbian Stretchに変わりました。
 ※ 2019/06/20から Raspbian OSは Raspbian Stretchから Raspbian Busterに変わりました。

Download Raspbian for Raspberry Pi

ちなみに、歴代のバージョンと名称は
Debianコードネーム年月備考(参考)Ubuntuでの該当名称
Debian 10Buster2019/06/20~2019/06からラズパイ4対応Bionic 18.04 LTS
Debian 9Stretch2017/08/16~2018/03からラズパイ3B+対応Xenial 16.04 LTS
Debian 8Jessie2015~2016/02からラズパイ3対応Trusty 14.04 LTS
Debian 7Wheezy2013~2016
Debian 6.0Squeeze2011~2014
Debian GNU/Linux 5.0Lenny2009~2012


● Tesseractのインストール方法

GitHub - tesseract-ocr/tesseract
 Tesseract Open Source OCR Engine (main repository)

sudo apt-get update
sudo apt-get -y install tesseract
 これでインストールできます。

$ tesseract -v
tesseract 3.03
 leptonica-1.71
  libgif 4.1.6(?) : libjpeg 6b : libpng 1.2.50 : libtiff 4.0.3 : zlib 1.2.8 : libwebp 0.4.1 : libopenjp2 2.1.0

$ tesseract
Usage:
  tesseract imagename|stdin outputbase|stdout [options...] [configfile...]

OCR options:
  --tessdata-dir /path  specify location of tessdata path
  -l lang[+lang]        specify language(s) used for OCR
  -c configvar=value    set value for control parameter.
                        Multiple -c arguments are allowed.
  -psm pagesegmode      specify page segmentation mode.
These options must occur before any configfile.

pagesegmode values are:
  0 = Orientation and script detection (OSD) only.
  1 = Automatic page segmentation with OSD.
  2 = Automatic page segmentation, but no OSD, or OCR
  3 = Fully automatic page segmentation, but no OSD. (Default)
  4 = Assume a single column of text of variable sizes.
  5 = Assume a single uniform block of vertically aligned text.
  6 = Assume a single uniform block of text.
  7 = Treat the image as a single text line.
  8 = Treat the image as a single word.
  9 = Treat the image as a single word in a circle.
  10 = Treat the image as a single character.

Single options:
  -v --version: version info
  --list-langs: list available languages for tesseract engine. Can be used with --tessdata-dir.
  --print-parameters: print tesseract parameters to the stdout.


● Tesseractのインストール方法
 2019/03/08 追記
 最近は下記の様に tesseract-ocrを指定します。
sudo apt-get -y install tesseract
E: Unable to locate package tesseract

sudo apt-get update
sudo apt-get -y install tesseract-ocr

pi@raspberrypi:~ $ tesseract -v
tesseract 3.04.01
 leptonica-1.74.1
  libgif 5.1.4 : libjpeg 6b (libjpeg-turbo 1.5.1) : libpng 1.6.28 : libtiff 4.0.8 : zlib 1.2.8 : libwebp 0.5.2 : libopenjp2 2.1.2

● tesseract ocr 各種言語認識データ
https://sourceforge.net/projects/tesseract-ocr-alt/files/

 日本語
tesseract-ocr-3.02.jpn.tar.gz
https://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.jpn.tar.gz

 中国語、簡体字(中国本土)
tesseract-ocr-3.02.chi_sim.tar.gz
http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.chi_sim.tar.gz

 中国語、繁体字(台湾とか)
tesseract-ocr-3.02.chi_tra.tar.gz
http://tenet.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.chi_tra.tar.gz

● tesseract ocr 各種言語の認識データを配置する
# === 日本語
cd
wget https://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.jpn.tar.gz
tar xvfz tesseract-ocr-3.02.jpn.tar.gz

cd tesseract-ocr/tessdata/
sudo cp jpn.traineddata /usr/share/tesseract-ocr/tessdata/

# === 中国語、簡体字(中国本土)
cd
wget http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.chi_sim.tar.gz
tar xvfz tesseract-ocr-3.02.chi_sim.tar.gz

cd tesseract-ocr/tessdata/
sudo cp chi_sim.traineddata /usr/share/tesseract-ocr/tessdata/

# === 中国語、繁体字(台湾とか)
cd
wget http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-3.02.chi_tra.tar.gz
tar xvfz tesseract-ocr-3.02.chi_tra.tar.gz

cd tesseract-ocr/tessdata/
sudo cp chi_tra.traineddata /usr/share/tesseract-ocr/tessdata/

● tesseract ocr 各種言語の画像データを OCRで認識する
tesseract test_jpn.jpg stdout -l jpn
tesseract test_chs.jpg stdout -l chi_sim
tesseract test_chs.jpg stdout -l chi_tra


● tesseract ocr 中国語 簡体字の画像データを OCRで認識する

2018/05/10
Visual Studio 2013の C# .NETで 日本語対応の OCR文字認識アプリを自作する方法
Visual Studio 2013の C# .NETで 日本語対応の OCR文字認識アプリを自作する方法

  オフライン環境で動作可能な 世界各国語対応の OCR文字認識アプリを C# .NETで作成、MS製 OCRライブラリを使用
tesseract simplified_chinese_ocr_sample_org.jpg stdout -l chi_sim

Detected 122 diacritics
需厅\霓(,言,

美重卜伪麻片说明书郦 甲类

请仔细阅 读说明书并按说明使用或在药师指导下购买和使用o

英文名称: COmpOund DeX甘OmethO「phan HVd「Ob「Omlde 丁abletS

汉语拼音 Meiqueima Pian

【成份】 本品为复方制剂 每片含主要成份对乙酰氨墓酚5皿亳克 氢溴酸右
美沙芬伍亳克 盐酸伪麻黄碱30亳克和马来酸氢苯那敏2亳克o 辅料为 胶

化淀粉 聚Z烯毗略烷酮 蓝色T# 微晶纤维素 羧甲基淀粉钠\ 硬脂酸、
蓝色干啧料 巴西棕榈蜡o

【性状】 本品为蓝色椭圆形蒲膜衣片, 除去包衣旨显蓝色o

【作用类别】 本品为感冒用药类非处方药药品o

【遭应症】 用于普通感冒或流行性感冒引起的发热 头痛` 四肢酸痛为 打喷嚏、
流鼻涕、 鼻塞 咳嗽 咽痛等症状o

_ 一 【矗赡】 每片含对乙酰氨基酚5oO亳克, 氢溴酸右美沙芬T5亳克, 盐酸伪麻黄
鬣、鲫毫克和马来酸氯苯那敏2亳克o

ˉ ′ I'l′口服_ 12岩以 卜J丨麒蚩7;爹衢〒鑫膏人一 一沛T怯 伍R…盼胞们加 n血山蚪



Tags: [Raspberry Pi], [電子工作]

●関連するコンテンツ(この記事を読んだ人は、次の記事も読んでいます)

Raspberry Pi 3に日本語 OCR NHocrをビルドして OCR文字認識をする方法
Raspberry Pi 3に日本語 OCR NHocrをビルドして OCR文字認識をする方法

  ラズパイ3で オープンソースの OCRエンジン NHocrをコンパイルして使用する方法まとめ

Raspberry Pi 3で日本語音声を合成して喋らせる方法(AquesTalk編)
Raspberry Pi 3で日本語音声を合成して喋らせる方法(AquesTalk編)

  ラズパイ3で 音声合成アプリ AquesTalk Piを使用してお手軽に日本語文章を喋らせる方法

Raspberry Pi 3で日本語音声を合成して喋らせる方法(OpenJTalk編)
Raspberry Pi 3で日本語音声を合成して喋らせる方法(OpenJTalk編)

  ラズパイ3で 音声合成システム Open JTalkをコンパイルして、お手軽に日本語の文章を喋らせる方法

Raspberry Pi 3で音声合成して喋らせる方法(英語、中国語編)
Raspberry Pi 3で音声合成して喋らせる方法(英語、中国語編)

  ラズパイ3で 音声合成アプリを使用してお手軽に英語と中国語の文章を喋らせる方法

Raspberry Pi 3に形態素解析エンジン MeCabをインストールして形態素解析をする方法
Raspberry Pi 3に形態素解析エンジン MeCabをインストールして形態素解析をする方法

  ラズパイ3で オープンソースの形態素解析エンジン MeCabをコンパイルして使用する方法まとめ

Raspberry Pi 3に USB Micを接続して日本語の音声認識をする方法(Julius編)
Raspberry Pi 3に USB Micを接続して日本語の音声認識をする方法(Julius編)

  ラズパイ3で汎用大語彙連続音声認識エンジン Juliusをコンパイルして使用する方法

Raspberry Pi 3に PyAudioを入れて USBマイクを接続して音声入力を行なう方法
Raspberry Pi 3に PyAudioを入れて USBマイクを接続して音声入力を行なう方法

  ラズパイに USB Micを接続して音声入力をする方法(PyAudio編)

Raspberry Pi 3に PortAudioを入れて USBマイクを接続して音声入力を行なう方法
Raspberry Pi 3に PortAudioを入れて USBマイクを接続して音声入力を行なう方法

  ラズパイに USB Micを接続して音声入力をする方法(PortAudio編)

Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法
Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法

  ラズパイに Google Cloud Speech APIを設定する方法(Python言語編)

Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法
Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法

  ラズパイに Google Cloud Speech APIを設定する方法(Java言語編)

Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法
Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法

  ラズパイに Google Cloud Speech APIを設定する方法(Node.js言語編)

Raspberry Pi 3に AVSを入れて Amazon Echoを作る方法(Alexa Voice Service)
Raspberry Pi 3に AVSを入れて Amazon Echoを作る方法(Alexa Voice Service)

  ラズパイを Amazon Echoにする方法、Alexa Voice Service AVSをインストール

Raspberry Piで docomo Developer APIに挑戦 雑談対話 API編
Raspberry Piで docomo Developer APIに挑戦 雑談対話 API編

  ラズパイ + Javaでドコモの docomo Developer supportの雑談対話 APIを動かす

Raspberry Piで docomo Developer APIに挑戦 音声合成 API編
Raspberry Piで docomo Developer APIに挑戦 音声合成 API編

  ラズパイ + Javaでドコモの docomo Developer supportの音声合成 APIを動かす

Visual Studio 2013の C# .NETで 日本語対応の OCR文字認識アプリを自作する方法
Visual Studio 2013の C# .NETで 日本語対応の OCR文字認識アプリを自作する方法

  オフライン環境で動作可能な 世界各国語対応の OCR文字認識アプリを C# .NETで作成、MS製 OCRライブラリを使用

Visual Studio 2013の C#で日本語対応の手書き文字認識アプリを自作する方法
Visual Studio 2013の C#で日本語対応の手書き文字認識アプリを自作する方法

  オフライン環境で動作する世界各国語対応の手書き文字認識アプリを作成、MS製 手書き認識ライブラリを使用

Windows 10の音声合成エンジンを使用して入力した文字列を喋る & Waveファイル書き出し
Windows 10の音声合成エンジンを使用して入力した文字列を喋る & Waveファイル書き出し

  SpeechApp Windows 10用 Speech 音声合成 Text-to-Speech TTSのアプリ

Windows 10対応 Microsoft Speech使用の音声認識アプリ
Windows 10対応 Microsoft Speech使用の音声認識アプリ

  SpeechRecognizeApp 音声認識エンジンを使用してマイク入力の音声を認識します

Windows 10対応の日本語対応の音声合成エンジン TTSアプリを C# .NETで自作する
Windows 10対応の日本語対応の音声合成エンジン TTSアプリを C# .NETで自作する

  Visual Studio 2013の C# .NETで入力した文字列を喋る音声合成 TTSアプリを作成する 世界各国語に対応



[HOME] | [BACK]
リンクフリー(連絡不要、ただしトップページ以外は Web構成の変更で移動する場合があります)
Copyright (c) 2016 FREE WING,Y.Sakamoto
Powered by 猫屋敷工房 & HTML Generator

http://www.neko.ne.jp/~freewing/raspberry_pi/raspberry_pi_3_ocr_tesseract/