(ラズパイに Google Cloud Speech APIを設定する方法(Node.js言語編))

Tags: [Raspberry Pi], [電子工作]

● Raspberry Pi 3 Model Bを遂に購入

 Raspberry Pi3 Model B RPI2 RPI3

 大人気の CPUボードの Raspberry Piに WiFiと Bluetoothが搭載されたモデルが新発売となりました。
 以前から Raspberry Pi 2を買おうかどうか迷っていましたが、Raspberry Pi 3 Model Bの発売を機に購入を決意してラズベリアンになる事にしました。

 ※ ラズパイの OS Raspbianはバージョンが上がる毎に過去の版と OSの内部の作りが変わり、過去に書かれた製作記事(例えば Raspbian Wheezyの時代の記事)がそのままではエラーが出たりして動かない事が有ります。
 ※ 当方のホームページのラズパイ記事は全て Raspberry Pi 3 Model Bと Raspbian Jessieの組み合わせで動作確認をしております。
(ただし、将来的に新しい Raspbian OSが出た場合に、当方の Raspbian Jessieを基にした内容がそのままでは動かない可能性が有ります。)
 ※ 2017/08/16から Raspbian OSは Raspbian Jessieから Raspbian Stretchに変わりました。
 ※ 2019/06/20から Raspbian OSは Raspbian Stretchから Raspbian Busterに変わりました。

Download Raspbian for Raspberry Pi

Debian 11Bullseye2021/08/14~2021/11からラズパイにリリースFocal Fossa 20.04 LTS ?
Debian 10Buster2019/06/20~2019/06からラズパイ4対応Bionic 18.04 LTS
Debian 9Stretch2017/08/16~2018/03からラズパイ3B+対応Xenial 16.04 LTS
Debian 8Jessie2015~2016/02からラズパイ3対応Trusty 14.04 LTS
Debian 7Wheezy2013~2016
Debian 6.0Squeeze2011~2014
Debian GNU/Linux 5.0Lenny2009~2012

● Raspberry Pi 3で Cloud Speech API クライアント ライブラリで音声認識

Cloud Speech API クライアント ライブラリ
Google Cloud Speech API Node.js Client

 下記は Node.jsクライアントの古い場所(もう無い)
Samples for the Google Cloud Speech API Node.js Client have moved to github.com/googleapis/nodejs-speech/tree/master/samples/.

$ nodejs -v

Node.js v8.x

# Node.js v8.x
curl -sL https://deb.nodesource.com/setup_8.x | sudo -E bash -

sudo apt-get -y install nodejs

pi@raspberrypi:~/java-docs-samples/speech/cloud-client $ node -v
pi@raspberrypi:~/java-docs-samples/speech/cloud-client $ nodejs -v
pi@raspberrypi:~/java-docs-samples/speech/cloud-client $ npm -v

mkdir node
cd node/

npm install --save @google-cloud/speech

サービス アカウント キーの作成
App Engine

export GOOGLE_APPLICATION_CREDENTIALS='/home/pi/hogehoge-xxxxxxxxxxxx.json'

# Google Cloud Speech API: Node.js Client

Node.js client for Google Cloud Speech: Speech to text conversion powered by machine learning. https://cloud.google.com/speech/


git clone https://github.com/googleapis/nodejs-speech.git

cd nodejs-speech

# Google Cloud Speech API: Node.js Samples
cd samples
ls -l

pi@raspberrypi:~/node/nodejs-speech/samples $ ls -l
-rw-r--r-- 1 pi pi   654 Dec  3 06:39 package.json
-rw-r--r-- 1 pi pi  1795 Dec  3 06:39 quickstart.js
-rw-r--r-- 1 pi pi  3755 Dec  3 06:39 README.md
-rw-r--r-- 1 pi pi 16780 Dec  3 06:39 recognize.js
drwxr-xr-x 2 pi pi  4096 Dec  3 06:39 resources
drwxr-xr-x 2 pi pi  4096 Dec  3 06:39 system-test

npm install

pi@raspberrypi:~/node/nodejs-speech/samples $ node recognize.js --help
recognize.js <command>

  recognize.js sync <filename>           Detects speech in a local audio file.
  recognize.js sync-gcs <gcsUri>         Detects speech in an audio file located in a Google Cloud Storage bucket.
  recognize.js sync-words <filename>     Detects speech in a local audio file with word time offset.
  recognize.js async <filename>          Creates a job to detect speech in a local audio file, and waits for the job to
  recognize.js async-gcs <gcsUri>        Creates a job to detect speech in an audio file located in a Google Cloud
                                         Storage bucket, and waits for the job to complete.
  recognize.js async-gcs-words <gcsUri>  Creates a job to detect speech  with word time offset in an audio file located
                                         in a Google Cloud Storage bucket, and waits for the job to complete.
  recognize.js stream <filename>         Detects speech in a local audio file by streaming it to the Speech API.
  recognize.js listen                    Detects speech in a microphone input stream. This command requires that you
                                         have SoX installed and available in your $PATH. See

  --version              Show version number                                                                   [boolean]
  --encoding, -e                                                                          [string] [default: "LINEAR16"]
  --sampleRateHertz, -r                                                                        [number] [default: 16000]
  --languageCode, -l                                                                         [string] [default: "en-US"]
  --help                 Show help                                                                             [boolean]

  node recognize.js sync ./resources/audio.raw -e LINEAR16 -r 16000
  node recognize.js async-gcs gs://gcs-test-data/vr.flac -e FLAC -r 16000
  node recognize.js stream ./resources/audio.raw  -e LINEAR16 -r 16000
  node recognize.js listen

For more information, see https://cloud.google.com/speech/docs

● Gitのサンプル音声の音声認識

pi@raspberrypi:~/node/nodejs-speech/samples $ node recognize.js sync ./resources/audio.raw
Transcription:  how old is the Brooklyn Bridge

pi@raspberrypi:~/node/nodejs-speech/samples $ node recognize.js sync ./resources/audio2.raw
Transcription:  the rain in Spain stays mainly on the plain

pi@raspberrypi:~/node/nodejs-speech/samples $ node recognize.js sync ./resources/quit.raw
Transcription:  quit

$ node recognize.js --version

● FLAC形式の音声を認識

node recognize.js sync ~/recorded.flac -e FLAC -l ja-JP

pi@raspberrypi:~/node/nodejs-speech/samples $ node recognize.js sync ~/recorded.flac -e FLAC -l ja-JP
Transcription:  こんにちは音声認識

● listenは動かず

node recognize.js listen -l ja-JP

pi@raspberrypi:~/node/nodejs-speech/samples $ node recognize.js listen -l ja-JP
Listening, press Ctrl+C to stop.
      throw er; // Unhandled 'error' event

Error: spawn rec ENOENT
    at _errnoException (util.js:1024:11)
    at Process.ChildProcess._handle.onexit (internal/child_process.js:190:19)
    at onErrorNT (internal/child_process.js:372:16)
    at _combinedTickCallback (internal/process/next_tick.js:138:11)
    at process._tickCallback (internal/process/next_tick.js:180:9)
    at Function.Module.runMain (module.js:678:11)
    at startup (bootstrap_node.js:187:16)
    at bootstrap_node.js:608:3


女性声優・雛乃木まや公式サイト 〜ナレーションやキャラボイスを依頼できます〜

 2016.10.05 クレジットフリー・無料音声のダウンロード

wget http://hinanogimaya.com/wp-content/uploads/2016/10/voice-odenwa-arigatougozaimasu-taihenmoushiwake.wav

pi@raspberrypi:~/node/nodejs-speech/samples $ node recognize.js sync ./voice-odenwa-arigatougozaimasu-taihenmoushiwake.wav -l ja-JP
ERROR: { Error: sample_rate_hertz (16000) in RecognitionConfig must either be omitted or match the value in the WAV header ( 44100).
    at /home/pi/node/nodejs-speech/samples/node_modules/grpc/src/client.js:554:15
  code: 3,
  metadata: Metadata { _internal_repr: {} },
  note: 'Exception occurred in retry method that was not classified as transient' }

pi@raspberrypi:~/node/nodejs-speech/samples $ node recognize.js sync ./voice-odenwa-arigatougozaimasu-taihenmoushiwake.wav -l ja-JP -r 44100
Transcription:  お電話ありがとうございます大変申し訳ありませんが本日の営業は終了させていただきましたまたおかけ直しいただきますようお願い申し上げます


総務省|平成27年版 情報通信白書|PDF版

平成27年版情報通信白書 特集テーマ 「ICTの過去・現在・未来」PDF(481KB)



Sound of Text
voice1.mp3 (24kHz)
 を 16kHzの WAV形式に変換

Sound of Text
pi@raspberrypi:~/node/nodejs-speech/samples $ node recognize.js sync ./voice1.wav -l ja-JP
Transcription:  本年2015年は1985年の通信自由化から30周年の節目の年であり ict 産業の発展経緯や産業構造の変遷これまでの通信政策とその効果など ict の過去への関心が高まっている

Windows SpeechApp11 Microsoft Speech Platform 11用の Text-to-Speech


  Microsoft Speech Platform 11 Server Runtimeのインストール方法 多言語対応の Text to Speech

ja-JP Haruka

ja-JP Haruka
pi@raspberrypi:~/node/nodejs-speech/samples $ node recognize.js sync ./haruka.wav -l ja-JP
Transcription:  本年2015年は1985年の通信自由化から30周年の節目の年であり ict 産業の発展経緯や産業構造の変遷これまでの通信政策とその効果など ict の過去への関心が高まっている

