Raspberry Piで docomo Developer APIに挑戦音声合成 API編 (ラズパイ + Javaでドコモの docomo Developer supportの音声合成 APIを動かす)

■ HOME

■ Security

■ Software

■ Hardware

■ FPGA

■ CPU

■ Android

■ Raspberry Pi

■ nLite

■ Xcode

■ etc.

■ ALL

■ LINK

■ BACK

・2017/09/10

Raspberry Piで docomo Developer APIに挑戦音声合成 API編

(ラズパイ + Javaでドコモの docomo Developer supportの音声合成 APIを動かす)

Tags: [Raspberry Pi], [電子工作]

● Raspberry Pi 3 Model Bを遂に購入

　Raspberry Pi3 Model B RPI2 RPI3

　大人気の CPUボードの Raspberry Piに WiFiと Bluetoothが搭載されたモデルが新発売となりました。
　以前から Raspberry Pi 2を買おうかどうか迷っていましたが、Raspberry Pi 3 Model Bの発売を機に購入を決意してラズベリアンになる事にしました。

　※ ラズパイの OS Raspbianはバージョンが上がる毎に過去の版と OSの内部の作りが変わり、過去に書かれた製作記事（例えば Raspbian Wheezyの時代の記事）がそのままではエラーが出たりして動かない事が有ります。
　※ 当方のホームページのラズパイ記事は全て Raspberry Pi 3 Model Bと Raspbian Jessieの組み合わせで動作確認をしております。
（ただし、将来的に新しい Raspbian OSが出た場合に、当方の Raspbian Jessieを基にした内容がそのままでは動かない可能性が有ります。）
　※ 2017/08/16から Raspbian OSは Raspbian Jessieから Raspbian Stretchに変わりました。
　※ 2019/06/20から Raspbian OSは Raspbian Stretchから Raspbian Busterに変わりました。

Download Raspbian for Raspberry Pi

ちなみに、歴代のバージョンと名称は

Debian	コードネーム	年月	備考	（参考）Ubuntuでの該当名称
Debian 11	Bullseye	2021/08/14～	2021/11からラズパイにリリース	Focal Fossa 20.04 LTS ？
Debian 10	Buster	2019/06/20～	2019/06からラズパイ４対応	Bionic 18.04 LTS
Debian 9	Stretch	2017/08/16～	2018/03からラズパイ３Ｂ＋対応	Xenial 16.04 LTS
Debian 8	Jessie	2015～	2016/02からラズパイ３対応	Trusty 14.04 LTS
Debian 7	Wheezy	2013～2016
Debian 6.0	Squeeze	2011～2014
Debian GNU/Linux 5.0	Lenny	2009～2012

●ラズパイ３ + Javaでドコモの docomo Developer supportの音声合成 APIを動かす

　docomo Developer supportで提供されている各種 APIのうち、面白そうで簡単に動かせそうな APIを動かして遊びます。

docomo Developer support

音声合成API
　漢字混じりでも音声合成します。

　商用利用する時の注意はこちら。
APIの商用利用時の諸注意

●ラズパイ３で音声合成API 準備編

　今回は「音声合成API」をラズパイで動かします。
　SDKが Javaで提供されており、ラズパイにも Java 1.8が標準で有るので簡単に開発ができます。
　なお、準備としては
　・docomo Developer supportへの開発者登録
　・APIキーの利用申請
　が必要です。

　音声合成API SDKは下記を使用しました。
　【Powerd by エーアイ】音声合成 SDK for Java v1.0.2.1 (公開日 : 2017/6/21)
　※ SDKのダウンロードは開発者登録をしていなくても可能です。
　※ SDKは Java SE 1.7以降で使用可能。

●ラズパイの Javaのバージョン

pi@raspberrypi:~/sample $ java -version
java version "1.8.0_65"
Java(TM) SE Runtime Environment (build 1.8.0_65-b17)
Java HotSpot(TM) Client VM (build 25.65-b01, mixed mode)

pi@raspberrypi:~/sample $ javac -version
javac 1.8.0_65

●ラズパイ３で音声合成 API 開発編

　SDKのダウンロードはそのままでできるので、ラズパイのコマンドラインで wgetでダウンロードが可能ですが、日本語ファイル名が文字化けします。

wget https://devsite-pro.s3.amazonaws.com/contents_file/Text_to_Speech_API_Java_AI_SDK_v1.0.2.1.zip
Text_to_Speech_API_Java_AI_SDK_v1.0.2.1.zip
# 日本語ファイル名が文字化け

　Windowsでダウンロードして解凍、必要なファイルだけをラズパイにファイル転送をしました。
　ラズパイへのファイル転送の方法は WinSCPを使用しました。WinSCPはマウス操作で簡単にファイルをやり取りできます。
WinSCP - Free FTP and SFTP client for Windows

　音声合成 APIを動かすのに必要なファイル

/libs
commons-codec-1.9.jar
commons-logging-1.2.jar
docomo-aitalk-java-sdk-1.0.2.jar
docomo-common-java-sdk-1.0.6.jar
httpclient-4.5.3.jar
httpcore-4.4.6.jar
httpmime-4.5.3.jar
jackson-annotations-2.7.0.jar
jackson-core-2.7.0.jar
jackson-databind-2.7.0.jar

/sample
SampleAitalk.java

　ラズパイに sampleと言うディレクトリを作成し、上記のファイル一式をコピーしますが、ファイルの配置を下記の様にしています。

~/sample/libs ここに jarファイルを全部
~/sample/ ここに javaのソースファイルを全部

　コンパイル方法
　必要とする jarファイルが多いのでコマンドラインで真面目にコンパイルするのは面倒くさいです。（bashスクリプトでバッチファイルを作れば済みますが。）

　と言う訳で折角なので antを使ってコンパイルします。
sudo apt-get -y install ant

　antをインストールしたら antでのコンパイルに必要な build.xmlファイルを作成します。
build.xml

<project default="exec">
    <target name="init">
        <jar destfile="./merged.jar">
            <zipgroupfileset dir="./libs" includes="*.jar">
            </zipgroupfileset>
        </jar>
    </target>

    <target name="compile" depends="init">
        <javac srcdir="./" destdir="./class" classpath="./merged.jar" includeantruntime="false">
        </javac>
    </target>

    <target name="exec" depends="compile">
        <java classname="SampleAitalk" classpath="./class:./merged.jar">
        </java>
    </target>
</project>

　ちなみに、classファイルを ./classディレクトリに作成するので事前に ./classディレクトリを作成しておく必要が有ります。

mkdir ./class

　また、ドコモ API用に API keyを Javaのソースコード内に設定します。
　API keyは API利用申請・管理ページで確認できます。

    // APIKEY の設定
    AuthApiKey.initializeAuth("ここに APIキーを記載します");

　一通りの準備が完了したら、コマンドラインで antを実行します。
　1) jarファイル郡を 1つの jarファイルにマージする。（コマンドライン等での実行時に沢山の jarファイルを指定するのが面倒なので）
　2) javaファイルをコンパイルして classファイルを作成する。
　3) SampleAitalk.classを実行する。

　コンパイルから実行まで自動で行ないます。

　ラズパイの音声出力から、現在の日時を喋れば動作確認完了です。

　また、下記 FileOutputStream部分を追加すると PCMファイルとして音声データをファイル名 pcm_data.binで出力します。

import java.io.FileOutputStream;

　～～～　略　～～～
　～～～　略　～～～

    // 要求処理クラスにリクエストデータを渡し、レスポンスデータを取得する
    resultData = search.requestAiTalkSsmlToSound(ssml.makeSsml());

    // PCM 16bit 16000Hz Mono保存
    FileOutputStream fos = new FileOutputStream("pcm_data.bin");
    fos.write(resultData, 0, resultData.length);
    fos.flush();
    fos.close();

    // 音声出力
    AudioFormat af = new AudioFormat(16000f,16,1,true,true);
    DataLine.Info info = new DataLine.Info (Clip.class, af);
    Clip clip = (Clip)AudioSystem.getLine(info);
    clip.open(af, resultData, 0, resultData.length);
    clip.start();
    Thread.sleep(resultData.length/32);
    clip.close();

　～～～　略　～～～
　～～～　略　～～～

　音声データのフォーマット。
【符号化方式】リニアPCM
【チャネル数】1(モノラル)
【サンプル周波数】16000
【ビット深度】16bit(ビッグエンディアン)

●コマンドラインで手作業でコンパイルする方法

　jarファイル郡と javaソースファイルを全部同じディレクトリにコピーします。
　（ディレクトリを分けて別々に管理するのが本来の開発スタイルだが、コマンドラインでのパスの指定が面倒なので全部同じディレクトリにコピーします。）

　コマンドラインで、下記の様にコンパイルします。

javac -classpath docomo-aitalk-java-sdk-1.0.2.jar:docomo-common-java-sdk-1.0.6.jar SampleAitalk.java

　コンパイル時はドコモの jarライブラリだけを指定すれば大丈夫でした。

　コマンドラインで、下記の様に音声合成 APIのサンプルアプリを実行します。

java -classpath .:jackson-databind-2.7.0.jar:commons-codec-1.9.jar:commons-logging-1.2.jar:docomo-aitalk-java-sdk-1.0.2.jar:docomo-common-java-sdk-1.0.6.jar:httpclient-4.5.3.jar:httpcore-4.4.6.jar:httpmime-4.5.3.jar:jackson-annotations-2.7.0.jar:jackson-core-2.7.0.jar SampleAitalk

　実行時は全ての jarライブラリを参照する必要が有ります。

　コマンドラインでの -classpathの指定にワイルドカードは使えないのかな？

　なお、Windowsの場合は下記の様にします。
　-classpath の区切り文字は；セミコロン
　javacの引数に -encoding UTF-8
　javaの引数に -Dfile.encoding=UTF-8
　を指定して、デフォルトエンコーディングを UTF-8に変更しています。
　（これをしないと、コンパイル時に起こられたり、実行時の結果が変になる。理由は文字コードが S-JISなので文字化けして処理されるから。正確には S-JISではなく S-JISを Microsoftが独自に拡張した Microsoftコードページ932で通称 MS932。）

javac -encoding UTF-8 -classpath docomo-aitalk-java-sdk-1.0.2.jar;docomo-common-java-sdk-1.0.6.jar SampleAitalk.java

java -Dfile.encoding=UTF-8 -classpath .;jackson-databind-2.7.0.jar;commons-codec-1.9.jar;commons-logging-1.2.jar;docomo-aitalk-java-sdk-1.0.2.jar;docomo-common-java-sdk-1.0.6.jar;httpclient-4.5.3.jar;httpcore-4.4.6.jar;httpmime-4.5.3.jar;jackson-annotations-2.7.0.jar;jackson-core-2.7.0.jar SampleAitalk

rem 実行時の java -Dfile.encoding=UTF-8は無くても動いたけど指定した方が安全

●ラズパイで bashシェルスクリプトで実行する場合

hoge.sh
chmod +x hoge.sh

#!/bin/bash

cd ./sample_v
java -cp ./class:./merged.jar SampleAitalk

●任意の文字列を音声合成する場合（エラーチェック無し）

　メッセージに空白が有る場合は分割されない様に ”ダブルコーテーションで囲みます。

java -cp ./class:./merged.jar SampleAitalk "ほげほげこんにちは今日は天気が良いです。"

　～～～　略　～～～
　～～～　略　～～～

    // のぞみさんの音声で、文字列を、ＳＳＭＬクラスに登録する
    AiTalkTextToSpeech search = new AiTalkTextToSpeech();
    ssml = new AiTalkSsml();
    ssml.startVoice("nozomi");
    ssml.startProsody(0.8f, 1.2f, 1.2f, 1.0f);
    ssml.addText(args[0]);
    ssml.endProsody();
    ssml.endVoice();

    // 要求処理クラスにリクエストデータを渡し、レスポンスデータを取得する
    resultData = search.requestAiTalkSsmlToSound(ssml.makeSsml());

　～～～　略　～～～
　～～～　略　～～～

　bashシェルスクリプトで実行する場合

#!/bin/bash

cd ./sample_v
java -cp ./class:./merged.jar SampleAitalk "$1"
# java -cp ./class:./merged.jar SampleAitalk "$@"
# java -cp ./class:./merged.jar SampleAitalk "$*"

●ラズパイで音が出ない場合の確認方法

　音声出力の音量の設定
$ alsamixer

　音声出力 自動で出力先を設定する
$ amixer cset numid=3 0

　音声出力 ヘッドホンジャック
$ amixer cset numid=3 1

　音声出力 HDMI
$ amixer cset numid=3 2
　※ HDMIから音声が出ない場合は config.txtの # hdmi_driver=2の行の #を取る。
　※行の先頭の #を取る。
# hdmi_driver=2
　を
hdmi_driver=2
　にする。

　スピーカーのテスト
$ speaker-test -t sine -f 800

　サウンドの再生確認
$ aplay /usr/share/sounds/alsa/Front_Center.wav
$ aplay /usr/share/sounds/alsa/Noise.wav

● Windwos Java SEコンパイラ

Java SE Development Kit 8 Downloads
　Java SE Development Kit 8u144
　Windows x86 190.94 MB jdk-8u144-windows-i586.exe
　Windows x64 197.78 MB jdk-8u144-windows-x64.exe

Java SE Development Kit 7 Downloads
　Java SE Development Kit 7u80
　Windows x86 138.35 MB jdk-7u80-windows-i586.exe
　Windows x64 140.09 MB jdk-7u80-windows-x64.exe

Tags: [Raspberry Pi], [電子工作]

●関連するコンテンツ(この記事を読んだ人は、次の記事も読んでいます)

Raspberry Pi 3に USB Micを接続して日本語の音声認識をする方法（Julius編）
ラズパイ３で汎用大語彙連続音声認識エンジン Juliusをコンパイルして使用する方法

Raspberry Pi 3に PyAudioを入れて USBマイクを接続して音声入力を行なう方法
ラズパイに USB Micを接続して音声入力をする方法（PyAudio編）

Raspberry Pi 3に PortAudioを入れて USBマイクを接続して音声入力を行なう方法
ラズパイに USB Micを接続して音声入力をする方法（PortAudio編）

Raspberry Pi 3に日本語 OCR Tesseractをインストールして OCR文字認識をする方法
ラズパイ３でオープンソースの OCRエンジン Tesseractをインストールして使用する方法まとめ

Raspberry Pi 3に日本語 OCR NHocrをビルドして OCR文字認識をする方法
ラズパイ３でオープンソースの OCRエンジン NHocrをコンパイルして使用する方法まとめ

Raspberry Pi 3で日本語音声を合成して喋らせる方法（AquesTalk編）
ラズパイ３で音声合成アプリ AquesTalk Piを使用してお手軽に日本語文章を喋らせる方法

Raspberry Pi 3で日本語音声を合成して喋らせる方法（OpenJTalk編）
ラズパイ３で音声合成システム Open JTalkをコンパイルして、お手軽に日本語の文章を喋らせる方法

Raspberry Pi 3で音声合成して喋らせる方法（英語、中国語編）
ラズパイ３で音声合成アプリを使用してお手軽に英語と中国語の文章を喋らせる方法

Raspberry Pi 3に形態素解析エンジン MeCabをインストールして形態素解析をする方法
ラズパイ３でオープンソースの形態素解析エンジン MeCabをコンパイルして使用する方法まとめ

Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法
ラズパイに Google Cloud Speech APIを設定する方法（Python言語編）

Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法
ラズパイに Google Cloud Speech APIを設定する方法（Java言語編）

Raspberry Pi 3に Google Cloud Speech APIを入れて各国の言語で音声認識をする方法
ラズパイに Google Cloud Speech APIを設定する方法（Node.js言語編）

Raspberry Pi 3に AVSを入れて Amazon Echoを作る方法（Alexa Voice Service）
ラズパイを Amazon Echoにする方法、Alexa Voice Service AVSをインストール

Raspberry Piで docomo Developer APIに挑戦雑談対話 API編
ラズパイ + Javaでドコモの docomo Developer supportの雑談対話 APIを動かす

Visual Studio 2013の C# .NETで日本語対応の OCR文字認識アプリを自作する方法
オフライン環境で動作可能な世界各国語対応の OCR文字認識アプリを C# .NETで作成、MS製 OCRライブラリを使用

Visual Studio 2013の C#で日本語対応の手書き文字認識アプリを自作する方法
オフライン環境で動作する世界各国語対応の手書き文字認識アプリを作成、MS製手書き認識ライブラリを使用

Windows 10の音声合成エンジンを使用して入力した文字列を喋る＆ Waveファイル書き出し
SpeechApp Windows 10用 Speech 音声合成 Text-to-Speech TTSのアプリ

Windows 10対応 Microsoft Speech使用の音声認識アプリ
SpeechRecognizeApp 音声認識エンジンを使用してマイク入力の音声を認識します

Windows 10対応の日本語対応の音声合成エンジン TTSアプリを C# .NETで自作する
Visual Studio 2013の C# .NETで入力した文字列を喋る音声合成 TTSアプリを作成する世界各国語に対応

[HOME] | [BACK]

リンクフリー(連絡不要、ただしトップページ以外は Web構成の変更で移動する場合があります)
Copyright (c) 2017 FREE WING,Y.Sakamoto
Powered by 猫屋敷工房 & HTML Generator

http://www.neko.ne.jp/~freewing/raspberry_pi/raspberry_pi_docomo_developper_api_text_to_speech_sdk/

Raspberry Piで docomo Developer APIに挑戦 音声合成 API編

Raspberry Piで docomo Developer APIに挑戦音声合成 API編