Julius を使った音声認識

2009年10月7日 (水) 15:34時点におけるKonishi (トーク | 投稿記録)による版 (新しいページ: '== Asterisk で音声認識 == Asterisk と Julius を連携させて、音声認識を実現する。 <br/>なお、以下の番号で山手線の駅名を認識するデモ...')
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)

目次

Asterisk で音声認識

Asterisk と Julius を連携させて、音声認識を実現する。
なお、以下の番号で山手線の駅名を認識するデモを用意してあります。

055-287-7709

材料

  • 必ず必要なもの
  • デモ環境
    このデモでは、音声合成に galatea talk + unidic を利用しています。

環境の構築

  • 期待するディレクトリ構成
/root
|-- work
|   |-- dictation-kit-v3.2
|   |   `-- model
|   |       `-- phone_m
|   `-- julius-4.1.2
|       `-- plugin
|-- jr
`-- yui
  • 事前準備
    • /root/work ディレクトリの準備
    # mkdir /root/work
    
    • ソースの取得
    # cd /root/work
    # wget http://downloads.asterisk.org/pub/telephony/asterisk/releases/asterisk-1.4.26.2.tar.gz
    # w3m http://sourceforge.jp/projects/julius/downloads/37582/julius-4.1.2.tar.gz/
    # w3m http://prdownloads.sourceforge.jp/julius/28977/dictation-kit-v3.2.tar.gz
    # wget http://www2.iweave.jp/asterisk-julius/asterisk-julius-20091006.tgz
    # wget http://www2.iweave.jp/asterisk-julius/asterisk-julius-20091006-jr.tgz
    # wget http://www2.iweave.jp/asterisk-julius/asterisk-julius-20091006-yui.tgz
    
  • Julius ビルド
    • /root/work に julius-4.1.2.tar.gz を展開する。
    # cd /root/work
    # tar zxf julius-4.1.2.tar.gz
    
    • julius/Makefile.in の LDFLAGS の定義の最後に -rdynamic を追加する。
    # cd julius-4.1.2
    # sed 's/^\(LDFLAGS=.*\)/\1 -rdynamic/' julius/Makefile.in > julius/Makefile.in.temp
    # mv julius/Makefile.in.temp julius/Makefile.in
    
    • ビルド&インストール
    # ./configure
    # make
    # make install
    
  • Julius プラグインビルド
    • /root/work に asterisk-julius-20091006.tgz を展開する。
    # cd /root/work
    # tar zxf asterisk-julius-20091006.tgz
    
    • ソースを Julius のディレクトリにコピーする。
    # cp asterisk-julius/udpadin.c julius-4.1.2/plugin
    
    • プラグインをビルドする。
    # cd julius-4.1.2/plugin
    # gcc -shared -o udpadin.jpi udpadin.c
    
  • 音響モデルの用意
    • /root/work に dictation-kit-v3.2.tar.gz を展開する。
      ビルド作業はありません。
    # cd /root/work
    # tar zxf dictation-kit-v3.2.tar.gz
    
  • Asterisk 連携アプリケーションのビルド
    • /root/work に Asterisk 1.4 系のソースを展開する。
    # cd /root/work
    # tar zxf asterisk-1.4.*.tar.gz
    
    • /root/work に asterisk-julius-20091006.tgz を展開する(展開していない場合)。
    # tar zxf asterisk-julius-20091006.tgz
    
    • app_talkdetect.c にパッチを当てる。
    # cd asterisk-1.4.*
    # patch -p1 < ../asterisk-julius/app_talkdetect-julius.patch
    
    • Asterisk のビルドオプションを選択、ビルドして、インストールする。
    # ./configure
    # make menuconfig
    # make
    # make install
    # make samples
    # make config
    
    • /etc/asterisk/sip.conf 等を編集して、電話機を登録する。
    • すでにビルド環境がある場合は、その環境に app_talkdetect.c をコピーして、再ビルド&インストールしてください。

デモ環境構築

  • 山手線の駅名の認識デモ
    • /root に asterisk-julius-20091006-jr.tgz を展開する。
    # cd /root
    # tar zxf work/asterisk-julius-20091006-jr.tgz
    
    • /root/work に asterisk-julius-20091006.tgz を展開する(展開していない場合)。
    # cd /root/work
    # tar zxf asterisk-julius-20091006.tgz
    
    • 番号計画をコピーする。
    # cp /root/work/asterisk-julius/extensions.ael /etc/asterisk
    
    • default コンテキストの 200 番でデモが利用できる。
  • OSC 2009 Okinawa で使ったデモ
    • /root に asterisk-julius-20091006-yui.tgz を展開する。
    # cd /root
    # tar zxf work/asterisk-julius-20091006-yui.tgz
    
    • /root/work に asterisk-julius-20091006.tgz を展開する(展開していない場合)。
    # cd /root/work
    # tar zxf asterisk-julius-20091006.tgz
    
    • 番号計画をコピーする(コピーしていない場合)。
    # cp /root/work/asterisk-julius/extensions.ael /etc/asterisk
    
    • default コンテキストの 201 番でデモが利用できる。

デモの実行

  • 山手線の駅名の認識デモ
    • Asterisk を再起動する。
    # /etc/init.d/asterisk restart
    

    あるいは

    # /etc/rc.d/init.d/asterisk restart
    
    • Julius を起動する。
    # cd /root
    # julius -C jr/jconf-jr
    
    • 接続している電話機から 200 番をダイアルする。
  • OSC 2009 Okinawa で使ったデモ
    ゆいレールの駅名を認識します。
    • Asterisk を再起動する。
    # /etc/init.d/asterisk restart
    

    あるいは

    # /etc/rc.d/init.d/asterisk restart
    
    • Julius を起動する。
    # cd /root
    # julius -C yui/jconf-yui
    
    • 接続している電話機から 201 番をダイアルする。
    • ゆいレールの情報はこちらで確認下さい。
      右側に駅名が記載されています。
      http://www.yui-rail.co.jp/

制限

  • 音声認識は、同時に1チャネルのみ利用可能です。
    複数チャネルで利用した場合は、正しい結果を得ることができません。
  • 登録されていない単語に対しても、常に登録した単語として認識してしまいます。
  • 騒がしい環境で利用すると、ノイズを音声とみなし、登録した単語として誤認識します。

その他のオプション

以下につきましては、iWeave 小西(直通電話番号 055-244-7663)までお問い合わせ下さい。

  • 電話用音響モデル
  • 複数チャネル同時認識対応
  • 複数文法対応
  • 環境ノイズ対応(環境ノイズを誤認識しないように)
  • システム構築、技術支援など

備考