電話やFAXによる情報提供システムやボイスメールシステムなど、電話を使ってコンピュータシステム上の情報にアクセスできるCTIシステムでは、通常、システムからのガイダンス(「○○の場合は1を、△△の場合は2を押してください」など)に従ってプッシュボタンを押しメニューを選択したり情報を入力します。
このような対話的な操作を何回か行うことによって自分のほしい情報にアクセスすることができます。しかし、プッシュボタンでの入力ではコード表等を参照しない限り一度に選択できるメニューの数は、ガイダンス音声の長さから考えて4,5個程度に制限されてしまいます。
また、電話機によってはプッシュボタンを押したときの音が耳障りであったり、コードレス電話や携帯電話ではプッシュボタンを押すたびに電話機を耳からはなさなければなりません。
では電話の世界で他にどんな入力手段があるかというと、音声での入力以外にないといえるでしょう。そこで必要となるのが音声認識技術です。音声認識技術を利用することによりメニュー選択や検索項目、情報の入力などを声で行うことが可能となります。
特に数字で入力する必要はなく自然な言葉で利用できるようになりますので、「○○の場合は1を、」というようなガイダンスから開放され、例えば都道府県名や数ある商品名を入力できるようになります。
つまり、プッシュボタン操作での煩わしさを解消し操作性を向上させ、より柔軟で大規模なシステムが構築できるようになるのです。また、従来はオペレータが対応しなければならなかったより複雑なアプリケーション分野も無人自動化が可能となり、運用コストの低減に役立ちます。
このようなことから、音声認識技術はCTIシステムでの差異化技術としてとらえられるようになってきました。特に米国においてはここ2,3年実用化の動きが加速しています。
例えば、インターネットでの株式等の売買サービスを破格の手数料で提供することで一躍発展した米国E-Trade社では、電話でのサービスも行っており、その中で音声認識技術を駆使し、上場企業の株価情報を提供したり、顧客からの売買注文の処理をすべて自動で処理するサービスを開始しています。
これは、上場企業名すべてを認識できるばかりでなく、売買注文等の定型的な文の発声("Buy 200 shares at 25."など)も認識できるようになっています。約22万人いる顧客に対し1000回線規模のCTIシステムでこのようなサービスを提供しています。
一方日本においては、実は音声認識技術利用の実用サービスは1981年にすでに始まっています。当時の電電公社が開発した銀行ANSERサービスがそれで、顧客番号や口座番号などを一桁ずつ区切るという制限はありますが、音声入力でサービスを受けられるようになっています。
(現在、本サービスはNTTデータ通信が運営しています。)しかし、その後はしばらくの間音声認識を利用したサービスは特に出てきませんでした。
しかし、3年ほど前から日本においてCTI(Computer Telephony Integration, コンピュータ電話統合)に関する話題が盛り上がりを見せ、最近になり実需を伴って本格的なビジネス展開の時期に入ってきました。これにともない、CTIにおける音声認識の実用化の動きが再び出てきました。
情報提供システムとしては三菱電機やNECが強力に市場展開を図っており、NTTデータ通信もVOISTAGEファミリとして音声処理ボードや音声認識エンジン等をリリースし、ビジネスパートナ会社とともにシステム化展開を行っています。
現在主流となっている音声認識の手法は、統計的な処理を行う「パターン認識」の一種です。図1のように、あらかじめなるべく多くの人の音声を集めて、認識したい音声の信号パターンを認識辞書として蓄えておきます。
認識時には入力した音声をディジタル化し、特徴抽出を行って、この認識辞書と照合し、最も類似度の高いものを「認識結果」と判断します。 |
このパターン認識処理の基本技術としてHMM(Hidden Markov Model, 隠れマルコフモデル)*1と呼ばれる手法の開発が進み、不特定の人の音声でも精度良く認識できるようになってきています。
また、認識辞書の構成技術も発展しました。以前では例えば「神奈川県」という認識辞書を作るには何百人の人から「神奈川県」と発声してもらいサンプルを集めなければなりませんでしたので認識対象語彙を変えるたびに大変な苦労をしたわけですが、現在の構成技術では「神奈川県」なら「カナガワケン」というようにテキストデータのみから自動的に構成でき、音声認識技術の使いやすさも向上しています。
以上のような処理は内部では膨大な計算量が必要であり、また認識辞書や途中の照合結果の保存のために多くのメモリを必要とするため、以前では専用のハードウエアを開発しなければなりませんでした。
しかし、最近ではパソコンの処理速度が飛躍的に向上しており、またメモリも安価になっていることから、現在普通に流通しているパソコンでもソフトウエアとして音声認識が十分動くようになりました。*2
音声認識技術の向上もさることながら、このようなコンピュータの性能向上も音声認識の実用化に大きく寄与しています。
|
 |
*1 HMM(Hidden Markov Model:隠れマルコフモデル)
:統計確率モデルの一種で、音声認識では、音声データの特徴に従ってある状態からある状態へ遷移して行く過程を表現する方法としてよく用いられるモデルの一つです。 |
*2 CTIシステムで音声認識を行う場合、1台のシステムの回線数が大きくなればそれだけ音声認識処理の負荷も大きくなります。概して4~8回線程度までのシステムであればソフトウエアのみで音声認識処理を行うことができますが、20回線を超える規模ではソフトウエアの処理速度が追いつかず、汎用DSPなどを使う必要が生じます。
|
以上説明してまいりましたような背景のもと、我々はCTIをターゲットに電話回線対応日本語連続音声認識パッケージソフト「VOISTAGE音声認識エンジン」を開発しました。
ここではこの概略について紹介します。
■対応するボード別に2種類のパッケージ
最近のCTIシステムは汎用のパソコンまたはワークステーションに電話回線の制御を行う音声処理ボードを搭載する構成となっています。この音声処理ボードから電話音声を取り込んで音声認識処理をソフトウエアで行う形になります。
|
現在、弊社開発のVOISTAGEマルチメディアカードとダイアロジック社製音声処理ボードに対応しており、それぞれ別のパッケージングを行っています。どちらもMicrosoft Windows NT (Intel用)上で動作します。製品の仕様を表1に示します。
VOISTAGEマルチメディアカード用
「VOISTAGEマルチメディアカード」は、4回線の電話回線制御、音声処理、FAX送受信、データモデムの各機能が装備された多機能音声処理ボードです。加えて、今回開発した音声認識ソフトウエアの他、音声合成ソフト、GUIベースの開発ツール(Stage Writer)やスクリプト言語、Visual BASIC、Visucal C++用ActiveXコントロール等が標準添付されています。
(当ボード用の音声認識ソフト単体での販売は行っておりません。)
ダイアロジック社製音声処理ボード用
ダイアロジック社のD/21x,D/41x,VFX/41xシリーズに対応した、4回線同時対応の音声認識ソフトウエアパッケージとなっています。 |
写真 VOISTAGEマルチメディアカード
|
表1 製品仕様(VOISTAGEマルチメディアカード用、ダイアロジック社製音声処理ボード用共通) |
機能 |
不特定話者の連続音声認識(電話音声)が可能 |
発声形式 |
連続発声 |
同時認識単語数 |
100~500単語程度
(認識対象語彙はテキストで簡単に登録できます。) |
音声認識エンジンの形式 |
マルチスレッド・マルチプロセスDLL |
応答時間 |
同時認識単語数100の場合1秒程度
(認識対象語彙の規模や、コンピュータ本体の性能により変化します。) |
動作環境
コンピュータ本体
メモリ
OS |
IBM PC-ATまたは互換機 Pentium133MHz以上
64MB以上
Microsoft Windows NT4.0 |
WindowsNT、Visual BASIC、Visual C++はマイクロソフト社の登録商標です。 |
■特 徴
上記の2種類のパッケージは対応ボードやそのドライバの性質の違いにより若干仕様は異なりますが、以下のような特徴を持っています。
高性能な不特定話者連続音声認識
不特定話者音声認識アルゴリズムを採用しており、ノイズや歪みの多い電話回線においても高い認識性能を誇ります。(100単語程度の認識で認識率は概ね95%以上、ただし語彙の内容や発声環境で変化します。)また、各種高速化処理手法によりレスポンスの良い認識応答を実現できます。不特定話者対応の音声認識モデルを使っているため、ユーザごとに長時間発声して登録する必要はありません。
事前テキスト登録で任意の語彙の認識が可能
500単語程度の語彙でも認識が可能です。あらかじめ認識対象の語彙をテキスト登録し、付属の辞書構築ツールにより認識辞書を作成することによりどんな言葉でも認識できるようになります。語彙の追加のために長時間発声して登録する必要は一切ありません。
音声認識機能の組込みが容易
当音声認識ソフトウエアパッケージはWindowsNT用のDLL(Dynamic-Link Library)形式のソフトウエアライブラリであり、CTIシステムに容易に音声認識機能を組み込むことができます。また、本DLLは音声処理ボードドライバと密接に連携し効率的な処理を実現しています。
マルチスレッド/マルチプロセス対応
同時に複数回線上で音声認識処理を行えるよう、マルチスレッド/マルチプロセス対応となっています。このため、それぞれの回線で別の認識対象の音声認識処理を行うことができます。
NTTデータ通信では、今回紹介しました製品等CTIを活用したシステムをビジネスパートナとともに提案させていただき、お客様に満足いただけるシステム構築のお手伝いをさせていただきます。
なお、VOISTAGE音声認識についてのデモは24時間365日VOISTAGEインフォメーションダイヤル(06-6399-8270)にてお試しいただけます。
VOISTAGEについての詳しい情報については、フリーダイヤル0120-00-5062までお問い合わせください。またVOISTAGEホームページ(http://www.voistage.com)もご参照ください。
|