音声認識機能

N-BESTやワードスポッティングもサポートし、進化し続ける音声認識エンジン「Vrec®

数多くのメニューや情報の中から、目的のコンテンツをピンポイントで指定できる音声認識。VOISTAGEでは、他の機能とともに音声認識もこれからのCTI/CRMには必須と考え、標準でサポートしています。バージインやN-BEST、ワードスポッティングなど本格的な機能もサポートする独自の高性能音声認識エンジンが「Vrec」です。

知りたい情報をすばやく指定できるバリアフリーなシステム、音声認識

通常、自動音声情報サービスでは、システムからのガイダンス(「○○の場合は1を、△△の場合は2を押してください。」など)に従ってプッシュボタンを押しメニューを選択したり情報を入力します。
しかし、提供されるメニューや情報項目が数多い場合、プッシュボタンでの入力では、めざす情報にたどり着くまで、かなりのプッシュ操作が必要です。また、コードレス電話や携帯電話ではプッシュ操作のたびに電話機を耳からはなさなければなりません。
そこで、音声認識技術を利用することにより、情報の指定が声で行え、直感的かつピンポイントですばやく目的の情報にアクセスすることができます。
プッシュ操作の煩わしさから解放され、自然な対話ベースの操作になるので、操作に不慣れな人やお年寄りにもやさしいバリアフリーなシステムでもあります。

VOISTAGE音声認識エンジン「Vrec」(ブイレック)

マルチメディアカードには、NTTデータが独自に開発した音声認識エンジン「Vrec」が標準搭載されています。認識させようとする単語をあらかじめテキストにて辞書設定しておくことにより、不特定話者の人が話す声をリアルタイムに認識することができます。同時認識単語数は最大1000単語×4連続。もちろんシステム全体での単語登録数に制限はありません。認識率は500単語の認識において95%以上※を実現しています。 50万語におよぶ大語彙認識、バージイン機能にも対応した高性能な音声認識が可能です。
※同時認識単語数や、認識率は使用メモリ、回線数により変わります。

Vrec搭載
マルチメディアカード
VS-201
VS-402MC
VS-403MC
VS-404MC
VS-406MC

 販売終了品

Vrecの特長

50万語の大語彙認識
新音声認識ロジックと高精度汎用音響モデルの採用により、認識性能を飛躍的に向上。最大登録語彙数を従来の10万語から50万語に拡大しました。
高精度バージイン(割り込み発話)機能をサポート
発話中のガイダンス音声停止をハードウェア(DSP)で処理することで、より自然で高感度な会話環境を実現。
圧倒的なコストパフォーマンス
汎用音響モデルによりトレーニングは不要。追加ライセンスも一切不要で、短期間・低コストで音声認識システムが構築できます。
豊富なオプション
専門スタッフがシステムの構築をサポートする「チューンアップサービス」や、数字/氏名/住所/企業名/金融機関名などの「専用音響モデル」をオプション設定し、高度で多彩なシステム構築をサポートします。

さらに進化した音声認識エンジン「Vrec2」

マルチメディアボックス基本ソフトウェアVer.8には、一層の高性能・高機能化を実現した「Vrec2」を搭載しました。新ロジックの採用により基本性能が大幅に向上、これからのCTI/CRMソリューションに必要な各種機能もサポートしています。

Vrec搭載
マルチメディアボックス
  VS-411MB
  VS-412MB
  VS-2301MB

 在庫僅少商品

Vrec2の特長(追加機能)

N-BEST
一回の認識で複数(第3)候補までアプリケーションに通知が可能。よく似た候補語を聞き返していくことで絞込みを行い、認識の確度を高めます。
(例)「お名前をどうぞ」→「もり」→「毛利さんですか?」→「いいえ」→「森さんですか?」
ワードスポッティング
前後の不要語を除き、特定のキーワードのみ認識します。
(例)「えーっと、山田です」→「山田さんですね」(「山田だけ認識)
VoiceXMLへの対応
アプリケーションで動的に辞書の作成が可能に。また、VOISTAGE音声合成機能と組み合わせ、Webを音声で操るボイスポータルにも容易に対応。

ANSERで培ったVOISTAGEの音声認識技術

ANSERのページへ

音声認識には、実用的な認識率を確保するための専門的なノウハウや高い信頼性が求められます。さらにはストレスなく操作できるよう、対話コミュニケーションや人間心理からのアプローチも必要です。
NTTデータでは、自社内およびNTTグループ内の旧電電公社時代からの蓄積された技術資産が自在に活用できるアドバンテージがあります。また、実際に大規模なシステムに導入され活躍している事例も数多くあります。
その一つが「ANSER」です。ANSERは、82年の誕生以来、17,000回線以上の実績を持つ、国内最大の金融系CTI/CRMシステムです。このミッションクリティカルなシステムに導入され、鍛えられた技術がVOISTAGEの音声認識です。高度な機能を標準搭載で提供できるのも、これらのバックボーンがあってのこそなのです。

利用者調査で実証されたVOISTAGE音声認識の利便性

音声認識は、これまでのプッシュ操作と比べて本当に実用的なのか?
そこでこの疑問に答えるために、一般利用者を対象に、音声認識とプッシュ入力双方への評価や操作測定を調査会社に依頼しました。調査を通し、すべての項目で音声認識が優れているとの結果が得られました。

  • 調査主体:(株)NTTデータ
  • 調査実施:日本統計調査(株)
  • 調査対象:2003年6月首都圏の成人男女30名
  • 調査方法:同一IVRに対し、プッシュ/音声の2方式で それぞれ6サービスメニューを操作してもら い、その評価と所要時間を実測

▼方式への支持率 (どちらの方式が良いか?)

8割の人が音声認識を支持

 

▼操作所要時間(完了までの平均操作時間は?)

音声認識の操作時間はプッシュの約半分

▼完了率(目的の情報までたどり着けたか?)

プッシュ入力では約2割が未完

 

音声認識をサポートしたパッケージシステム
その他の機能