コールセンターや医療機関、自治体の議事録作成などに向けた音声認識サービスを提供するアドバンスト・メディアは、音声認識APIを提供する開発プラットフォーム「AmiVoice Cloud Platform」の一般公開を開始した(プレスリリース)。同社の音声認識エンジンを使い、受け取った音声データをテキストデータとして返す。顧客は自社サービスと接続し、クラウド上でリアルタイムまたはバッチ処理の音声認識を利用できる。

音声認識APIを提供する開発プラットフォーム「AmiVoice Cloud Platform」
自社の音声認識APIの一般公開を開始した(スライド:アドバンスト・メディア、撮影:日経 xTECH)
[画像のクリックで拡大表示]

 特徴はビジネス用途に対応できる精度の高さと価格の低さ。精度については、製薬・金融・自動車といった各業種でのコールセンター向けや医療文章入力向けなど、これまでのBtoBサービスで培ってきたとし、まず提供を開始する汎用エンジンでも十分ビジネス用途に使えるとした。

 比較事例として、同社 代表取締役会長兼社長の鈴木清幸氏は、AbemaTVでのイチロー選手の引退会見のライブ配信に使われ“炎上”したリアルタイム字幕「AIポン」を挙げた。AIポンは米グーグルの音声認識テキスト変換サービス「Cloud Speech-To-Text API」をベースにしたもので、問題となった会見では「サボテンでパンの方々の存在なくしては(その点でファンの方々の存在なくしては)」「自分の家指輪も、全く盛れない(自分のエネルギーはもう全く生まれない)」などの“珍回答”を生成していた。鈴木氏は「Googleなどが採用する自動学習では、不適切な言葉を選びやすくなる」と指摘する。アドバンスト・メディアの汎用エンジンを同じ音声データで使った場合、「これまで応援押していただいた(これまで応援していただいた)」「支えかなほこり(ささやかな誇り)」といった間違いは生じるものの、言語フィルタリング機能を搭載しており、ビジネスに不適切な言葉は省くなどBtoBでの使用に耐えられるとする。

 まず提供する汎用エンジンの場合、価格は従量課金方式で0.025円/秒、音声データログを残さない場合で0.04円/秒。毎月60分まで無料で、申し込み初月は無料(使い放題、20日以降に申し込みの場合は翌月まで無料)とする。なお、発話のない区間は課金対象から省くといったサービスもあり、他社の同等サービスよりも低コストとする。申し込みは同社サイト(https://acp.amivoice.com/main/)で受け付けており、サイトでの試用も可能としている。

サイトでの試用の様子
営業日報を音声入力で作成するイメージのデモ。登録なしでサイト上で試用できる(スライド:アドバンスト・メディア、撮影:日経 xTECH)
[画像のクリックで拡大表示]

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。