長時間・複数の音声データを一気に文字化

開発プラットフォーム「AmiVoice(R) Cloud Platform」に「非同期HTTP音声認識API」が新登場

 〜長時間の通話録音や会議音声などをバッチ認識でスピーディーに文字化〜

 株式会社アドバンスト・メディア(本社:東京都豊島区、代表取締役会長兼社長:鈴木清幸 以下、アドバンスト・メディア)は、音声認識APIを提供する開発プラットフォーム「AmiVoice Cloud Platform(アミボイス クラウド プラットフォーム)」をアップデートし、「非同期HTTP音声認識API」をリリースしました。10月8日(金)よりご利用いただけます。

 AmiVoice音声認識APIは、クライアントアプリケーションに特別なライブラリを組み込むことなく、簡単に音声認識機能をWEBサイトやアプリケーションに実装できます。

 これまで提供していたリアルタイム音声認識用の「WebSocket音声認識API」とバッチ音声認識用の「HTTP音声認識API」に加え、新たに「非同期HTTP音声認識API」をリリースしました。「HTTP音声認識API」の制限である16Mbytes以上のファイルも一括で音声認識可能になるため、コンタクトセンターの通話音声、会議音声、動画・ラジオ・YouTubeの音声など、長時間の音声データをまとめて文字化することに適しています。複数ファイルの非同期処理をまとめて行うため、音声ファイルのサイズや長さに関わらずスピーディーに認識結果を得ることができます。

■WebSocket音声認識API

 音声ストリームをリアルタイムでテキスト化することができます。

 <利用用途>

  ・コンタクトセンターの会話をリアルタイムにテキスト化

  ・会議の発言をリアルタイムにテキスト化

  ・スマートフォンやIoTデバイスの音声操作

  ・音声対話システム

■同期HTTP音声認識API

 音声ファイルをテキスト化することができます。短い音声ファイルに適しています。

 <利用用途>

  ・音声メモや留守番電話など、短い音声ファイルのテキスト化

  ・音声認識を使ったシステムのPoCや音声認識精度の評価

■非同期HTTP音声認識API

 音声ファイルをテキスト化することができます。長い音声ファイルや、大量の音声ファイルをテキスト化する用途に向いています。

 <利用用途>

  ・コンタクトセンターの通話録音音声ファイルのテキスト化

  ・会議録音音声ファイルのテキスト化

  ・動画ファイルのテキスト化や字幕作成

 3種類のAPIについては、「AmiVoice Tech Blog」にて詳細を記載しています。

  https://amivoice-tech.hatenablog.com/entry/2021/10/08/

 ※以下は添付リリースを参照

リリース本文中の「関連資料」は、こちらのURLからご覧ください。

添付リリース

https://release.nikkei.co.jp/attach/619210/01_202110081208.pdf