アドバンスト・メディアの「AmiVoice Cloud Platform」は、Web APIとして利用できる音声認識エンジンである。Web APIを呼び出すだけで利用でき、アプリケーションに音声認識機能を簡単に組み込める。

「AmiVoice Cloud Platform」の音声認識APIのイメージ
(出所:アドバンスト・メディア)
[画像のクリックで拡大表示]

 AmiVoice Cloud Platformは、入力された音声をテキストに変換する。音声の文字化、音声による対話、音声による制御、音声の多言語翻訳など多様な用途に応用できる。利用料は、発話している区間だけにかかる。無音やノイズなど、人の声がない区間は料金がかからない。課金は1秒単位となる。

 用途に合わせて、リアルタイム認識に使えるAPIと、バッチ処理で使えるAPIを用意している。リアルタイム認識APIはWebSocketベースのAPI、バッチ認識APIはHTTPベースのREST APIである。いずれもサンプルプログラムを公開している。

 リアルタイム認識APIを使うと、HTML5でマイク音声を取得できるWebブラウザーなどを使って、リアルタイムに音声データを文字化できる。一方、バッチ認識APIは、音声をまとめて一括処理して文字化する用途に適している。

 音声認識エンジンにディープラーニング技術「Bi-LSTM(Bidirectional Long Short-Term Memory)」を実装して、自然発話を中心とした認識率を高めたとしている。

 汎用の用途に適した「汎用エンジン」のほかに、領域特化型のエンジンも提供する。具体的には「医療汎用エンジン」「業務報告_製薬エンジン」「業務報告_金融エンジン」の3つを用意した。

 「医療汎用エンジン」は、一般的なビジネス用語に加え、病名・症状・薬品名などの医療用語をあらかじめ登録している。「業務報告_製薬エンジン」は、日報や業務報告書の入力に向いており、製薬業界向けの用語を搭載している。「業務報告_金融エンジン」は、日報や業務報告書の入力に向いており、金融業界向けの用語を搭載している。いずれのエンジンも、ユーザー自身で製品名や固有名詞などの単語を登録できる。

AmiVoice Cloud Platformの概要
用途と機能Web APIの形で利用できる音声認識エンジン。Web APIを呼び出すだけで利用できる。アプリケーションに音声認識機能を簡単に組み込める
主な用途入力された音声をテキストに変換する。音声の文字化、音声による対話、音声による制御、音声の多言語翻訳など多様な用途に応用できる
提供するAPIリアルタイム認識に使えるAPI(WebSocketベースのAPI)と、バッチ処理で使えるAPI(HTTPベースのREST API)を用意した
リアルタイム認識APIHTML5でマイク音声を取得できるWebブラウザーなどを使って、リアルタイムに音声データを文字化できる
バッチ認識API音声をまとめて一括処理して文字化する用途に適している
業種向けエンジン汎用の用途に適した「汎用エンジン」のほかに、領域特化型のエンジンとして「医療汎用エンジン」「業務報告_製薬エンジン」「業務報告_金融エンジン」の3つを用意した。いずれのエンジンも、ユーザー自身で製品名や固有名詞などの単語を登録できる
価格(税別)汎用エンジン
従量課金
ログ保存あり0.025円/秒
ログ保存なし0.04円/秒
医療汎用エンジン
定額従量プラン1時間/月100時間/月300時間/月超過時の利用料金/従量課金
ログ保存あり300円3万円9万円0.125円/秒
ログ保存なし480円4万8000円1万4400円0.2円/秒
業務報告_製薬エンジン
定額従量プラン1時間/月100時間/月300時間/月超過時の利用料金/従量課金
ログ保存あり600円6万円18万円0.25円/秒
ログ保存なし960円9万6000円28万8000円0.4円/秒
業務報告_金融エンジン
定額従量プラン1時間/月100時間/月300時間/月超過時の利用料金/従量課金
ログ保存あり600円6万円18万円0.25円/秒
ログ保存なし960円9万6000円28万8000円0.4円/秒
発表日2020年4月2日(領域特化型エンジンの追加)
提供開始日2020年4月2日(領域特化型エンジンの追加)