ハンモックの「WOZE(ウォーゼ)」は、帳票や書類をテキストデータ化するクラウドサービスである。OCR(光学文字読み取り)とクラウドワーカーの併用で帳票/書類の文字を正確にテキストデータ化し、CSV(カンマ区切り形式)ファイルの形態でアウトプットする。サービス開始当初は活字が対象で、その後に手書き文字も追加する。

帳票や書類のデータ入力を代行するクラウドサービス「WOZE(ウォーゼ)」の概要
(出所:ハンモック)
[画像のクリックで拡大表示]

 WOZEのユーザーは、テキスト化したい帳票(PDFまたは画像)をWOZEのサーバーにアップロードすると、原則30分以内にテキストデータの入ったCSVファイルを取得できる。データの信頼精度は99.97%としている。

 テキスト化する処理は以下の通り。まず、クラウド上でOCRを使って機械的にテキスト化する。特性が異なる2つのOCRエンジンで文字認識して二重チェックすることで、読み取り結果が正しいかどうかをチェックする。ただ、15%程度は確認が必要な画像が残る。これについては、国内に多数在籍しているクラウドワーカーが人手で確認してデータ化する。

 クラウドワーカーは帳票画像を参照するのではなく、読み取る項目ごとに分離した画像を参照する。これにより、クラウドワーカーに機密情報が見られてしまうリスクをなくしている。

WOZE(ウォーゼ)の概要
用途と機能帳票や書類をテキストデータ化するクラウドサービス。OCRとクラウドワーカーの併用で帳票/書類の文字を高い精度でテキストデータ化し、CSV(カンマ区切り形式)ファイルの形態でアウトプットする
テキスト化できる文字サービス開始当初は活字が対象で、その後に手書き文字も追加する
使い方テキスト化したい帳票(PDFまたは画像)をWOZEのサーバーにアップロードすると、原則30分以内にテキストデータの入ったCSVファイルを取得できる
クラウド上の処理まず、OCRを使って機械的にテキスト化する。特性が異なる2つのOCRエンジンを文字認識して二重チェックすることで、読み取り結果が正しいかどうかをチェックする。別途確認が必要な帳票画像は、クラウドワーカーが人手で確認してデータ化する
セキュリティクラウドワーカーは帳票画像を参照するのではなく、読み取る項目ごとに分離した画像を参照する。これにより、クラウドワーカーに機密情報が見られてしまうリスクをなくしている
価格(税別)■初期費用
20万円
■月額料金
月間処理枚数に応じた料金体系で、月間5000枚の場合は月額20万円(1枚あたり40円)。5000枚を超過した分も1枚あたり40円
発表日2021年5月10日
提供開始日2021年7月