[画像のクリックで拡大表示]

 1996年に設立されたAppenは、画像、ビデオ、オーディオ、テキストなどのデータ収集や各種データへのアノテーションを提供することで、AIシステムの構築や継続的な改善をサポートしているテクノロジー企業です。

 今回はAI用テキストデータアノテーションについてご紹介いたします。

■テキストアノテーション

 最も一般的に使用されるデータ型はテキストです。

 「2020年のAIと機械学習の現状」レポートによると、70%の企業が今なおテキストデータに依存しているそうです。

1)センチメントアノテーション

 感情分析では、態度、感情、意見を評価するため、適切なトレーニングデータを取得することが重要です。

 それらのデータを取得するために、人間のアノテーターであればSNSやeコマースサイトなどのプラットフォーム上で攻撃的なキーワードやセンシティブなキーワードにタグを付けることで、感情やコンテンツを評価するといったアノテーションが可能です。

2)インテントアノテーション

 人々がマンマシンインターフェースを通じて機械を理解するように、機械は自然言語とユーザーの意図の両方を理解できなければなりません。

 マルチインテントデータの収集と分類により、ユーザーの意図を、リクエスト、命令、予約、推奨、確認などの主要なカテゴリに区別できます。

3)セマンティックアノテーション

 セマンティックアノテーションは、商品リストを改善し、顧客が探している商品を見つけられるように検索の精度を改善します。

 セマンティックアノテーションサービスは、製品のタイトルや検索クエリ内のさまざまなコンポーネントにタグを付けることで、アルゴリズムをトレーニングしてそれらの個々のパーツを認識し、全体的な検索の関連性を向上させるのに役立ちます。

4)固有表現抽出

 固有表現抽出(Named Entity Recognition,NER)システムでは、大量のトレーニングデータが必要です。

 Appenは、eコマースにおける主要な記述子を識別した上でのタグ付けや、SNS上の人物、場所、会社、組織、タイトルなど固有表現へのタグ付けなど、幅広いユースケースをサポートします。

■事例:複数の市場におけるBing(マイクロソフト社 )の検索品質の向上をAppenが支援

 マイクロソフト社の検索サービス"Bing"は、検索結果の品質を継続的に改善するために大規模なデータセットを必要としていました。

 Appenはプロジェクトの管理とともに、高品質なデータセットを提供することで、期待以上の成果を実現することができました。

■Appenが貴社に提供できること

 Appenは、20年以上ものデータアノテーションの経験と実績があります。

 人間の支援によるアプローチと機械学習の支援を組み合わせることで、必要としている高品質のトレーニングデータを提供します。Appenのテキストアノテーション、画像アノテーション、音声アノテーション、そしてビデオアノテーションはお客様の規模に合わせ、自信を持って人工知能や機械学習モデルを提供できるように支援いたします。

 どのようなデータアノテーションのニーズであれ、Appenのプラットフォームとマネージドサービスチームは、AIプロジェクトと機械学習プロジェクトのデプロイとメンテナンスのいずれもご支援致します。