NEC、従来技術の半分の学習データ量でも高精度に識別可能なディープラーニング技術を開発

 

 NECは、従来の半分程度の学習データ量でも高い識別精度を維持できるディープラーニング技術を新たに開発しました。

 識別精度の向上には、識別が難しい学習データをより多く学習することが有効ですが、学習に適した質の良いデータを十分に確保することが重要です。本技術は、ニューラルネットワーク(注1)の中間層で得られる特徴量を意図的に変化させることで、識別が難しい学習データを集中的に人工生成します。これにより、少ない学習データ量でも識別精度を大きく向上させ、ディープラーニングを適用したシステムの開発期間短縮に貢献します。

 具体的には、ディープラーニング技術の適用に必要な学習データ量を半分程度に削減します。また本技術は、データの種類を問わず汎用的に適用可能であることから、専門家による調整が不要になります。これにより従来、学習データ収集時間やコストの高さが阻害要因となっていた製品の外観検査やインフラ保全など、さまざまなシステムの早期立ち上げを可能にします。

 NECグループは、安全・安心・効率・公平という社会価値を創造する「社会ソリューション事業」をグローバルに推進しています。当社は、先進のICTや知見を融合し、人々がより明るく豊かに生きる、効率的で洗練された社会を実現していきます。

 ※参考画像(1)は添付の関連資料を参照

■背景

 近年、ディープラーニング技術は画像・音声認識を主体に飛躍的な発展を遂げ、セーフティ、ものづくり、インフラ保全など幅広い分野での活用が広がっています。例えばものづくりの分野では、製品の外観検査において、人材確保が難しい熟練検査員をカメラによる画像認識で代用したいという要望があります。外観検査をディープラーニングで行うには不良品データを学習する必要がありますが、発生頻度の低い不良品は大量に得ることが難しいため、不良品データの収集や不良品を模擬したデータ作成に多大な時間とコストを要していました。

 このような問題に対し、従来はデータ拡張(注2)と呼ばれる、学習データを意図的に加工・変形させることでデータ量を人工的に増やす手法が用いられていましたが、識別精度を高める効果的な学習データの生成までには至っていませんでした。さらに、対象のデータ種類に応じて専門家がデータの増やし方を調整する必要があるため、様々な種類のデータに短期間に適用することは困難でした。

■本技術の特長

1.必要となる学習データを従来技術に比べ半分に削減

 識別精度の向上には、識別が難しい「苦手な学習データ」をより多く学習することが有効であると広く知られています。データ拡張と呼ばれる従来技術では、ニューラルネットワークに入力する前にデータを意図的に加工・変形させ、学習データ量を人工的に増やしていました(例えば画像に対しては、回転や拡大・縮小、ノイズの付加など)。しかし、このような増やし方では、「苦手な学習データ」の量が不十分で、かつ識別精度向上に寄与しないデータも多く生成され、十分な学習効果が得られませんでした。

本技術は、ニューラルネットワークの中間層で得られる特徴量を意図的に変化させることで、識別が失敗しやすい「苦手な学習データ」を集中的に人工生成し識別精度を高めます。本技術を公開データベース(手書き数字認識:MNIST、物体認識:CIFAR-10(注3))にて評価し、学習データ量が半分でも従来技術と精度が変わらないことを確認しました。

2.データの種類の違いによる専門家の調整が不要

 従来のデータ拡張では、データの種類毎にデータの生成方法を変える必要がありました。例えば、画像では大きさや回転角度など、音声では声の高さや話す速さなどを変えることでデータを人工的に増やしていました。さらに、専門家がデータ生成方法を慎重に選び、学習に悪影響を及ぼすデータが発生しないよう調整する必要がありました。

 本技術は、ニューラルネットワーク内部の数値に基づいて自動的に学習データを生成するため、多様なデータに対して汎用的かつ効率良く適用することができ、専門家による調整を不要にします。

 ※グラフ資料・参考画像(2)は添付の関連資料を参照

 なお、今回の成果に関してニューラルネットワークの国際会議「International Joint Conference on Neural Networks」(IJCNN2019、期間:2019年7月14日(日)~19日(金)、場所:ハンガリー・ブダペスト)において、7月15日(月)に発表しました。( https://www.ijcnn.org/ )

以上

 (注1) ニューラルネットワーク:人間の脳の仕組みを模したモデリング手法。

  ニューラルネットワークにデータを入力すると、そのデータが中間層を伝わり、出力層から認識結果として出力される。

 (注2) データ拡張:データを加工・変形することで擬似的なデータを生成する手法。例えば、画像認識では、入力画像の大きさや回転角度を変えることでデータを生成する。

 (注3) MNIST:0から9までの10種類の手書き数字画像からなるデータセット。

  CIFAR-10:飛行機、鳥、犬など10種類の画像からなるデータセット。

  いずれも機械学習の精度評価に標準的に用いられる公開データセットである。

 

 

リリース本文中の「関連資料」は、こちらのURLからご覧ください。

参考画像(1)

https://release.nikkei.co.jp/attach_file/0516844_01.png

グラフ資料

https://release.nikkei.co.jp/attach_file/0516844_02.png

参考画像(2)

https://release.nikkei.co.jp/attach_file/0516844_03.png