NVIDIA、推論のブレイクスルーによりクラウドからエッジに至るまでの対話型AIをよりスマートでインタラクティブに

 TensorRT 8が、ヘルスケア、オートモーティブ、金融業界の大手エンタープライズに世界最速のAI推論性能をもたらす

 2021年7月20日、カリフォルニア州サンタクララ--NVIDIAは本日、TensorRT(TM) 8を発表しました。TensorRT 8は、NVIDIAの第8世代となるAIソフトウェアで、言語クエリの推論時間を半分に短縮することで、開発者が世界で最も高い性能を持つ検索エンジン、広告レコメンデーションおよびチャットボットを作り出し、それをクラウドからエッジに渡り提供することを可能にします。

 TensorRT 8の最適化により、世界で最も普及しているTransformerベースのモデルの1つである、BERTLargeで実行された言語アプリケーションが、1.2ミリ秒というこれまでにはない速度で処理できるようになります。過去には、企業はモデルサイズの縮小を余儀なくされ、その結果、正確性が大幅に低下していました。TensorRT 8により、企業はモデルサイズを2倍または3倍に拡大して、正確さを劇的に向上させることが可能になります。

 NVIDIAのデベロッパー プログラム担当バイスプレジデントであるグレッグ エステス(Greg Estes)は、次のように述べています。「AIモデルは指数関数的に複雑化しており、AIを使用するリアルタイムアプリケーションへの需要が全世界で急増しています。そのため、エンタープライズでは、最先端の推論ソリューションの導入が不可欠になっています。TensorRTの最新版に導入された新しい機能により、企業は、これまでにない品質と応答性を持つ対話型AIアプリケーションを顧客に提供できるようになります」

 これまでの5年間で、ヘルスケアやオートモーティブ、金融および小売りといった多様な分野の2万7,500の企業に所属する、35万人以上の開発者が、TensorRTを約250万回ダウンロードしています。TensorRTアプリケーションはハイパースケール データセンターや組み込み機器、自動車製品プラットフォームへの展開が可能です。

・推論の最新イノベーション

 Transformerの最適化に加えて、以下の2つの主要な機能を通じて、TensorRT 8はAI推論でのブレイクスルーを実現しています。

 スパース性は、効率性を高めるための、NVIDIA AmpereアーキテクチャGPUの新しい性能向上手法です。これにより、開発者は演算処理を削減することで、ニューラルネットワークを加速させることができます。

 また、量子化認識トレーニングにより、開発者は、トレーニング済みモデルを使い、正確さを損なうことなく、INT8精度で推論を実行できるようになります。これによって、演算とストレージのオーバーヘッドが大幅に削減され、Tensorコアで効率的な推論ができるようになります。

 ※以下は添付リリースを参照

リリース本文中の「関連資料」は、こちらのURLからご覧ください。

添付リリース

https://release.nikkei.co.jp/attach/615055/01_202107211022.pdf