資料の紹介

 一部の企業・組織で研究や実験に使われてきた大規模言語モデル(LLM)が、いよいよ実世界のアプリケーションを支える基本ツールへと進化してきた。だが、AIがより広範に導入されるにつれ、モデルの規模と複雑性は増大し続けており、実用に耐えるパフォーマンスを確保するためのGPUなどハードウエアのコストも上昇の一途をたどっている。

 インフラコストの削減、遅延の低減、スループットの向上を実現するうえで最も効果的な手法の一つが「AIモデル推論の最適化」だ。特に、大規模モデルを実稼働させる際には欠かせない。多くのLLMの基盤となっている深層学習モデル「Transformer」は長い入力に対する計算負荷が高く、応答性能が大幅に悪化するためだ。

 本資料では、推論パフォーマンス・エンジニアリングおよびモデル最適化について解説する。計算能力やメモリーの要件を軽減するのに役立つ「量子化技術」や「スパース性」といった高度な技術のほか、ランタイムシステムに焦点を当てて、ハードウエアへの依存度を減らし、より効率的なAI推論システムの構築に役立つ実用的な知見を提供している。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。