米Advanced Micro Devices(AMD)は、HPC(High Performance Computing)やAI(Artificial Intelligence)処理に向けたGPGPUアクセラレーター「AMD Instinct MI100」を発表した(ニュースリリース)。同社によれば、Instinct MI100は、単体GPUとして世界で初めて、FP64(64ビットの浮動小数点演算)において10TFLOPSを超える演算性能を達成したという。

「AMD Instinct MI100」の概要
下の数字は左から演算性能例、自社既存製品との比較、競合製品(NVIDIAのA100)との比較。AMDのスライド
[画像のクリックで拡大表示]
新製品と競合製品の性能を比較
競合製品は米NVIDIAの「A100」。AMDのスライド
[画像のクリックで拡大表示]

 新製品は、同社のコンピューティング向けGPUアーキテクチャー「CDNA」を採る初めての製品である。GPU本体のダイには120個の演算ユニット(Compute Unit)/7680個のストリームプロセッサーを集積する。ワーキングメモリーはHBM2Eを32Gバイト搭載する(メモリー帯域幅は最大1.2Tバイト/秒)。演算性能はFP64で最大11.5TFLOPS、FP32で最大23.1TFLOPS、bfloat16で最大92.3TFLOPS、INT4/INT8(4ビット/8ビットの整数演算)で最大184.6TOPSである。また、新しい行列演算ユニットを利用することで、FP32の行列演算は最大46.1TFLOPS、FP16の行列演算は最大184.6TFLOPSで実行できる。

AMDは応用先に最適化したGPUアーキテクチャーを開発
新製品のアーキテクチャーは右側の演算向けの「CDNA」。AMDのスライド
[画像のクリックで拡大表示]
新製品のGPU本体のダイ(中央)
下方にある性能向上の倍数は、自社既存製品との比較結果。AMDのスライド
[画像のクリックで拡大表示]

 熱設計電力は最大300W。同社のインターコネクト技術「第2世代Infinity Fabric」を利用して最大4枚までのInstinct MI100を連動させられる。この4枚構成クラスターを同社のMPU「EPYC」で連結すれば、8枚構成のクラスターとして運用可能である。

 新製品のInstinct MI100はOEM/ODMパートナーのサーバーなどに組み込まれる予定である。今回パートナーとして、米Dell Technologies、台湾GIGA-BYTE Technology、米Hewlett Packard Enterprise(HPE)、米Super Micro Computerの4社の名前が挙がっている。

AMDのMPU「EPYC」をベースにしたサーバーに新製品が搭載されるもよう
AMDのスライド
[画像のクリックで拡大表示]