資料の紹介
AI(人工知能)、とりわけ生成AIは今や、企業がビジネスを成長させるために欠かせないテクノロジーになった。だが、その実行にはときに膨大なコンピューターリソースが必要になり、それらをいかにして運用・管理するかが、大きな課題となる。例えばディープラーニングのAIモデルで推論の精度を高めるには、大量のデータでモデルを訓練する必要がある。
オンライン広告プラットフォームを運営する米Taboolaもこの課題に直面した。同社は世界に10カ所あるデータセンターで計1万台以上のサーバーを稼働させており、AIのアルゴリズムに基づいて、個々のユーザーの興味をひきそうなレコメンデーション(お薦め)コンテンツを毎秒50万件生成している。だが、その運用に携わるスタッフはわずか15人というから驚きだ。
本資料では、Taboolaが15人のスタッフで1万台超のサーバーを運用するという課題をどのようにしてクリアしたかを紹介する。AIベースの推論に利用しているサーバー群と、それらに搭載されている遠隔管理機能、HPCクラスターの構築と活用、独自の生成AIアプリケーションを開発・運用するコンテナ環境などについて言及している。





