AIモデルの開発・活用で見過ごされがちなデータインフラ
生成AIの進化は目覚ましく、ビジネスでも広く活用されるようになってきている。そのAIモデルの開発や活用に欠かせないのが「データ」である。しかし、データの収集や管理、運用について、適切に行われているかというと、疑問符が付くのが現状だろう。
かつてデータは、時間の経過によって次第に使われなくなり、コストになると考えられていたが、今ではAIモデルの開発や活用に欠かせない“燃料”となり、革新的なサービスを生み出す価値ある資産と見なされるようになっている。それと同時に、データインフラであるストレージの存在意義も変わってきている。
これまでストレージは、単に「データを保管する場所」と考えられてきたが、AI活用が本格化する現在、「データを生かす場所」へと変化してきている。そうした変化に、多くの日本企業は追い付けていない。また、データインフラが部署ごとにサイロ化していたり、クラウドを含めて分散化してしまっていたりする現状もある。データアクセス、パフォーマンスなどの課題もある。
AIに話を戻せば、AIモデルの開発では学習の際に膨大なデータが必要になる。しかし、品質の低いデータを学習しているようでは期待した性能は得られない。
AIモデルの開発・活用のためのデータパイプラインを考えてみよう。開発の目的に合ったデータを収集、保管し、学習用データなどに加工した後に、分析、実際の活用という流れになる。収集から活用に至る工程を繰り返すことで質の高いデータの生成が可能になる。データの収集・保管・加工・分析・活用という流れを効率的にマネジメントする上で、データ、アプリケーション、インフラの距離が近いデータ基盤が求められる。
それでは、今後本格化が予想されるAI活用の時代において、データインフラであるストレージにはどのような要件が求められるのだろうか。次ページ以降で考えてみたい。