AIモデルの開発・活用で見過ごされがちなデータインフラ

 生成AIの進化は目覚ましく、ビジネスでも広く活用されるようになってきている。そのAIモデルの開発や活用に欠かせないのが「データ」である。しかし、データの収集や管理、運用について、適切に行われているかというと、疑問符が付くのが現状だろう。

 かつてデータは、時間の経過によって次第に使われなくなり、コストになると考えられていたが、今ではAIモデルの開発や活用に欠かせない“燃料”となり、革新的なサービスを生み出す価値ある資産と見なされるようになっている。それと同時に、データインフラであるストレージの存在意義も変わってきている。

 これまでストレージは、単に「データを保管する場所」と考えられてきたが、AI活用が本格化する現在、「データを生かす場所」へと変化してきている。そうした変化に、多くの日本企業は追い付けていない。また、データインフラが部署ごとにサイロ化していたり、クラウドを含めて分散化してしまっていたりする現状もある。データアクセス、パフォーマンスなどの課題もある。

 AIに話を戻せば、AIモデルの開発では学習の際に膨大なデータが必要になる。しかし、品質の低いデータを学習しているようでは期待した性能は得られない。

 AIモデルの開発・活用のためのデータパイプラインを考えてみよう。開発の目的に合ったデータを収集、保管し、学習用データなどに加工した後に、分析、実際の活用という流れになる。収集から活用に至る工程を繰り返すことで質の高いデータの生成が可能になる。データの収集・保管・加工・分析・活用という流れを効率的にマネジメントする上で、データ、アプリケーション、インフラの距離が近いデータ基盤が求められる。

 それでは、今後本格化が予想されるAI活用の時代において、データインフラであるストレージにはどのような要件が求められるのだろうか。次ページ以降で考えてみたい。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。