企業が社内に分散するデータを管理する際の選択肢となるのが、「データハブ」と「データレイク」、そして「データウエアハウス(以下、DWH)」である。この混同されやすい3つの言葉の定義や考え方を理解し、正しく使い分けることは、企業がデータを共有し活用するための条件といえる。

(出所:123RF)

データハブでデータの構造を明らかにする

 改めて、データハブとデータレイク、DWHの定義を確認しよう。ベンダーによって定義は異なるが、ガートナーでは以下のように定義している。

 データハブは、データの生成元(アプリケーションやプロセス、チーム)とデータの利用者(他のアプリケーションやプロセス、チーム)の橋渡しをすることによって、データの共有を可能にする論理的なアーキテクチャーである。

 データレイクは、未知のデータ(体系化されていない、未加工のデータや外部由来のデータ)をサポートして、未知(ディスカバリー指向やデータサイエンス指向)の質問に対応し、高度な探索や革新を可能にする技術である。

 DWHは既知のデータ(構造化されたトランザクションデータ)をサポートして、既知(繰り返され、幅広く利用される)の質問に対応し、ビジネスオペレーションに共通の認識を提供する技術である。

 この3つは、どれもプロダクトというよりもアーキテクチャーに当たるもので、単独ではなくそれぞれを組み合わせて使うことで、効果を高められる(図1

図1●データハブとデータレイク、データウエアハウス(DWH)の特徴と相違点
(出典:ガートナー)
[画像のクリックで拡大表示]

 この中でデータハブだけは、物理的な実装については別途検討する必要のある、概念的なアーキテクチャーであり、データレイクとDWHとは性格が異なる。企業内にあるデータが、どこからどこへどうつながっているのかという「ハブアンドスポーク」の構造を明らかにすることでデータの流れを円滑にし、ガバナンスを適用するために使う概念といえる。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。