(出所:123RF)
(出所:123RF)

 あらゆる企業でデータ分析が必須となっている。蓄積したデータに基づいた行動を起こせる会社と、行き当たりばったりに意思決定している会社では、経営戦略にも現場のオペレーションにも差が付く。そんなデータ分析を実施する基盤となるデータ管理システムが「データウエアハウス」だ。

 本記事ではデータウエアハウスとは何か、メリットとデメリット、基本的な機能、料金相場、活用のポイントなどを、データベースの専門家である川上明久氏と小林涼氏が基本からわかりやすく解説する。併せて、日経クロステックActiveの記事から、事例や関連ソリューションなどをまとめて紹介する。

初回公開:2021/01/10
最終更新:2022/05/13
*「1. データウエアハウス(DWH)とは」「2. データウエアハウスを導入するメリットとデメリット」「3. データウエアハウス基本的な機能」「5. データウエアハウスの価格・料金相場」「6. データウエアハウスを選定する際のポイント」「7. データウエアハウスを活用する上でのポイント」は川上明久氏と小林涼氏が執筆

1. データウエアハウスとは

 複数のシステムのデータを1カ所に集約・整理し、データをまとめて保管する役割を果たすデータ管理システムのことだ。英語では「Data Warehouse」と書き、直訳すると「データ倉庫」を意味する。経営の意思決定支援を行うためのデータ分析に活用できる。

 データ分析は、既存システムのデータベースにアクセスするだけでもできそうだ。なぜデータウエアハウスが存在するのか。それは、膨大なデータの中から目的のデータを探し、集約し、分析するのが困難だからだ。

 既存システムのデータベースだけでは、データ活用へのハードルは高い。通常、古いデータは削除されてしまうため、過去のデータ閲覧に制限が加わる。さらに、複数システムに分散したデータを分析するには、いったんデータを集約しなければならず、それにはかなりの手間がかかる。

(出所:123RF)
(出所:123RF)

 こうした課題を解決するために、データ分析・集計機能に特化したデータウエアハウスの製品・サービスが存在し、利用が広がっている。データウエアハウスは以下のような特徴を持つ。

  • データが1カ所に集約され、複数システムにまたがる高度な分析を実施できる
  • データを時系列で保管して基本的に削除しないため、過去のデータも活用できる
  • あらかじめ整理したデータを保管するため、集計に時間をかけずに分析できる

2. データウエアハウスを導入するメリットとデメリット

 データウエアハウスの導入により、企業にもたらされるメリットとデメリットは以下の通りである。

データウエアハウス導入のメリット

(1)データに基づいた意思決定への活用

 事業運営上の意思決定を、事実に基づいたものにしようと多くの企業が努力している。それには、データを用いた裏付けが必要不可欠となる。データウエアハウスがあると、過去から現在までのデータが保管され、統合された形で利用できる。

(2)スピードの向上

 データウエアハウスを利用すると、データ分析や意思決定のスピードを上げられる。データを内容別に整理・集計して保管する機構や、大量のデータを高速に処理する機構を備えているためだ。

(3)容易なデータ分析

 データ分析のアイデアが出たら即座に実行できる。複数のシステムにあるデータを1カ所に集約する、データウエアハウスの特性が生きるからだ。

 データ活用で価値を生むには、思いついたアイデアや仮説が正しいか、分析するデータや軸を変えながら試行錯誤して、検証する必要がある。どのようなデータ分析になるのか、完全に予測できる状態で始めるわけではない。整理されたデータを1カ所に集約したデータウエアハウスがあると、どのようなデータ分析でも容易に実施できる。

データウエアハウス導入のデメリット

(1)運用に手間がかかる

 運用フェーズでは、業務アプリケーションやWebサイトなどのデータ生成元のシステムと連携し、データを整理した上でデータウエアハウスに格納する作業を常時続ける必要がある。特に最新のデータを早く分析するニーズが強い場合は、リアルタイムに近い頻度でデータを連携しなければならない。こうしたケースでは、専用のツールなどを別途検討する必要がある。

(2)価格・料金が高い

 データウエアハウスの用途を果たすシステムを市販やオープンソースのデータベース管理ソフトを使って構築することも不可能ではないが、多くの場合はデータウエアハウス専用の製品やクラウドサービスを導入することになる。専用の製品・サービスであるため、価格・料金が高いものが多い。

3. データウエアハウスの基本的な機能

 データウエアハウスの基本的な機能は次の2点である。

(1)大量のデータを保管する

 大容量のストレージを備えており、過去のデータや複数のシステムから集めたデータなど、大量のデータを保管できる。データを時系列で保管して、基本的に削除しない運用を容易にできる。

(2)高速に大量データを処理できる

 データウエアハウスは集計処理を実行する。データ分析では多くのデータが対象になる。例えば、大量の商品の割り引き率について、平均や最大、最小などを計算したりする。ところが、一般的なデータベース製品はそうした計算は得意ではない。商品名や商品ID、入荷日など他のデータも含めて取り出し、価格だけをピックアップした上で集計処理をするという仕組みになっているためだ。

 これに対しデータウエアハウス製品・サービスは、一般的なデータベース製品とは異なる「カラム型」と呼ばれるデータ保管の仕組みを採用している。カラム型は「全商品の価格だけをまとめて取り出して集計処理する」といった集計処理に適しており、高速に大量のデータ分析が可能となる。

4. データウエアハウスの製品・サービス例

 データウエアハウス製品・サービスの例として、日経クロステック Activeの製品データベース「製品&サービス:IT」から6製品を紹介する。

5. データウエアハウスの分類と価格・料金相場

 データウエアハウスの製品は従来、ライセンス販売される製品が主流だった。近年では従量課金で利用できるクラウドサービスとして提供される形態も出てきており、選択肢が多様化している。

ライセンス販売される製品

 ライセンス販売される製品の提供形態は、ハードウエアとソフトウエアの一体販売と、ソフトウエアのみの販売のどちらかになる。後者の場合、ユーザーが別途ハードウエアやクラウドの環境を用意する必要がある。ライセンス費用はサーバー台数やCPU数などから決まるため、あらかじめ利用するリソースを見積もった上でライセンスを購入する。運用後に利用するリソースが増える場合は、追加費用を支払ってライセンス数を増やす。

 価格はスペックによって大きく変わるが、ハードウエアにソフトウエアライセンスを含む初年度費用で、1億円以上が必要になるケースが多い。2年目から保守費用が初年度費用の約20%程度発生する。なお、データセンターに設置する際の設置場所、電源の費用は含んでいない。

(出所:123RF)
(出所:123RF)

従量課金で利用できるクラウドサービス

 クラウドサービスのデータウエアハウスは利用した分だけ料金を支払う従量課金制となる。サーバーのスペック(CPU、メモリー)、ストレージ容量などで料金が決まる。システム構成の違いで料金が変動するため、データウエアハウスの料金相場は一概にはいえない。比較的利用例の多い、アマゾン・ウェブ・サービス(AWS)が提供する「Amazon Redshift」を用いて説明する。

 対比を分かりやすくするため、初年度費用が1億円以上かかるライセンス販売の製品と同等のリソースを確保したと想定する。その場合は以下の構成となり、料金は年額85672.8ドル(約942万4008円/1ドル=110円として計算)となる。

  • インスタンスタイプ:ra3.4xlarge×3台
  • 1台あたりのスペック:vCPU12個、メモリー容量96GiB、ストレージ容量128TB

6. データウエアハウスを選定する際のポイント

 データウエアハウスを選定するポイントは以下の4点である。

(1)処理速度

 データ量が多くなるほど集計処理に時間がかかる。あまりに遅いと、意思決定のスピードが落ちる。事前に検証し、業務で求める処理速度が期待できる製品・サービスを選ぶ必要がある。

(2)搭載されている機能

 データウエアハウスとしての機能だけではなく、他システムからのデータ抽出、整形、分析機能を兼ね備えた製品・サービスも存在する。複数のツールを購入する必要がなくなる半面、組み合わせの自由度が低下する。周辺機能との組み合わせを含めて製品・サービスを選択する必要がある。

(3)システムの拡張性

 時間が経過したり、蓄積対象のデータが増えたりすると、必要なストレージや処理能力といったシステムリソースは増大する。データウエアハウス製品・サービスによって拡張性の特徴はまちまちで、将来を見越して製品・サービスを選定する必要がある。将来の必要リソースを見通しにくい場合は、柔軟に拡張できるクラウドサービスのデータウエアハウスが適している。

(出所:123RF)
(出所:123RF)

(4)コスト

 製品・サービスにより価格体系、料金体系が大きく異なる。想定される利用形態に合った製品・サービスを選択する必要がある。

7. データウエアハウスを活用する上でのポイント

 データウエアハウスを活用するポイントは以下の3点である。

(1)データ統合

 複数の業務システムやWebシステムからDWHにデータを集約する場合、データの形式が異なっていたり、そのままでは整合性の取れたデータのひも付けができなかったりする場合がある。データの統合処理をするためのツールや方法を検討する必要がある。

(2)データパイプラインの検討

 データパイプラインとは、組織内のデータソースからデータを連携する一連の流れとその方法である。できるだけ統一されたデータパイプラインを採用した方が管理しやすい。そのため、業務で求められるデータの鮮度に合わせてデータ連携の頻度を調整するとよい。データウエアハウスは参照処理を高速にすることに特化している半面、更新処理が遅い製品が多い。データ連携にかかる時間・頻度を検証して、どのような鮮度でデータを提供できるかを検討する必要がある。

(出所:123RF)
(出所:123RF)

(3)データマートの設計

 BI(ビジネスインテリジェンス)ツールや分析ツールを使ったデータ集計のレスポンスをより高速にしたい場合は、事前に集計した結果を格納したデータセットを用意する。集計処理を省ける分だけ画面のレスポンスが速くなる。こうした必要なデータだけを抽出して集計済みにしたものを「データマート」と呼ぶ。データウエアハウスに必要なコンピューティングリソースが節約でき、コストも下がる。

8. データウエアハウスの代表的な事例

住友生命保険

 住友生命保険が2つの新データ基盤をクラウド上に構築し、全社的なデータ活用に乗り出している。

 1つはデータウエアハウスを中核とする「情報分析システム」だ。米マイクロソフトのクラウドサービス「Microsoft Azure」上に構築した。保険販売や営業職員の活動といった基幹系・業務系システムのデータを主に扱い、BI(ビジネスインテリジェンス)ツールなどで可視化する。

 もう1つは機械学習のためのデータ基盤「スミセイデータプラットフォーム」。これは米アマゾン・ウェブ・サービスの「Amazon Web Services(AWS)」を使う。医療系のオープンデータや、スマートフォンアプリを通じて取得した保険加入者の運動データなどのビッグデータを基に、データ分析用の機械学習モデルを開発する。

 2つのデータ基盤はどちらも2020年9月に稼働させた。具体的な成果はこれからだが、商品開発や販促、営業支援など広範な業務に生かす。

 情報分析システムについては、Azure上に構築したことでコスト削減にもつながった。オンプレミス環境にデータウエアハウスを構築して更改・維持する場合と比べると、稼働日からの10年間で2億から3億円のコストを削減できる見込みだという。

住友生命がAzureとAWSで2つのデータ活用新基盤、両者の使い分けとは https://active.nikkeibp.co.jp/atcl/act/19/00129/042500029/ から引用

9. データウエアハウスの関連製品・サービス

 データウエアハウスを導入して現場で活用するには、様々な手助けをしてくれる製品やサービスを利用するとよりスムーズに進む。以下では、データウエアハウスに関連する注目の製品・サービスを紹介する。

Snowflake

10. データウエアハウスの新着プレスリリース

川上 明久
アクアシステムズ 執行役員 技術部長
クラウド、データベースのコンサルティングに多数の実績・経験を持つ。クラウド、データベース関連の著書や雑誌記事の執筆・連載、セミナー・講演を多数手がけ、急増するクラウド化への要望に対応できるエンジニアの育成や技術・スキル向上支援に力を注ぐ。
小林 涼
アクアシステムズ
アプリケーション開発の経験を経て、2020年にアクアシステムズ入社。Oracle Database RACなどの設計、構築を経験し、近年はOracle CloudのExaCSへのシステム移行案件に従事する。