ビッグデータの活用に当たっては、膨大なデータを効率的に保存、管理することが基本となる。データの配置を最適化する「自動階層化」や、重なりを取り除く「重複排除」により、ストレージを有効活用したい。容量増加に応じて拡張しやすい「スケールアウト型ストレージ」にも注目が集まっている。

 ビッグデータが話題になって久しい。最近の話題の中心は、分散バッチ処理ソフト「Apache Hadoop」による分析環境の構築と、鋭い洞察でビジネス的価値を生み出す役割を担うデータサイエンティストだ。今回は、ビッグデータ自体の保存と管理を中心に話を進めていく。

ビッグデータとは何を指すのか

 ビッグデータの実体は何だろう。Vで始まる四つの単語(Velocity、Volume、Variety、Value)で表される特性を持つと説明されることもあるが、そのデータに向き合っている者の視点で考えるほうが素直である。

 まず、保存と管理が今までと同じようにはできないデータ、そして通常では使われないような大きなコンピューティングパワーを要するのがビッグデータであろう。

 ビッグデータとは、主に構造化されていない、あらゆる種類のデータが蓄積された集合体である。その中には、1ファイルの容量が大きすぎるとか、全く構造化されていないなどの理由により、従来のリレーショナルデータベースでは分析できないものも多く含まれている。

 そうしたデータの例としては、「M2M(Machine to Machine)」などのセンサーデータやシステムのログデータ、オーディオやビデオなどのイメージのほか、オフィスファイルやホームディレクトリーなどがある。企業が積極的に活用しているデータは、保有するデータの5%未満であるとフォレスターリサーチは推測している。ビッグデータを活用する目的は、データを蓄積するだけではなく、使われていないデータをどれだけ活用できるかだ。重要なことはデータの大小ではなく、最終的にどのように有効活用されたかである。

ビッグデータを効率良く保存

 データを保存するという視点で見たとき、ビッグデータにはどのようなストレージが向いているのか、またどのような機能を有しているべきかを考えてみよう。

 一般に、ファイルベースの構造化されていないデータに適しているのは、NFSやSMBのプロトコルに対応したNAS(ネットワーク・アタッチト・ストレージ)である。

 また、クラウド上にデータを保存するのであれば、Webアプリケーションと親和性の高いオブジェクトストレージが適している。初期コストをできるだけ掛けずにビッグデータに取り組みたいというのであれば、オンラインストレージサービスを利用するという選択肢もある。

 ビッグデータを保存するに当たっては、データが増えてもストレージの管理が複雑にならないことが望ましい。コンプライアンスやセキュリティなど、ある程度ストレージ管理に工数が掛かることは仕方がないが、数百テラバイトやペタバイトの規模になると、ファイルシステムやボリューム管理のために管理要員を増やさないと対応できなくなる恐れがある。ストレージにはそれぞれファイルシステムや管理ツールがあるので、日々の運用が負担にならないものを選びたい。

 ビッグデータはその性質上、データがどれだけ増えるのか予想しづらい。一方で、巨大なストレージを最初から用意することも難しい。できれば導入当初は最小限の容量を用意し、データ増に合わせて簡単に増設できるストレージが望まれる。データの増減に合わせて必要な容量を柔軟に割り当ててくれるオンラインストレージが一例だ。また、エンタープライズの利用環境では、ダウンタイムや性能低下を伴わずに容量を追加できることも重要である。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。