本連載は、企業のデジタルマーケティングを支援してきたNexalが、データをビジネスに結びつけるために必要な環境づくりや有用なツール、その正しい使い方を解説する。第2回では、データ活用で不可欠な「データクレンジング」を取り上げる。

(出所:123RF)
(出所:123RF)

 「データクレンジング(Data Cleansing)」は「データの正規化」とも呼ばれ、複数のデータベースを統合したり、データ分析ツールに投入しやすい形に整えたりする作業を指す。さらにデータの誤り修正や、表記揺れの統一なども含んでいる。

 データの正規化がなされていないデータベースを使っていたのでは、正しい分析はできない。それほど重要な工程だが、その必要性や発生する手間とコストを理解できていない経営層が多い。

 データ活用の前段階として大きな意味を持つデータの正規化について、どのような問題があり、どのような工程で進めていくべきかを解説する。

特定業務向けのデータベースをマーケに“使える”形に整えよ

 私たちNexalは、これまで数多くの企業の受注分析を支援してきたが、企業がデータベースに蓄積しているデータに、正規化が必要なかった例は1つもない。それほど企業内のデータの多くは、マーケティングには活用しづらい状態で放置されている。

 というのも企業内のデータベースは、請求処理や顧客サポートなど個別の業務のために構築されているのが一般的なためだ。目的とする業務で滞りなく使えれば、データの論理的整合性や正確さを重視されないことが多い。

 しかしデータベースに蓄積されたデータを正規化しないまま、ほかの用途で活用しようとしても、多くの場合で問題が発生する。活用前にデータの正規化が必要であり、しかも正規化された状態を維持していく作業が必要となる。

 消費者向けのビジネスを展開するA社の例を紹介しよう。A社は商品を顧客に配送するため、数万件の顧客リストを持っている。このリストを新規商品のマーケティング活動に使おうと確認したところ、データに不備が多く、しかもデータの正規化に相当なコストがかかることが判明した。

 例えばある消費者は、姓が「佐」、名が「藤裕之」、住所の都道府県が「東京都品」、市区町村郡が「川区」という状態で保存されていた。商品の配達用途なら、複数のカラム(に入力された文字列)を並べて印刷すれば、宛先の住所や氏名に齟齬(そご)はなく、支障を来さないだろう。

 しかし、これをメールマガジンの文面に利用した場合、本来「佐藤 様」と書くべき宛先が「佐 様」となり、大変失礼なものになってしまう。また、市区町村郡が誤っている状況では、どの地域に顧客が集まっているかといった分析は不可能だ。

 BtoBの場合は、さらに複雑となる。ビジネスの現場でやり取りされる名刺に書かれた情報をデータ化すれば問題はないように思えるが、実はそうではない。

 社名では、「商号など正式名称」と「名刺に記載している名称」が異なっている企業が少なくない。(例えば、日経BPは名刺には「株式会社日経BP」と表記しているが、商号は「株式会社日経ビーピー」である)。住所の表記も企業によって「二丁目3番7号」と「2-3-7」というように違いがある。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。