資料の紹介
データに基づく意思決定の重要性が指摘されて久しい。だが、データの品質が低いと、かえって意思決定の間違いや機会の逸失につながってしまう。顧客情報が古く不適切な製品を提案してしまったり、スプレッドシートへのデータ入力にミスがあったことで誤った結論を導き出してしまったり、といった具合だ。
ラベルなしデータ、不完全な値や欠損値、データの重複、古いデータ、未整理のデータなど、データ品質の問題を抱える企業は多い。逆に言えば、この問題を解決すれば競争優位を獲得できるということでもある。データ品質向上の機会は大きく2つあり、1つめはデータウエアハウスなどに取り込む際の前処理の段階、2つめは、エンドユーザーが分析、機械学習、AIなどに使えるようデータを準備する段階だ。
本資料では、2つめの段階におけるデータ品質向上に関して、データサイエンス、機械学習、AIといったユースケースを成功に導くための方法を解説する。データ品質は、各業務で成果を出す要件であると同時に業務プロセスの結果でもあるため、データ品質向上の作業を業務プロセスに組み込んでいくことが重要と指摘したうえで、具体的なアプローチを5つのステップで示す。





