机上の空論ではなく実践に根ざした「仮説」がポイント
次に、立案した仮説を立証可能なデータを収集、加工し、データ活用方法を設計します。
実際には、集めたデータから意味のある情報を取り出すために、“雑音”となるデータを取り除く作業(データ・クレンジング)がこのプロセスではかなりの割合を占めます。例えば、手元に集めたデータに空欄(欠損値)がある場合の対処方法を具体的な事例で考えてみましょう。
フロリダのウォルト・ディズニー・ワールドでは、無線ICタグ(RFID)を内蔵したリストバンド「MagicBand」を新たに導入し、身に着けたゲストにさまざまなサービスを提供しています。たとえば、アトラクションでの待ち時間を予測し、さらに子どもの誕生日や購入・行動履歴から好きなキャラクターを推定して、待ち時間の発生するタイミングでそのキャラクターが誕生祝いに駆けつけるといった具合です。
ここで使われる登録情報のうち、年齢が抜け落ちていた場合、その欠損値を補完するためにデータを加工しなければなりません。生年月日から年齢を求めて補完したり、父親や母親の年齢情報を参考に推定して補完したりする方法が使われています(参考:At Disney Parks, a Bracelet Meant to Build Loyalty (and Sales))。
続いて、多角的にデータの組み合わせを試行し、仮説を統計学的に検証、最終的には課題に対する施策と期待できる成果を提示し、結論、方針の意思決定につなげるのがデータサイエンティストの業務の流れです。
データ分析では、「こんなにたくさんのデータが集まったから、これを分析して何か気づきを得られないだろうか」という“データありき”の発想でプロジェクトを立ち上げてしまうケースがあるかもしれません。それに対しアクセンチュアは、「“データありき”の考え方では、大規模なシステム投資をしても宝の持ち腐れになる危険性がある。机上で空論を振りかざすのではなく、実践を通して試行を繰り返し、成果につながる仮説を得ることが大切であり、そこから始めることが重要だ」(工藤)と警鐘を鳴らしています。
Comment submitted
Submitted comment may not display automatically.