Skip to main content Skip to Footer

LATEST THINKING


データサイエンティストの仕事の流れを知ろう

女性のためのアナリティクス基礎講座:開催レポート(3)

概要


データサイエンティストの仕事に興味がある。また、多様な人材が持続的に働ける環境やワークスタイルの実現に積極的にかかわり、貢献したい――。そのような女性を対象に、アクセンチュアのアナリティクス部門は2014年5月、無償セミナー「女性のためのアナリティクス基礎講座」を東京都内で2日間にわたって開催。製造、金融、情報サービス、通信、流通などさまざまな業種の企業や、中央官庁、地方自治体、医療機関、NPOなどで活躍中の36名が参加しました。

この連載では、このセミナーで取り上げた4つのトピックを順番に紹介していきます。第3回目の本稿は、データサイエンティストの仕事の流れを解説します。

データ分析は専門家だけの仕事にあらず

社内外にある膨大なデータを活用して新たなビジネス価値を生み出すことは、企業や組織で働くビジネスパーソンにとって避けて通れない課題になりつつあります。

ただ、いざ「データ活用」に取り組もうと書店で本を開き、ネットで情報を集めるなどのアクションを起こすと、「標準偏差」「正規分布」「頻度論」といった統計用語から、「多変量解析」「探索的データ解析」「機械学習」「集合知プログラミング」まで、聞き慣れない用語の嵐。その難解そうな響きに、拒否反応を起こしてしまう人も少なくないでしょう。

「データ分析はデータサイエンティストなど専門家に任せればいい」と思われるかもしれません。アクセンチュア・アナリティクス日本統轄の工藤卓哉は「ビジネス領域におけるデータ分析は、企業戦略や業務プロセスでの意思決定を支援するためのもの。着実に成果を得るには、企業の経営層や情報システム部門の担当者、業務現場の担当者などがチームとしてプロジェクトに参加し、“ビジネス活動のためにデータを分析しているのだ”と常に意識してプロジェクトを遂行する必要があります」と指摘しています。

データサイエンティストという専門家だけでなく、多くのビジネスパーソンにいま求められているデータ分析力。そこで、「人々の行動や結果を示す膨大なデータの中から相関を見つけ、自社にとって市場競争で生き抜くためにどのような戦略が必要か、仮説を立てる」という、データサイエンティストの仕事の流れを見てみましょう。

まずは仮説を立てる

まず、解決すべき経営課題を把握し、ビジネスで成果を上げるためにどうするべきかという仮説を立案します。

ここで最初に行うのは、ビジネスゴールを達成するためにどういう手段をとるべきかを明確化し、洗い出した課題に優先順位を付けること。いわば“発射台を設定”する作業です。次に、ターゲットとする課題、達成目標を明確化します。いわば“標的を明確化”する作業です。そうして、分析依頼者と分析者との間で、“発射台と標的”の認識を合わせます。これがプロジェクトの最初のヤマ場であり、ここでプロジェクトの成否が決まると言っても過言ではありません。

例えば、「クレジットカード会社の多大な未回収額を減らす」という課題を設定したとしましょう。このビジネスゴールを達成するためにとる手段は、滞納金額が大きい上にこれまで回収が困難だったところ、つまり回収できるようになれば最も大きな効果が出る部分を最優先で取り組みます。電話がつながらない顧客がいるという問題点に対しては、職種、世帯構成、時間帯などの情報を収集し、「ひとり暮らしのサラリーマンで自宅連絡先しか分からない場合、日中に電話してもつながらないケースが多いのではないか」というようなアプローチで、仮説を立てていきます。

図1 データ分析作業の全体像
まず解決すべき経営課題を把握し、ビジネスで成果を上げるためにどうするべきかという仮説を立案、次に立案した仮説を立証可能なデータを収集、加工し、データ活用方法を設計します。続いて、多角的にデータの組み合わせを試行し、仮説を統計学的に検証、最終的には課題に対する施策と期待できる成果を提示し、結論、方針の意思決定につなげるのがデータサイエンティストの業務の流れです。

実践に根ざした「仮説」が要点

机上の空論ではなく実践に根ざした「仮説」がポイント

次に、立案した仮説を立証可能なデータを収集、加工し、データ活用方法を設計します。

実際には、集めたデータから意味のある情報を取り出すために、“雑音”となるデータを取り除く作業(データ・クレンジング)がこのプロセスではかなりの割合を占めます。例えば、手元に集めたデータに空欄(欠損値)がある場合の対処方法を具体的な事例で考えてみましょう。

フロリダのウォルト・ディズニー・ワールドでは、無線ICタグ(RFID)を内蔵したリストバンド「MagicBand」を新たに導入し、身に着けたゲストにさまざまなサービスを提供しています。たとえば、アトラクションでの待ち時間を予測し、さらに子どもの誕生日や購入・行動履歴から好きなキャラクターを推定して、待ち時間の発生するタイミングでそのキャラクターが誕生祝いに駆けつけるといった具合です。

ここで使われる登録情報のうち、年齢が抜け落ちていた場合、その欠損値を補完するためにデータを加工しなければなりません。生年月日から年齢を求めて補完したり、父親や母親の年齢情報を参考に推定して補完したりする方法が使われています(参考:At Disney Parks, a Bracelet Meant to Build Loyalty (and Sales))。

続いて、多角的にデータの組み合わせを試行し、仮説を統計学的に検証、最終的には課題に対する施策と期待できる成果を提示し、結論、方針の意思決定につなげるのがデータサイエンティストの業務の流れです。

データ分析では、「こんなにたくさんのデータが集まったから、これを分析して何か気づきを得られないだろうか」という“データありき”の発想でプロジェクトを立ち上げてしまうケースがあるかもしれません。それに対しアクセンチュアは、「“データありき”の考え方では、大規模なシステム投資をしても宝の持ち腐れになる危険性がある。机上で空論を振りかざすのではなく、実践を通して試行を繰り返し、成果につながる仮説を得ることが大切であり、そこから始めることが重要だ」(工藤)と警鐘を鳴らしています。