データ分析はコストと時間を必要とし、必ずしも結果が得られる保証はありません。したがって、無計画に分析を始めると、失敗やトラブルに見舞われるリスクが高まります。
この記事では、最初の段階で依頼主と合意しておくべき内容と、データ分析においてよくある落とし穴について紹介します。
はじめに

データ分析はビジネス課題を解決する手段ですが、コスト(人件費、分析ツール、クラウド利用料など)と期間が必要です。
また、データ分析はシステム開発とは異なり、必ずしも結果が出るとは限りません。むしろ、結果が出ない(課題解決に貢献しない)ケースも少なくありません。
よく、「データがあるからデータ分析して何か結果を出してください」という漠然とした依頼がありますが、これはタクシー運転手に対して、「どこか良い感じのところに連れて行って」とお願いするようなものです。
もちろん、やってみないと分からないことが多いのも事実です。だからこそ、最初に問題を整理し、依頼主と正しい取り決めを行うことが重要です。
事前取り決めすべき項目

分析着手にあたり、できるだけ次の内容を取り決めるようにします。
- 対象業務の理解
- 課題整理と目的の明確化
- 課題解決策の検討
- 分析方針の決定
- データと分析環境の確認
- 分析期間とゴールの設定
- 分析サイクルの設定
- 概算見積り
対象業務の理解
対象業務の理解とは、データ分析を行う対象となる業務やプロセスについて、その性質や機能、運用体制、ビジネス上の重要性などを理解することです。
対象業務が何を行っているのか、その目的や機能を理解します。たとえば、生産設備の場合、製品の生産や加工を行っているか、稼働時間や生産ラインの配置、作業手順や品質管理のプロセスがどうか、保守や点検がどうなっているのかを確認します。さらに、ビジネス上のインパクトや他社との競争力についても把握しておきます。
課題整理と目的の明確化
ビジネス上の課題を洗い出し、その難易度とビジネス上のインパクトを考慮して解決するための優先順位を決めます。次に、各課題ごとに対象となる範囲を明確に定義し、分析に取り組むべき領域を絞り込みます。
課題が明確になったら、その目的も明確に定義しておきます。分析の過程では、しばしば目的を見失うことがありますので、この作業は非常に重要です。
課題解決策の検討
解決策を検討する際には、データ分析以外のアプローチや手法も含めて総合的に判断することが重要です。
データ分析は有用なツールですが、時には他のアプローチがより効果的な場合もあります。例えば、新たなソフトウェアやハードウェアの導入、新たなシステムの開発や既存システムの改修、業務プロセスの改善、組織文化の変革、新たなビジネスモデルの構築などのアプローチも併せて検討しましょう。
同時に、その対策に必要となる期間とコスト、想定されるリスクについても検討するべきです。これらを総合的に考え、最適な解決策を見つけることが重要です。
データと分析環境の確認
分析に関係するデータを列挙し、入手可能なデータの手配を行います。この際、データの受け渡し方法だけでなく、データの規模と品質、信頼性、機密性(データの種類、データ件数、データ発生源、発生頻度、個人情報や機密情報の有無など)についても確認しておきます。
次に分析環境を取り決めます。データ量や個人情報/機密情報の有無に応じて、保存場所と保存方法が変わります。
例えば、データはCSVファイルとしてファイルサーバに保存しアクセス制限をかけるのか、あるいはクラウド上のデータベースに格納するのかなどです。それぞれ料金も異なりますので、データと合わせて取り決めておきましょう。
分析方針の決定
ここまでの手順で、業務課題と目的、解決策が定義され、利用可能なデータも明確になっているはずです。この時点で、どのようなアプローチ(手段、アルゴリズム)を用いて、どのような分析モデルを構築するか、いわゆる分析方針を決定しておきます。
この段階では、「決定木を使って隠れたルールを見つけ出す」、「決定木系アルゴリズムを使って回帰分析する」、「One Class SVMを使って時系列分析を行う」程度の大枠で構いません。
作業を進めていくうちに方針が変わることも多いため、あくまでも暫定的な決定となります。
「数学や統計学に基づいて作成された計算式や手順」がアルゴリズムです。
「インプットされた情報にアルゴリズムを適用し、要求された形式でアウトプットするまでの一連の手順を実行するもの」が分析モデルです。
ただし、アルゴリズムと分析モデルは同じものとして扱われることも多いため、それほど厳密に意識する必要はありません。
分析期間とゴールの設定

データ分析は結果が出る保証がないといいましたが、言い換えるとギャンブル的な要素を多分に持っています。これは、期限を設けないとコストと期間が青天井になる危険性があります。
従って、分析着手時に期間とゴールを仮置きし、それに達した時点で継続の有無を再検討し、次の期間とゴールを設定するといった方法をとります。
この期間はプロジェクトによって異なりますが、よほど大規模なプロジェクトでない限り、3か月から半年を目安としているところが多いようです。
一方、ゴールは予測や分類に関する精度を具体的な数値で仮置きします。例えば、「予測精度を90%以上にする」「分類精度80%を目指す」などです。
分析サイクルの設定

分析期間中は試行錯誤を繰り返すことになりますが、その際に分析上の課題やデータ上の疑問が生じたり、時にはこれ以上分析できないといった事態も想定されます。
刻々とした状況を関係者と共有し、最適なルートでゴールを目指せるよう、定期的に関係者を集めて状況報告と次の一手を確認し合うための会議を設けることが一般的です。
会議の開催間隔はプロジェクトの進行状況やニーズに合わせる必要がありますが、特に指定が無ければ2~3週間ごとに開催するケースが多いです。ちなみに、2~3週間の分析と報告を1サイクルとして、イテレーションと呼んでいます。
概算見積り
ここまでの取り決めが完了したら、おおよその工数が算出できるかと思います。データ分析に参加する人数と期間、必要な設備やリソースなどを列挙し、分析に掛かる工数や費用を見積もりましょう。
多くの場合、分析に関する予算があらかじめ決められており、受け手側も工数を意識して作業するようになります。これにより、コストオーバーのリスクを回避することができます。
(参考)データ分析プロジェクトの落とし穴

データ分析を行う上でよくある落とし穴について列挙してみました。
目的が不明確
目的が不明確なままプロジェクトを進めると、ビジネスの課題に対する解決策がぼんやりとしたものになり、成果物の価値が下がったり、間違った成果物を作成するなどの失敗につながります。プロジェクトの目的を明確に定義し、ビジネスのニーズや課題に焦点を当てることが重要です。
データ品質が低い
データの品質が低い場合、分析結果の信頼性が損なわれます。データ量が少ない、不正確なデータが含まれる、欠損値が多いなどの場合、正確な分析が困難です。データ収集方法や保管方法の改善、データクレンジングなどを通じて、データ品質の向上を図る必要があります。
過剰な期待
データ分析は強力なツールですが、それ自体は手段に過ぎず、ビジネス価値を生み出すためのものです。全ての問題や課題に対して即座に解決策を提供できるわけではなく、期待外れの結果も考えられます。過剰な期待を持つことで、失望や挫折感を感じる可能性が高まります。
コミュニケーション不足
データサイエンティストとビジネス側のコミュニケーションが不足すると、誤解が生じ、プロジェクトが間違った方向に進むことがあります。適切なコミュニケーションを行い、プロジェクトの目標や進捗状況、課題を定期的に共有することが重要です。
誤った分析手法の選定
目的や問題の性質に適した分析手法を選ばないと、コストに見合った結果が得られなかったり、結果が出なかったりします。適切な分析手法を選定するためには、事前の調査や評価が重要です。また、専門知識を持つデータサイエンティストやアナリストの助言を求めることも有効です。
分析完了をゴールと勘違い
データ分析は単なる手段であり、ビジネス目標達成のためのものです。データ分析の結果が出たら終わりではなく、分析結果をビジネスに活かすことが最終目標です。
運用イメージの欠落
データ分析の結果は現場で活用されてこそ価値がありますが、現場は常に変化しており、それに伴い分析に用いたデータも変化します。現場での導入後の運用イメージが欠如していると、導入しても一過性で終わる可能性があります。分析結果をどのように活用するか、どのような変化や課題が予想されるか、必要なリソースやプロセスについて日頃から意識しておきましょう。
過剰な予測精度
最初に設定した予測精度が高すぎる場合、達成が困難であったり、予想外のコストや期間がかかることがあります。ビジネス課題を達成するために必要な精度を見極めることが重要です。また、分析過程で精度達成が難しいと判断しても、他の用途で利用できる可能性があります。柔軟な視点を持つことが重要です。
まとめ
本記事では、データ分析を成功させる上で、事前に取り決めるべき以下の内容を解説しました。
- 対象業務の理解
- 課題整理と目的の明確化
- 解決策の検討
- データ入手と分析環境の決定
- 分析方針の確定
- 分析期間とゴールの設定
- 分析サイクルの確立
- 概算見積り
また、よくある落とし穴として、以下の点を紹介しました。
- 目的の不明確化
- データ品質が低い
- 過剰な期待
- コミュニケーション不足
- 誤った分析手法の選定
- 分析完了をゴールと勘違い
- 運用イメージの欠落
- 過剰な予測精度
データ分析はビジネス課題を解決するための手段であり、コストと期間が必要ですが、必ずしも良い結果が得られるわけではありません。従って、後々のトラブルを避けるためにも、事前の取り決めが重要です。
コメント