いまはデータマイニングや予測の全盛期です。AIによる予測やデータマイニングの結果がしばしば一般向けのニュースになり、様々な人に読まれています。まさにAIブームが到来しています。
ただ一方で、マイニングやパターン解析などのデータ分析に関わった経験のある人なら、だれでもこの壁に突き当たった経験があるのではないでしょうか。
「当たり前の結果しか出てこない」
これもケースバイケースで、「とりあえずやってみた」ということであれば、むしろ当たり前の結果が出たほうが良いでしょう。誰もが納得する常識的な解が出たということは、つまり正しい手法で正しくデータを扱っているということです。特に、話題作りとして結果を発表する場合など、むしろ常識的な解が出るほうが安心感を持ってもらえます。
しかし、最新の手法を使い、費用と時間をかけて「人間では届かない」知見を得たいとするとき、当たり前の結果しか出ないのでは困ることもあります。最悪、「これなら別に必要ない」ということになってしまいます。
それでは、なぜそんなことになるのでしょうか?
多くの人は、データ分析による成果を分析の方法論に求めがちです。また、「分析としてはこれでベストだから」と考え、出てきた結果から何とか使える知見をを出そうと思い、頭を絞って解釈する人も多いでしょう。
しかし、世の中のいろいろなデータ分析の成果を見ていると、原因は分析手法や解釈の能力ではなく、分析によって解きたい「問いかけ」にあるケースが圧倒的に多いです。
分析したい質問が当たり前すぎるから、
当たり前の答えが出てくるのです。
では、「当たり前」の質問とは何でしょうか?
詰めきれていない質問
たとえば、・利益率を上昇させたいなどという質問には、人間同様、どんなAIや分析も常識的な結果しか返してきません。
⇒ 費用よりも売上を上げるか、売上よりも費用を下げなさい。
では、この質問の何が悪いのでしょうか?利益率を上げるには、売上を上げてコストを抑えるのは常識です。本当に知りたいのは、
どうすれば費用を抑えたまま売上が上がるのか?
または、売上を下げずにどのコストをどう削れるのか?
という質問への解だと思います。
そして、データ分析においてどんなモデルを組み、どう分析するかは質問の置き方によって違います。
・コストは削れないので、売上を上げるほうを重視したい
→ 主に販促面での売上分析を行うモデルが採用されます。
かかる費用は見込売上に従って計算されます。
・売上上昇は見込めないので、コスト削減を重視したい
→ 主に業務効率に係る費用分析のモデルになります。
売上は見込費用に従って計算されます。
どちらを重視するかで、モデルの構造や精度は大きく変わってきます。
売上を目的にするモデルでは、通常業務効率に係る細かい部分は見られません。
費用を目的にするモデルでは、通常販促の細かい部分は見られません。
なら、利益率を目的にすればいいじゃないか、と考えますが、そのモデルではテーマが大きすぎて、統計的な精度の限界を超えてしまう可能性が高いです。スコープを広くとりすぎたことで、販促、業務効率の細かい部分は捨象されてしまうか、信頼に欠ける結果になってしまい、概説的なことはわかるが、何にも使えないモデルになるリスクがあります。
二兎を追うものの例えもありますが、当たり前の結果を避けるには、まずは質問の範囲を明確にすることが重要です。
打ち手や目的につながらない質問
降水量が店舗売上に与える程度を知りたい
というのは、特に小売などでは重要な質問でしょう。
特に、曜日やキャンペーンなどの影響を除外したうえでさらに雨の影響を数値化できたら、店舗管理を行ううえでとても重要な指針になりそうです。
ただし、知っただけでは「ふーん」で終わってしまいます。たとえば、
「降水量30㎜までは平均-5%、それ以上の場合は平均-25%」
であることが統計的に高い精度でわかったとします。
しかし、厳しいようですが、これでは現場の感覚を数字で言い換えただけです。
具体的に言えば、これを知った後どうするのでしょうか?
「雨の予報の時は在庫を少し減らして発注を抑える」
「雨の悪影響を割引でカバーするので、割引率を決めたい」
など、降水量の影響を考えて行動したいと思う具体的な目的があるはずです。
その目的があるならば、はじめから「欠品リスク」や「割引時の客数増」を目的にしたモデルを組むべきで、降水量はあくまで在庫や割引効果に与える環境要因として分析に入れておくことが良いと考えられます。
そうすることで、
「降水量と欠品リスクの関係」や、
「雨の日と晴れの日の割引効果の違い」など、
知りたかったことにより役立つ結果すら見られるようになります。
0コメント