限られたデータで何とかする

データ分析をするすべての人に共通する悩みが、「信頼できるデータが不足している」ということである。データを集めることは簡単だが、果たして有益なデータを集められているか?と言われるとそれは別問題なのである。具体的には

・データの品質に問題がある:欠損値があったり、値が標準化されていない。例えば、1〜5点評価のはずなのに6や0混ざってるレビュー評価。業種の項目に「金融」と「銀行」という重複しつつ、粒度の異なるデータ値が混在する。

・データの網羅度が不十分:上記の品質面は問題ないが、一部の地域に対してしかデータがない。例えばヨーロッパ全体の分析をしたいが、オランダとドイツのデータしかない。

この状況はしょっちゅうあり、データ分析者は、データがないから分析ができない、まずはデータ収集プロジェクトが必要だからです、ビジネスのオペレーションを変えて、プロセスを全社統一して、かち標準化して、かつデータエンジニアを5人採用して、DatawarehouseとSchrduling toolに投資してもらわないといけないから、計1 millionくれと経営陣に頼むことが多々ある。

しかしながら、見返りが不明確なこの投資案件に容易に1 million投資する経営陣はそうそういないし、安易にいいよ!というようであれば経営者とし問題があると言わざるを得ない。

さてでは他に策はないのかというとあるのである。仮にデータ分析プロジェクトの目的外「携帯電話の顧客離反を減らす」であるとして、上記の問題を抱えているのが、「離反理由データ」であるとする。この企業では、顧客が携帯電話の解約を申し込むごとに、解約理由を選択させる。さしずめこんな感じ:

解約理由を以下から選んでください

1.料金が高い

2.サービスに不満がある

3.使用頻度が減った

4.通信状況がよくなう

5.その他(詳細をご記入ください)

よく見るやつである。そしてこれは架空の設定であるし、私は携帯電話会社に務めたことはないが、どの答えが一番回答が多いか当てることができる。答えは1である。それはなぜか。回答者は真面目に答えるために問題と回答項目の中身を読むのに時間を使いたくないから一番上の選択肢を選ぶからである。

さて、このアンケートで集計したデータを分析して、「料金が高いというのが問題だから価格設定を見直しましょう!」とぶち上げるとどうなるか。会社全体が戦略レベルで大いなる間違いをおかし、愚策を連発するのは目に見えている。かつもしも3つある展開地域のそれぞれが異なるアンケート項目を持っていたらどうなるだろう。3社が合併してできた携帯電話会社であったなら容易にありえるシチュエーションである。そうするとその3つの異なるアンケートで集計されたデータのマッピングをしてなんとか3域を網羅するデータを作り上げることになりが、信頼度はさらに落ちるのは目に見えている。

前置きが長くなったが、ソリューションとしては、このアンケート結果データは使わずに、トランザクションデータからカテゴリ値を作り出すのが良い。トランザクションデータは絶対に嘘をつかない。常に正しいのである。それはなぜか。トランザクションデータが間違っていたら、もっと前にもっと大きな問題が起きているはずである。そもそもビジネスが回らないとか、会計監査で指摘されるとか。なのでよっぽどデータ準備の段階でヘマをしていない限りトランザクションデータは絶対に大丈夫なのである。かつKPIに使われる超主要なトランザクションデータ、売上金額や顧客数、注文数というのはデータ分析組織がまず最初に着手するデータだし、それだけ色々な人の目で監視されてるので、どうやっても品質は高いのである。

さてトランザクションデータを使ってカテゴリ値を作るというのはRFM分析と同じ要領である。

https://www.albert2005.co.jp/knowledge/marketing/customer_product_analysis/decyl_rfm

携帯電話の解約日時を起点として、それ以前一年間の通話回数、使用金額などのトランザクションデータを顧客ごとに集計する。使用金額が重要な指標なので、以下のような5ランクのカテゴリを作る

・0〜1000

・1001〜 5000

・5001〜10000

・10001〜50000

・>50001

金額は日本円のイメージです。そうすると、あま売上に貢献しないさいしょの2カテゴリーは捨てて、残りの3つにフォーカスしようね、という取捨選択ができる。さてでは残りの3つのカテゴリーに見られる行動パターンはないか、解約を予兆するシグナルはないか。。

探すのである。実際にパターンやシグナルが見つかるかは保証できないが、上述した1 millionの投資を求めて騒ぎ立てるよりはるかにスマートなアプローチである。