エンタメ

その2つのデータに関連あり!相関係数を出してみよう

自己紹介

こんにちわ!D2C ビジネス エンジニアリング部所属、データソリューションチームで分析を担当している2年目のミノリです。 好きなものはパンケーキと和菓子とJava。好きな飲み屋街は大森駅の地獄谷。文系出身で数字の弱さを克服するため絶賛修行中!毎朝、遅刻気味の先輩達と共に機械学習やデータ分析に奮闘しています。
データ分析の面白さは数値を組合わせる事で、見えなかった傾向や予測が生まれて新しい展開が広がることです。今回は、手近なデータで関係性がわかる手法と気を付けるポイントをご紹介します。

どれが効果がいいの?に数値で答える

データをみた時に、「Aの数値が減った時、Bも減っている」(または増える)というのを”相関関係”がある、といいます。
あるECサイトの広告出稿量と売上のデータをみてみましょう。
<ECサイトの各媒体出稿量×売上>
「アプリ」「テレビ」「雑誌」にどれくらい広告を出したか、それと商品の売上データになります。アプリにたくさん露出しているみたいだし、このままアプリに出しておけばいいのでは?って感覚で物を言うと明日、会社のデスクがなくなっている可能性があるので、まずは 『各媒体×売上』で散布図を作成します。

散布図はExcelのグラフツールから選択可能です 。

各グラフに傾向線を引いてみると、アプリとテレビは 同じ右上から左下へと伸びています。つまり、出稿量が上がれば売上も上がっていると言えます。ただ、雑誌は真ん中に線が引かれて他の2つのグラフとは違う形になりました。結局、アプリとテレビ、どっちに多く出稿したらいいの?

相関係数を算出

そんな時に相関係数を出すことで、関連性の高さを判断することができます。相関係数は −1 から 1 の間で実数値が出るもの。
結果をみた時に、0.7以上は強い相関、0.4以下は弱い相関、0.2以下はほとんど相関なし…と一般的に言われています。

Excelだと、COREEL関数( =COREEL( 出稿媒体の列を指定, 売上の列を指定 ) )で算出できます。

結果をまとめたのが以下です。
  • アプリ = 0.94
  • テレビ = 0.89
  • 雑誌  =-0.04
アプリが最も1に近い為、出稿量を増やせば売上も伸びそうだとわかりました。

本当にそれ関係してる?!因果関係の落とし穴

相関係数の出し方もわかったので、世の中の関係ある事象をどんどん探ってみます!下のデータを見てください。

[年度別:巨人の盗塁数×米の消費額(2000~2017年)]

参照:総務省統計局/1世帯当たり1か月間の収入と支出 (二人以上の世帯のうち勤労者世帯 :支出項目[米])
参照:一般社団法人日本野球機構

盗塁率とお米の支出はがきれいに斜め右上に上がっています。相関係数は0.72でした。原辰徳監督に教えないと!
そんな関係性はありえなさそうですよね。上の例の通り相関係数が高かったとしても結果でしかなく、その2つに因果関係(Aの事象が起こると必ずBも起こる)があるとは言い切れません。単に偶然の場合もあります。 下の例はどうでしょうか。
  • ダイエット食品を食べている人は太っている
これは、ダイエット食品を食べたからではなく、太りがちな人が痩せたくてダイエット食品を食べているのでは?ということで逆の因果関係が考えられます。

まとめ

相関係数が高いだけでは、データに関連があるとは言えません。因果関係の中にある要素の1つが相関係数です。因果を証明する一歩として相関係数を活用しデータを掘り下げてみましょう。