相関に騙される?相関関係と因果関係を見誤らないために

相関係数は直線的な関係を見定めるのに役に立つ指標であることは[データ入門]データの線形な関係を見定めよう!相関係数を理解するでもご紹介しました。
しかしこれには意外な罠が存在しています。

そのためにまずは因果関係という観念を知る必要があります。
因果関係とは二つのデータの変動が「原因」と「結果」の関係にある状態を指します。

例えば「家の広さと家賃」は正の相関関係がありますが、これは家の広さが広くなったことで家賃が高くなる(家の広さ⇒家賃の高さ)という因果関係があります。
このように因果関係には方向性があります。家賃が上がったからといって家の広さが広くなるわけではないですからね。
そしてなにより、ここで勘違いしてはならないのは相関関係は必ずしも因果関係を持つわけではないということです。

いくつか例を見てみましょう。

疑似相関

「都道府県別のコンビニエンスストア店舗数と刑法犯認知件数」の相関を調べると散布図は右のようになります。
相関係数は0.944と強い正の相関があります。

では、コンビニが増えると犯罪が増えるのでしょうか。はたまた、犯罪が増えるとコンビニができるのでしょうか。
これはどちらも正しくありません。

コンビニエンスストアの店舗数も刑法犯の認知件数も同じ「人口」という因子と相関を持っています。共通の因子の存在によって、さも二つのデータに何らかの因果があるかのように見えているのです。
こういった相関を疑似相関と言います。

偶然による相関

「年別の紙巻きたばこの販売本数と日本国内死者数」の相関を調べると散布図は右のようになります。
相関係数は-0.973と強い負の相関があります。

では、たばこが売れると亡くなる人は減るのでしょうか。はたまた、人が亡くなるとたばこが売れるのでしょうか。
これももちろん正しくありません。

紙巻きたばこは、たばこ税の増税や電子タバコの普及によって販売本数が減少し、国内の死者数は高齢化の影響で年々増加傾向にあります。全く別の理由で時代の変化によって偶然にも強い相関が生まれているのです。


相関関係を見つけてもそれが疑似相関ではないか、偶然ではないかという視点を捨ててはいけません。
「数字は嘘をつかないが嘘つきは数字を使う」という言葉があるほど、統計的にデータを取り扱って自分の理論を補強するというのは容易なことです。
統計の基礎を押さえておくことで少しでも騙されない人間でいたいですね。

ライター:H.I