[データ入門]データの線形な関係を見定めよう!相関係数を理解する

データの直線的な関係を考える

「相関がある」と言うフレーズを聞いたことはありませんか?
例えば「身長と体重」、「家の広さと家賃」、「最高気温とアイスの売れ行き」などは相関があるとされます。

数学・統計において相関とは一方の値が大きくなるにつれ、もう一方の値が増加(減少)する傾向にある状態を指します。
また、その傾向の強さを示すために相関係数という指標が存在します。
言葉の説明で理解するのは難しいので、図で見てみましょう。
(単に相関係数というと一般にピアソンの積率相関係数を指します。そのほかにも相関係数にはいくつか種類が存在しますが今回はピアソンの積率相関係数について紹介します)

これは散布図というグラフで、二変数のデータの散らばり方や関係を見るのに用いられるものです。一つ一つの点がそれぞれのデータを表しています。
上図のように一方の値が大きくなるにつれてもう一方の値も大きくなる相関を正の相関があるといいます。
逆に下図のように減少傾向のものは負の相関があるといいます。

このように相関係数は増加傾向にある者は正、減少傾向にあるものは負の値をとり、-1から1の範囲に収まります。
相関係数の絶対値が1に近づけば近づくほどデータは直線に近い形を取っていることが見てとれます。

実際に相関係数を計算してみよう

相関係数のことがなんとなくでも掴めたところで計算式を紹介しましょう。
相関係数は

$$\bf\LARGE 相関係数(x,y)=\frac{共分散(x,y)}{標準偏差(x)\times標準偏差(y)}$$

$$\bf\LARGE 共分散(x,y)=(データの平均との偏差(x)\timesデータの平均との偏差(y))の平均値$$

で表されます。

男性20人の身長と体重のデータを例に見てみましょう。

データ 身長の偏差 体重の偏差 身長の偏差^2 体重の偏差^2 身長の偏差
×
体重の偏差
身長(cm) 体重(kg)
175.3 75.1 3.65 10.64 13.3225 113.2096 38.836
169.4 65.7 -2.25 1.24 5.0625 1.5376 -2.790
173.3 64.1 1.65 -0.36 2.7225 0.1296 -0.594
163.1 61.2 -8.55 -3.26 73.1025 10.6276 27.873
167.5 58.8 -4.15 -5.66 17.2225 32.0356 23.489
170.8 59.2 -0.85 -5.26 0.7225 27.6676 4.471
165.9 60.4 -5.75 -4.06 33.0625 16.4836 23.345
177.9 76.8 6.25 12.34 39.0625 152.2756 77.125
173.2 68.2 1.55 3.74 2.4025 13.9876 5.797
182.5 78.3 10.85 13.84 117.7225 191.5456 150.164
170.5 73.3 -1.15 8.84 1.3225 78.1456 -10.166
172.9 57.0 1.25 -7.46 1.5625 55.6516 -9.325
168.8 53.8 -2.85 -10.66 8.1225 113.6356 30.381
176.5 67.8 4.85 3.34 23.5225 11.1556 16.199
168.1 58.5 -3.55 -5.96 12.6025 35.5216 21.158
178.0 69.6 6.35 5.14 40.3225 26.4196 32.639
167.1 56.0 -4.55 -8.46 20.7025 71.5716 38.493
167.5 54.3 -4.15 -10.16 17.2225 103.2256 42.164
174.9 70.4 3.25 5.94 10.5625 35.2836 19.305
169.8 60.7 -1.85 -3.76 3.4225 14.1376 6.956

データの散布図は右のようになります。

なんとなく右肩上がりな散らばり方をしているように見えます。
正の相関がありそうですね。実際に相関係数を算出してみましょう。

身長の標準偏差は4.71、体重の標準偏差は7.43、身長と体重の共分散は26.78であるため、
相関係数は\(\large\frac{26.78}{4.71*7.43}\simeq0.765\)となります。
予想通り強い正の相関がみられました。

身長が高い人の方が体重が重たい傾向にあるというのは自然に想像がつきますね。政府の統計データを公開するe-Statなどを利用して皆さんも様々なデータを用意して意外な相関関係を探してみてくださいね。

次の散布図のうち正の相関があるといえるものはどれでしょう?
(x軸は右方向が正、y軸は上方向が正であるとします)
データ入門9
{{quiz}} {{maxScore}}問中{{userScore}}問正解!
{{title}}
{{image}}
{{content}}

ライター:H.I