[データ入門]さまざまな代表値(4) 分散・標準偏差
前回記事:[データ入門]さまざまな代表値(3) 最大値・最小値では、最大値と最小値の差から求められる範囲が簡易的にデータの散らばりを把握するのに役立つとご紹介しました。ではより詳しく散らばりを知るためにはどういった計算を行えばよいでしょう。そこで登場するのが今回紹介する分散という代表値です。
分散
分散は
$$\bf\LARGE 分散=(データの平均との偏差)^{2}の平均値$$
で求められます。
偏差とは、データそのものとデータにおける基準値(これまでに扱った平均値や中央値など)との差のことです。
※偏差値とは別の概念です。
以下のデータを用いて計算していきましょう。
データ | 13 | 10 | 7 | 14 | 8 | 10 | 15 |
---|
まずは平均値を求めます。
平均値は\(\large\frac{13+10+7+14+8+10+15}{7}=11\)です。
よって平均との偏差、偏差の2乗はこのようになります。
データ | 13 | 10 | 7 | 14 | 8 | 11 | 14 |
---|---|---|---|---|---|---|---|
平均との偏差 (データ-平均値) |
2 | -1 | -4 | 3 | -3 | 0 | 3 |
偏差の2乗 | 4 | 1 | 16 | 9 | 9 | 0 | 9 |
分散は偏差の2乗の平均なので、
このデータにおける分散は\(\large\frac{4+1+16+9+9+0+9}{7}=\frac{48}{7}\simeq6.857\)です。
標準偏差
また、同じくデータの散らばりを表す代表値に標準偏差があります。
標準偏差は
$$\bf\LARGE 標準偏差=\sqrt{分散}$$
で求められます。
先のデータの標準偏差は\(\large\sqrt{\frac{48}{7}}\simeq2.619\)となります。
分散・標準偏差はそれだけを見ても使うのが難しい代表値ですが、偏差値の計算や、二つのデータの関連性を見極める相関係数の計算に用いられるため、重要な代表値です。