[データ入門]さまざまな代表値(2) 中央値

今回は代表値のひとつ、中央値についてご紹介します。
中央値はその名の通り、データを順に並べたときに中央にある値のことです。

例えば以下のデータの場合

3, 1, 4, 2, 5, 1, 2, 4, 3, 6, 2, 2, 6

順に並べると
1, 1, 2, 2, 2, 2, , 3, 4, 4, 5, 6, 6
|ーーー6個ーーー| 中央 |ーーー6個ーーー|

となるため、中央値は3となります。
では、大きさが偶数のデータはどうなるでしょう。
先ほどのデータに一つ2というデータを加えてみると次のようになります。

1, 1, 2, 2, 2, 2, ,, 3, 4, 4, 5, 6, 6
|ーーー 6個 ーーー| 中央 |ーーー 6個 ーーー|

中央の値が二つになりました。こういった場合は二つの値の算術平均をとって中央値は\(\frac{2+3}{2}=2.5\)となります。

中央値は平均値と類似した目的で用いますが、データの性質によって使い分ける必要があります。

例えば、データそのものの変化を調べる場合には平均値の比較が適切ですが、平均値は外れ値(ほかのデータとかけ離れた値)による悪影響を受けやすいため、外れ値の存在するデータの特性の確認には中央値が適切です。

1, 1, 2, 4, 5, 5, 6, 8, 8, 1000 ←外れ値
たとえば、上のデータでは平均値は104となりデータに含まれる値とあまり関係のないものとなりますが、中央値は5となりデータの性質を示すのに役立ちそうです。

中央値は結局のところ一つ(あるいは二つ)のデータを参照しているだけなので、外れ値による悪影響を受け難いのです。

慣れ親しんだ平均値以外の見方もどんどん覚えてデータから価値を創出していきましょう。

次のデータのうち、平均値が7、最頻値が5、中央値が6のデータはどれでしょう?
データ入門6
{{quiz}} {{maxScore}}問中{{userScore}}問正解!
{{title}}
{{image}}
{{content}}

ライター:H.I