[データ入門]さまざまな代表値(1) 最頻値
これまで触れてきた幾つかの平均値などのように、データから求められるデータの分布の特長を示す値を代表値(要約統計量)と言います。
今回はそんな代表値の一つ、最頻値についてご紹介します。
最頻値は読んで字の如く、データのうち最も頻度の高いデータのことを指します。
例えば以下のデータ
3, 1, 4, 2, 5, 1, 2, 4, 3, 6, 2, 2, 6, 3
の場合それぞれのデータの個数は
データ | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
頻度 | 2 | 4 | 3 | 2 | 1 | 2 |
なので、2が最頻値となります。
最も個数が多い値が複数ある場合、最頻値は一意に定まらない場合もあります。
では、以下のようなでデータの場合はどうでしょうか。
0.12, 0.17, 0.25, 0.28, 0.33, 0.46, 0.58, 0.72, 0.89
データがこういった連続値の場合データが厳密に重複するということがまずありません。
そのため、値を幾つかの区間に分割させることがあります。上の例であれば
区分 | 0.0~0.2 | 0.2~0.4 | 0.4~0.6 | 0.6~0.8 | 0.8~1.0 |
---|---|---|---|---|---|
頻度 | 2 | 3 | 2 | 1 | 1 |
というように分割すれば、最頻値は0.2と0.4の算術平均をとって0.3となります。
このようにデータを区間で区切ってその個数を確認する表を度数分布表といいます。
(分割の仕方によって最頻値が変化するため区間の設定には注意を払う必要があります)
日本の初婚年齢のデータを例に挙げてみましょう。
区分 | ~19 | 20~24 | 25~29 | 30~34 | 35~39 | 40~44 | 45~49 |
---|---|---|---|---|---|---|---|
頻度 | 4,830 | 61,300 | 182,956 | 126,841 | 63,441 | 30,043 | 11,692 |
区分 | 50~54 | 55~59 | 60~64 | 65~69 | 70~74 | 75~79 | 80~ |
---|---|---|---|---|---|---|---|
頻度 | 3,991 | 1,667 | 972 | 613 | 194 | 95 | 43 |
(人口動態調査 / 人口動態統計 確定数 保管統計表 都道府県編(報告書非掲載表) 婚姻 2017年)
平均初婚年齢は31.2歳です。では、最頻値はどうでしょう。
最大の区間は25~29歳の区間です。よって最頻値は\(\frac{25+29}{2}=27歳\)となります。
代表値に4.2歳もの差が生まれました。平均値でなんとなく余裕を感じていても、最頻値は思ったより低いのです。焦りますね…
平均値が最頻値と比べてやや高めに出ていることから、代表値からも初婚年齢の分布は左に偏っていることが推測できます。
結婚する年齢に下限はあっても上限はないので当然ではありますね。
このように平均値以外の見方でデータは新たな顔を覗かせることもあります。
次回は中央値について紹介していきましょう。
ライター:H.I