[グラフ入門]箱ひげ図を読もう

下のような図を見たことがあるでしょうか。これはデータの要約統計量を比較・確認するために用いられる箱ひげ図というものです。

四角形で囲まれた部分を、箱から伸びているT字の脚をひげといいます。
また、箱ひげ図にはいくつか種類が存在しますが、今記事では外れ値について扱うことのできるものをご紹介します。

箱ひげ図の各要素の意味

(1)最小値※   (2)第1四分位点 \(Q_{1/4}\)   (3)中央値 \(Q_{2/4}\)    (4)第3四分位点 \(Q_{3/4}\)   (5)最大値    (6)外れ値

※外れ値を除く

四分位数と四分位範囲

四分位数というのはデータを昇順にソートし、四等分したときの場所にあるデータのことです。

101個データがあれば26番目のデータが第一四分位数\(Q_{1/4}\)、51番目のデータが第二四分位数(中央値)、76番目のデータが第三四分位数 \(Q_{3/4}\) となります。
(これに倣って最小値を0分位数、最大値を1分位数と表すこともあります。)

四等分したときの場所が、データとデータの間になる場合は前後のデータをもとに線形補間します。
偶数個のデータから中央値を算出した際に平均値をとったのと同じ動作ですね。

また、第三四分位数と第一四分位数の差を四分位範囲(IQR)と呼びます。
$$IQR = Q_{3/4}-Q_{1/4}$$

範囲と外れ値

今回のデータであれば最小値はおよそ3、最大値はおよそ15であることが読み取れます。

ただし、これらの値は外れ値を含まない最小値と最大値です。(箱ひげ図によっては純粋に最小値・最大値までひげを伸ばすものもあります。)
外れ値とはデータの中で極端な値のことで、測定や記録のミスによる異常値の可能性なども考慮して無視する場合もあります。
箱ひげ図を描く際の外れ値の判定は以下の区間に含まれるかどうかとするのが慣例です。

$$ [Q_{1/4}-1.5IQR, \hspace{5pt} Q_{3/4}+1.5IQR ] $$

さまざまな箱ひげ図

外れ値に関する表示のほかにも箱ひげ図にはさまざまな種類があります。
箱やひげの形が異なるものや、用途によっては各要素の指し示す値が異なるものも存在します。

また、箱ひげ図は一般に平均値を読み取ることができませんが、点線や×印で平均値をマークしているものもあります。
箱ひげ図を読む際にはどの部分がどういった値を表しているのかよく確認しましょう。


一見読みにくい箱ひげ図ですが、五数要約の可視化手段として頻繁に使われます。
見た目に難解さに挫けず、さまざまな表やグラフと仲良くなっていきましょう。

下の箱ひげ図であらわされるデータの四分位範囲は次のうちどれでしょう?
※ただし、箱ひげ図の示す値は記事中に紹介した通りとします。
データ入門10
{{quiz}} {{maxScore}}問中{{userScore}}問正解!
{{title}}
{{image}}
{{content}}

>データサイエンスのほかの記事を読む
>開発者ブログのほかの記事を読む

ライター:H.I