感度?適合率?偽陽性?精度を表す言葉が飛び交って混乱中のあなたへ

PCR検査の正確性の報道で様々な言葉を聞いた気がするけれどいつまで経ってもなにがなにやらという方は多かったように思います。
「そんないろんな言葉を定義しなくても合ってるか間違ってるかで正確性くらい出せるでしょ!」
「敢えて小難しくして分かり辛くしているんじゃないか!」
という気持ちもわからなくもないですよね。ですがこれにはもちろんきちんとした意味があるのです。
全て言葉を覚える必要はありませんが、少しでも意味を理解していると「なにがなにやら」からは抜け出せるかもしれません。
なぜ単に正解率だけで精度を出してはいけないの?
実際にPCR検査のような病気の検査を例に考えてみましょう。
ここに10000人の被験者がいます。そのうち病気にかかっている人は100人です。
検査Aはどんな人を検査しても陰性を出します。
検査Bは感染していない人のうち1%に陽性を、感染している人のうち60%に陽性を出します。
検査Cは感染していない人のうち3%に陽性を、感染している人のうち95%に陽性を出します。
検査Aはそもそも検査の役割を果たせていないですね。では正解率だけで精度を出して比較してみましょう。
検査Aの正解率は \( \frac{9900+0}{10000} = 99.0\% \)
検査Bの正解率は \( \frac{9900\times(1-0.01)+100\times0.60}{10000} = 98.6\% \)
検査Cの正解率は \( \frac{9900\times(1-0.03)+100\times0.95}{10000} = 97.0\% \)
検査Aが最も精度が高いという結果になってしまいました。これが正解率で精度を出さない理由です。
検査対象に対して病気にかかっている人は少ないのがこういった検査の常です。
極論全て陰性を出してしまえばそれなりの精度に見えてしまうのは指標には成り得ません。
混同行列を理解しよう
そこで出てくるのが下の表です。これを混同行列といいます。
偽陽性(FP)とは感染していないにも関わらず、検査結果が陽性になることを指していることがわかります。
感染 | 非感染 | |
---|---|---|
陽性 | 真陽性(TP) | 偽陽性(FP) |
陰性 | 偽陰性(FN) | 真陰性(TN) |
この表の値を用いて正解率を定義すると次のようになります。
$$
正解率 = \frac{TP+TN}{TP+FP+TN+FN}
$$
また、この表から適合率、再現率(感度)、特異度、f値(f1-score)など様々な指標が計算できます。
$$
適合率 = \frac{TP}{TP+FP}
再現率(感度) = \frac{TP}{TP+FN}
特異度 = \frac{TN}{TN+FP}
f値 = 2\times\frac{適合率\times再現率}{適合率+再現率}
$$
先ほどの検査A、B、Cを混同行列に当てはめてみましょう。
検査A | 感染 | 非感染 |
---|---|---|
陽性 | 0 | 0 |
陰性 | 100 | 9900 |
検査B | 感染 | 非感染 |
---|---|---|
陽性 | 60 | 99 |
陰性 | 40 | 9801 |
検査C | 感染 | 非感染 |
---|---|---|
陽性 | 95 | 297 |
陰性 | 5 | 9603 |
そして、指標を比較すると以下のようになります。
検査A | 検査B | 検査C | |
---|---|---|---|
正解率 | 0.990 | 0.986 | 0.970 |
適合率 | (定義不能) | 0.377 | 0.242 |
再現率 | 0.000 | 0.600 | 0.950 |
特異度 | 1.000 | 0.990 | 0.970 |
f値 | (定義不能) | 0.463 | 0.386 |
病気の検査においては発病を見逃してはならないため、偽陰性を下げるために再現率を指標として検査を選択します。
対応できる医療従事者が少ないなら、病床が限られているならどうでしょう。
陽性を出した中に非感染者が混じる割合が問題となる場合は適合率を重視する場合もあるでしょう。
(f値の計算式は適合率と再現率の調和平均であるため、両者のバランスのいいものを選択する際に用いられます)
このように目的や状態に応じて指標を使い分ける必要があります。
単なる正解率のみで比較することなく、状況に応じて様々な指標を使いこなすことで適切な検査やモデルを選択することができるのです。
ライター:H.I