[DSコラム]「確率が収束する」ってどういうこと?

「確率が収束する」というフレーズを聞いたことはありませんか?多くの場合そのフレーズは大数の法則と呼ばれる定理について話しています。
コイントスを何百回、何千回と繰り返していくと、表が出る回数と裏が出る回数はおよそ同じになるという事実などが相当します。

出目の偏ったサイコロ

突然ですが問題です。

あなたはどの目が出ることも同様に確からしいサイコロを10回振ったところ、5連続で偶数の目が出ました。
もう一度サイコロを振ったとき、偶数の目と奇数の目どちらが出る確率が高いでしょう?

大数の法則に則れば同じくらいの回数になるはずなのでそろそろ奇数が出る?いえいえ、正解は偶数も機数もどちらも同じ確率です。
直前までの出目がいくら偏っていようと、次の出目の確率には影響しません。(独立な試行)

※それぞれの試行結果が互いに影響を及ぼさない関係を確率論的独立といいます。

もしもそこで確率に影響が出るのなら、奇数が100連続出たサイコロを「次の一回は偶数の確率が高いサイコロ」などと言って販売するビジネスが誕生するかもしれません。サイコロを振るという副業が誕生します。楽しそうですね(?)

じゃあ収束しないのでは?

理解はできるものの、ランダム性のある行為を繰り返す度に「確率は収束するからそろそろ…」などと思ってしまうことがあると思います。
ルーレットで10回連続黒が出れば、次は赤が来そう…なんて気持ちは痛いほど理解できます。

事実としてサイコロを1万回振った場合、出目の奇偶は50%近くになりますし、施行回数を増やせば増やすほど50%に収束していきます。
「収束するなら偶数ばかり出た後は奇数ばかりでないとおかしいじゃないか!」という声も尤もそうに聞こえます。

このような例を考えてみましょう。
サイコロを100回振って80回偶数、20回奇数の目が出たとします。
偏りがあるのではないかと思った貴方はさらに100回サイコロを振ることにしました。
出目の偶奇の確率が50%に近付く(50%との絶対誤差が小さくなる)ためには、次の100回では偶数が何回以下出ればよいでしょう?

a. 20回未満
b. 50回未満
c. 80回未満

偶数が80回も出てしまったので、次の100回では20回程度にならないといけない…?そう思いませんか。

実際に計算してみましょう。
最初の100回の時点では偶数が出る確率は80%、奇数の出る確率は20%でした。

○偶数が19回の場合
偶数:\( \frac{80 + 19}{100 + 100} = \frac{99}{200} = 49.5\% \)
奇数:\( 1 – \frac{99}{200} = \frac{101}{200} = 50.5\% \)
偶数が49の場合
偶数:\( \frac{80 + 49}{100 + 100} = \frac{129}{200} = 64.5\% \)
奇数:\( 1 – \frac{129}{200} = \frac{71}{200} = 35.5\% \)
偶数が79の場合
偶数:\( \frac{80 + 79}{100 + 100} = \frac{159}{200} = 79.5\% \)
奇数:\( 1 – \frac{159}{200} = \frac{41}{200} = 20.5\% \)

全てのパターンで元の割合よりも50:50に近づいているのがわかります。実際の期待値と離れた値を維持することは試行回数は重ねるほど困難になります。
段々と期待値に近付いていく可能性が高いというイメージが湧きやすくなったではないでしょうか。

回数を重ねるごとに離れた値を維持することが難しくなるため、長期的な試行によって値は期待値に近付いていく。
というのが、大数の法則の正体です。一方に偏ればもう一方に偏る時が来るというような依存関係がある訳ではないのです。


数的感覚を鍛えて数字と仲良くなりましょう!

>データサイエンスのほかの記事を読む
>開発者ブログのほかの記事を読む

ライター:H.I