二項分布

以前に「メタパを構築する時に」という記事で
「あるパの存在確率から、二つの構築の勝率を算出して比較するときに
 実際の観測値から存在確率の95%信頼区間を推定して比較すると
 95%信頼区間の端では、勝率が逆転してしまうので構築を比較するのは難しい。」
ということを言ったのですが、これ間違ってますね><
真の存在確率がPだった場合の構築の勝率と
真の存在確率がPの場合の、観測値が観測される確率を求められるので
構築の勝率の期待値を出すことが出来て、それを比較することで構築を比較できますね。
具体的には


構築1:バンギパへの勝率55%、その他の構築への勝率62%
構築2:バンギパへの勝率47%、その他の構築への勝率64%
ランダムに収集した100個のログに含まれるバンギパは15個だった


この時バンギパの真の存在確率の95%信頼区間は8%〜22%です。
仮にバンギパの真の存在確率が8%である場合
構築1の勝率は0.55×0.08+0.62×0.92=0.6144
ここで、存在確率のブレは二項分布に従うので
(存在する、しないの二律背反事象なので)
バンギパの真の存在確率が8%の時、100試合を見てバンギパが15個存在する確率を求められます。
excelのBINOMDIST関数でこれを求めると0.7%なので
バンギパの真の存在確率が8%である確率は0.7%であると言えます。
(多分。ここ間違ってたら指摘お願いします><)
なので期待値は0.07×0.6144=0.5%となります。
これを8%〜22%まで合計すれば構築1の95%信頼区間での勝率の期待値を出せます。


ってことで構築1と構築2でこれをすべて計算すると

存在確率 発生確率 構築1 - 構築2 -
(条件) (二項分布) 条件下での勝率 勝率 条件下での勝率 勝率
8.0% 0.7% 61.4% 0.5% 62.6% 0.5%
9.0% 1.7% 61.4% 1.1% 62.5% 1.1%
10.0% 3.3% 61.3% 2.0% 62.3% 2.0%
11.0% 5.3% 61.2% 3.2% 62.1% 3.3%
12.0% 7.5% 61.2% 4.6% 62.0% 4.6%
13.0% 9.4% 61.1% 5.7% 61.8% 5.8%
14.0% 10.7% 61.0% 6.5% 61.6% 6.6%
15.0% 11.1% 61.0% 6.8% 61.5% 6.8%
16.0% 10.7% 60.9% 6.5% 61.3% 6.6%
17.0% 9.6% 60.8% 5.8% 61.1% 5.9%
18.0% 8.1% 60.7% 4.9% 60.9% 4.9%
19.0% 6.4% 60.7% 3.9% 60.8% 3.9%
20.0% 4.8% 60.6% 2.9% 60.6% 2.9%
21.0% 3.4% 60.5% 2.1% 60.4% 2.1%
22.0% 2.3% 60.5% 1.4% 60.3% 1.4%
- - 総和 57.9% 総和 58.3%

となって構築1が57.9%、構築2が58.3%なので構築2の方が良いと言えますね。