超幾何分布

超幾何
確率質量関数
超幾何PDFプロット
累積分布関数
超幾何CDFプロット
パラメータ
サポート
PMF
CDF一般化超幾何関数はどこにあるか
平均
モード
分散
歪度
過剰尖度



MGF
CF

確率論および統計学において超幾何分布は離散確率分布であり、有限個の母集団から特定の特徴を持つオブジェクトを正確に含む復元抽出(抽出されたオブジェクトが特定の特徴を持つランダム抽出)における成功の確率を表します。この場合、抽出ごとに成功または失敗のいずれかが発生します。一方、二項分布は復元抽出における成功の確率を表します

定義

確率質量関数

超幾何分布の特徴は次のようになります。

確率変数が 超幾何分布に従う場合、その確率質量関数(pmf)は[1]で与えられる。

どこ

  • 人口規模、
  • 人口における成功状態の数である。
  • 抽選回数(つまり各試行で抽選される量)
  • 観測された成功の数であり、
  • は二項係数です

pmf正になるのは、次の場合です

パラメータ を持つ超幾何分布の確率変数は表記され、上記の確率質量関数を持ちます

組み合わせ恒等式

必要に応じて、

これは本質的には、組合せ論におけるヴァンダーモンドの恒等式から導かれる。

また、

この恒等式は、二項係数を階乗で表し、それを並べ替えることで示されます。さらに、この恒等式は、2つの異なるが互換性のある方法で記述された問題の対称性からも導かれます。

例えば、2ラウンドの非置換抽選を考えてみましょう。第1ラウンドでは、中性ビー玉を壷から非置換で取り出し、緑色に着色します。その後、着色されたビー玉は壷に戻されます。第2ラウンドでは、ビー玉を非置換で取り出し、赤色に着色します。このとき、両方の色が付いたビー玉の数(つまり、2回取り出したビー玉の数)は超幾何分布に従います。とにおける対称性は、2ラウンドが独立しており、最初にボールを取り出し、赤色に着色するところから始めることも可能であるという事実に由来します

ここで注目すべきは、非復元抽出における成功確率です。これは、ビー玉を一つずつ取り除くたびに残りの母集団のサイズが変化するため、各試行における成功確率は同じではないためです。復元抽出における成功確率を表す二項分布と混同しないように注意してください

プロパティ

動作例

超幾何分布の典型的な応用は、非復元抽出です。赤と緑の2 色のビー玉が入ったを思い浮かべてください。緑のビー玉を引くことを成功、赤いビー玉を引くことを失敗と定義します。壷の中のビー玉の総数をNで表し(下の分割表を参照)、緑のビー玉の数をKで表すと、N  −  K は赤いビー玉の数に相当します。次に、壷の横に立って目を閉じ、 n 個のビー玉を非復元抽出します。Xを、実験で引き抜かれた緑のビー玉の数kとなる確率変数と定義します。この状況は、次の分割表で示されます。

描かれた描かれていない合計
緑のビー玉KkK
赤いビー玉nkN + k − n − KN − K
合計nN − n

実際、私たちが求めているのは、N個のビー玉のうちK個の緑のビー玉があると仮定し、n回の抽選でk個の緑のビー玉を引く確率を計算することです。この例では、壺の中に緑のビー玉が5個、赤のビー玉が45個入っていると仮定します。壺の横に立って目を閉じ、ビー玉を10個、取り替えなしで引きます。10のうちちょうど4個が緑である確率はどれくらいでしょうか

この問題は、次の分割表でまとめられます。

描かれた描かれていない合計
緑のビー玉k = 4Kk = 1K = 5
赤いビー玉nk = 6N + k − n − K = 39N − K = 45
合計n = 10N − n = 40N = 50

N回の抽選のうち、ちょうどn回でk個の緑のビー玉を引く確率を求めるには、Xを超幾何確率変数として次の式を用いる。

与えられた式を直感的に説明するために、次の恒等式で表される2つの対称問題を考えてみましょう。

  1. 左側 - 壺から合計n個のビー玉だけを引き出す。このnラウンドで、合計K個の緑のビー玉からk個の緑のビー玉を引き、NK個の赤いビー玉からnk個の赤いビー玉を引き出す確率を求めたい。
  2. 右側 - あるいは、壺からN個のビー玉をすべて取り出す。N回の抽選のうち、n回で緑のビー玉をk個取り、残りのNn回で緑のビー玉をKk個取り出す確率を求めたい。

計算に戻ると、上記の式を使って、ちょうどk個の緑のビー玉 を引く確率を計算します。

直感的に、抽選された 10 個の中に緑のビー玉が 5 個すべて含まれる可能性はさらに低いと予想されます。

予想どおり、緑のビー玉を 5 個引く確率は、4 個引く確率よりも約 35 倍低くなります。

対称性

緑と赤のビー玉の役割を入れ替えます。

引いたビー玉と引かなかったビー玉の役割を入れ替える:

緑色のビー玉と描かれたビー玉の役割を入れ替えます。

これらの対称性により二面体群 が生成されます。

抽選の順番

緑と赤のビー玉の組み合わせ(超幾何分布)を引く確率は、緑と赤のビー玉の出現順序ではなく、それらの個数のみに依存します。つまり、これは交換可能な分布です。その結果、抽選で緑のビー玉を引く確率は[2]です。

これは事前の確率です。つまり、前回の抽選結果を知らないことを前提としています。

テールバウンド

とする。すると、 について以下の境界を導くことができる:[3]

どこ

カルバック・ライブラー距離であり、 として用いられる[4]

:前述の境界を導くには、まず、特定の分布 を持つ従属確率変数が成り立つことを観察する必要があります。確率変数の和における境界に関する定理のほとんどは、それらの独立した列に関するものであるため、まず同じ分布を持つ独立した確率変数の列を作成し、 に定理を適用する必要があります。そして、このプロセスによって得られた結果と境界が にも 当てはまることがHoeffding [3]によって証明されています。

nがN /2より大きい場合、対称性を適用して境界を「反転」すると次のようになる。 [4] [5]

統計的推論

超幾何検定

幾何検定は、超幾何分布を用いて、成功を含む母集団から特定の数の成功(総抽出数のうち)を含む標本を抽出することの統計的有意性を測定します。標本における成功の過剰代表性検定では、超幾何p値は、母集団から総抽出数のうちランダムに成功数以上を抽出する確率として計算されます。過少代表性検定では、p値はランダムに成功数以下を抽出する確率として計算されます

生物学者で統計学者のロナルド・フィッシャー

超幾何分布に基づく検定(超幾何検定)は、対応するフィッシャーの正確検定の片側バージョンと同一である[6]逆に、両側フィッシャーの正確検定のp値は、2つの適切な超幾何検定の合計として計算することができる(詳細については[7]を参照)。

この検定は、サンプルにおいてどのサブグループが過剰に、または過少に代表されているかを特定するためによく用いられます。この検定は幅広い用途があります。例えば、マーケティング部門は、既知の顧客セットにおいて様々な人口統計学的サブグループ(例:女性、30歳未満)が過剰に代表されているかどうかを検定することで、顧客基盤を理解するためにこの検定を活用できます。

ととします

  • 場合、はパラメータ を持つベルヌーイ分布に従います
  • がパラメータ と を持つ項分布に従うとします。これは、類似の置換抽出問題における成功回数をモデル化しますと が と比べて大きく、 が0または1に近くない場合、と は同様の分布、すなわち に従います
  • が大きく、が に比べて大きく、 が0 または 1 に近くない場合

標準正規分布関数はどこにあるか

  • 緑または赤のビー玉を引く確率が等しくない場合(例えば、緑のビー玉は赤のビー玉よりも大きくて掴みやすいため)、非心超幾何分布を持つ。
  • ベータ二項分布は、超幾何分布の共役事前分布です。

次の表は、一連の抽選における成功数に関連する 4 つの分布を示しています。

交換品あり代替品はありません
指定された回数の抽選二項分布超幾何分布
失敗回数負の二項分布負の超幾何分布

多変量超幾何分布

多変量超幾何分布
パラメータ




サポート
PMF
平均
分散



緑と赤のビー玉が入った壺のモデルは、2色以上のビー玉がある場合にも拡張できます。壺の中にiのビー玉がK i個あり、 n個のビー玉を無作為に無作為に抽出した場合、標本中の各色のビー玉の個数 ( k 1 , k 2 ,..., k c ) は、多変量超幾何分布に従います。

これは、超幾何分布と二項分布の関係と同じ関係を多項分布に持ちます。つまり、多項分布は「復元あり」分布であり、多変量超幾何分布は「復元なし」分布です。

この分布の特性は隣の表[8]に示されています。ここでcは異なる色の数、は壺の中のビー玉の総数です。

壺の中に黒玉が5個、白玉が10個、赤玉が15個入っているとします。6個のビー玉を無置換で選んだ場合、各色のビー玉がちょうど2個ずつ選ばれる確率は

発生と応用

選挙監査への応用

選挙監査に使用されるサンプルとその結果生じる問題を見逃す可能性

選挙監査では通常、機械で集計された投票所をサンプルとしてテストし、手作業または機械による再集計が元の集計と一致するかどうかを確認します。不一致があった場合は、報告書が作成されるか、再集計の範囲が広くなります。サンプル率は通常、統計設計ではなく法律で定義されています。そのため、法的に定義されたサンプル サイズnの場合、ハッキングやバグなど、K個の投票所に存在する問題を見逃す確率はどれくらいでしょうか。これは、 k = 0 となる確率です。バグはわかりにくいことが多く、ハッカーは少数の投票所にのみ影響を与えることで検出を最小限に抑えることができますが、それでも接戦の選挙には影響します。そのため、 K がNの 5% 程度になるというのが妥当なシナリオです。監査は通常、投票所の 1% ~ 10% (多くの場合 3%) を対象としているため、[9] [10] [11]問題を見逃す可能性が高くなります。たとえば、100 の選挙区のうち 5 つに問題がある場合、3% のサンプルではk = 0となる確率が 86% となり、問題が気付かれません。また、サンプルに問題が現れる確率はわずか 14% です ( kが正)。

サンプル内でk  = 0 となる確率が 5% 未満となり、問題が見つかる確率が 95% を超えるためには、サンプルには 45 の選挙区が必要になります。

テキサスホールデムポーカーへの応用

ホールデムポーカーでは、プレイヤーは自分の手札 2 枚と最終的にテーブルに出た 5 枚のカード (コミュニティ カード) を組み合わせてできる限り最高の役を作ります。デッキは 52 枚あり、各スーツが 13 枚ずつあります。この例では、プレイヤーの手札にクラブが 2 枚あり、テーブルに 3 枚のカードが公開されていて、そのうち 2 枚もクラブであるとします。プレイヤーは、次に公開される 2 枚のカードのいずれかがクラブでフラッシュが完成する確率を知りたいとします。
(この例で計算される確率は、他のプレイヤーの手札に関する情報が不明であると仮定していることに注意してください。ただし、経験豊富なポーカー プレイヤーは、各シナリオの確率を検討する際に、他のプレイヤーがどのようにベットするか (チェック、コール、レイズ、またはフォールド) を考慮する場合があります。厳密に言えば、ここで概説した成功確率の計算方法は、テーブルにプレイヤーが 1 人だけの場合には正確です。マルチプレイヤー ゲームでは、この確率は対戦相手のベット プレイに基づいて多少調整される可能性があります。)

クラブは4枚表向きなので、まだ9枚は見えていません。カードは5枚(手札に2枚、テーブルに3枚)表向きなので、まだ見えていません。

次にめくられる2枚のカードのうち1枚がクラブである確率は、 と を用いた超幾何法を使って計算できます(約31.64%)

次にめくられる2枚のカードが両方ともクラブである確率は、 と を用いた超幾何法を使って計算できます(約3.33%)

次にめくられる2枚のカードのどちらもクラブではない確率は、 と を用いた超幾何法を使って計算できます(約65.03%)

キノへの申請

キノのオッズを計算するには、超幾何分布が不可欠です。キノでは、アメリカのビンゴのように、容器に入った 80 個の番号付きボールのコレクションから 20 個のボールがランダムに引き出されます。各抽選の前に、プレーヤーはこの目的のために用意された紙の用紙にマークを付けて、特定の数のスポットを選択します。たとえば、プレーヤーは6 スポットをプレイする場合、1 から 80 までの範囲の 6 つの数字にマークを付けます。その後 (プレーヤー全員が用紙をキャッシャーに提出し、マークした用紙の複製を受け取り、賭け金を支払った後)、20 個のボールが抽選されます。抽選されたボールの中には、プレーヤーが選択したボールの一部またはすべてと一致するものがあります。一般的に、ヒット(プレーヤーが選択した番号と一致する抽選されたボール) が多いほど、配当が大きくなります。

例えば、顧客が6のスポット(珍しい例ではありません)に1ドルを賭け(「プレイ」)、6つのうち4つが的中した場合、カジノは4ドルを払い戻します。払い戻し額はカジノによって異なりますが、ここでは4ドルが標準的な金額です。この事象が発生する確率は以下のとおりです。

同様に、選択した6つの数字のうち5つを当てる確率は、典型的な配当が88ドルであるのに対し、6つすべてを当てた場合の配当は約1500ドル(確率 ≈ 0.000128985、つまり7752分の1)です。他にゼロ以外の配当は、3つの数字を当てた場合(つまり、賭けた金額が返金される)の1ドルのみで、その確率は0.129819548に近いです。

配当と対応する確率の積を合計すると、6スポットの期待収益率は0.70986492、つまり約71%となり、ハウスアドバンテージは29%となります。他のスポットも同様の期待収益率です。この非常に低い収益率(プレイヤーにとって)は、通常、ゲームに必要な多額の経費(フロアスペース、設備、人員)によって説明されます。

参照

参考文献

引用

  1. ^ ライス, ジョン A. (2007).数理統計とデータ分析(第3版). ダックスベリー・プレス. p. 42.
  2. ^ ポラード、デイビッド(2010年春)「対称性」(PDF) . Stat 330/600コース配布資料. イェール大学. 2025年1月19日閲覧
  3. ^ ab Hoeffding, Wassily (1963). 「有界確率変数の和に対する確率不等式」(PDF) .アメリカ統計学会誌. 58 (301): 13– 30. doi :10.2307/2282952. JSTOR  2282952.
  4. ^ ab 「超幾何分布のもう一つの尾」。wordpress.com。2015年12月8日。 2018年3月19日閲覧
  5. ^ サーフリング、ロバート (1974). 「非置換標本抽出における和の確率不等式」. 『統計年報』 . 2 (1): 39– 48. doi : 10.1214/aos/1176342611 .
  6. ^ Rivals, I.; Personnaz, L.; Taing, L.; Potier, M.-C (2007). 「遺伝子クラス内におけるGOカテゴリーのエンリッチメントまたはデプレション:どのテストが適切か?」バイオインフォマティクス23 (4): 401– 407. doi : 10.1093/bioinformatics/btl633 . PMID  17182697.
  7. ^ K. PreacherとN. Briggs. 「Fisherの正確検定の計算:2×2表のFisherの正確確率検定のための対話型計算ツール(対話型ページ)」
  8. ^ Duan, XG (2021). 「多変量超幾何分布のより深い理解とデザインベースサーベイサンプリングへの影響」arXiv : 2101.00548 [math.ST].
  9. ^ グレイザー、アマンダ、スペルタス、ジェイコブ(2020年2月10日)「ニュースを広めよう:ニューヨーク州の選挙後監査には重大な欠陥がある」SSRN  3536011。
  10. ^ “州監査法”. Verified Voting . 2017年2月10日. 2020年1月4日時点のオリジナルよりアーカイブ。 2018年4月2日閲覧
  11. ^ 「選挙後の監査」ncsl.org . 全米州議会会議. 2018年4月2日閲覧

出典

  • Berkopec, Aleš (2007). 「離散超幾何分布のためのHyperQuickアルゴリズム」. Journal of Discrete Algorithms . 5 (2): 341– 347. doi : 10.1016/j.jda.2006.01.001 .
  • Skala, M. (2011). 「超幾何的裾不等式:狂気の終焉」arXiv : 1311.5939 [math.PR].未発表のメモ
Retrieved from "https://en.wikipedia.org/w/index.php?title=Hypergeometric_distribution&oldid=1317625392"