Distribution function associated with the empirical measure of a sample
統計学 において 、 経験分布関数 ( 経験 累積分布関数 、 eCDF とも呼ばれる )は、 標本 の 経験的測定値 に関連付けられた 分布関数 である。 [1] この 累積分布関数は、 n個 のデータ点ごとに 1/ n ずつ増加する ステップ関数 である 。測定変数の任意の指定値におけるその値は、測定変数の観測値のうち指定値以下となるものの割合である。
経験分布関数は、 標本点を生成した累積分布関数の 推定値です。 グリベンコ・カンテリ定理によれば、経験分布関数は確率1で基礎分布に収束します。経験分布関数が基礎累積分布関数に 収束する 速度を定量化した研究は数多く存在します 。
意味 ( X 1 , …, X n ) を共通の 累積分布関数 F ( t )を持つ 独立した同一分布の 実数確率変数とします 。 このとき、 経験分布関数は [2] で定義され、 は 事象 A の 指標 です 。 t が固定されている場合、指標は パラメータ p = F ( t )を持つ ベルヌーイ確率変数 です 。したがって、は 平均 nF ( t ) 、 分散 nF ( t )(1 − F ( t )) を持つ 二項確率変数 です。これは、 が F ( t ) の 不偏 推定値である ことを意味します 。 F ^ n ( t ) = number of elements in the sample ≤ t n = 1 n ∑ i = 1 n 1 X i ≤ t , {\displaystyle {\widehat {F}}_{n}(t)={\frac {{\text{number of elements in the sample}}\leq t}{n}}={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t},} 1 A {\displaystyle \mathbf {1} _{A}} 1 X i ≤ t {\displaystyle \mathbf {1} _{X_{i}\leq t}} n F ^ n ( t ) {\displaystyle n{\widehat {F}}_{n}(t)} F ^ n ( t ) {\displaystyle {\widehat {F}}_{n}(t)}
しかし、一部の教科書では次のように定義されています [3] [4] F ^ n ( t ) = 1 n + 1 ∑ i = 1 n 1 X i ≤ t {\displaystyle {\widehat {F}}_{n}(t)={\frac {1}{n+1}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t}}
漸近的性質 n が無限大に近づくにつれて、比率 ( n + 1)/ n は 1 に近づくため 、上記の 2 つの定義の漸近特性は同じになります。
大数の強い法則 により 、推定量は n → ∞ のときに 、あらゆる t の値に対してほぼ確実に F ( t ) に収束します 。 [2] したがって推定量は 一貫し ています。この表現は、経験分布関数が真の累積分布関数に点ごとに収束することを主張しています。 グリベンコ–カンテリの定理 と呼ばれるより強い結果があり、 収束は実際には t にわたって一様に起こると述べています。 [5] この表現のスーパーノルムは、経験分布 と仮定された真の累積分布関数 F との間の適合度をテストするための コルモゴロフ–スミルノフ統計量 と呼ばれます。ここではスーパーノルムの代わりに他の ノルム関数 を使用するのが合理的です。たとえば、 L 2 ノルムは 、クラマー–フォン ミーゼス統計量 をもたらします 。 F ^ n ( t ) {\displaystyle {\widehat {F}}_{n}(t)} F ^ n ( t ) → a.s. F ( t ) ; {\displaystyle {\widehat {F}}_{n}(t)\ {\xrightarrow {\text{a.s.}}}\ F(t);} F ^ n ( t ) {\displaystyle {\widehat {F}}_{n}(t)} ‖ F ^ n − F ‖ ∞ ≡ sup t ∈ R | F ^ n ( t ) − F ( t ) | → 0. {\displaystyle \left\|{\widehat {F}}_{n}-F\right\|_{\infty }\equiv \sup _{t\in \mathbb {R} }\left|{\widehat {F}}_{n}(t)-F(t)\right|\xrightarrow {} \ 0.} F ^ n ( t ) {\textstyle {\widehat {F}}_{n}(t)}
漸近分布は、さらにいくつかの異なる方法で特徴付けることができます。まず、 中心極限定理は、 点ごとに 、 標準 収束率で漸近的に正規分布すると 述べています。 [2]この結果は ドンスカーの定理 によって拡張され 、 経験過程 を で添え字付けされた関数として見ると 、 スコロホード空間 内の分布で 平均ゼロの ガウス過程に 収束すること を主張しています。ここで、 B は標準 ブラウン橋 です。 [5] このガウス過程の共分散構造は、
ドンスカーの定理における一様収束率は、 ハンガリアン埋め込み として知られる結果によって定量化できます 。 [6] F ^ n ( t ) {\textstyle {\widehat {F}}_{n}(t)} n {\textstyle {\sqrt {n}}} n ( F ^ n ( t ) − F ( t ) ) → d N ( 0 , F ( t ) ( 1 − F ( t ) ) ) . {\displaystyle {\sqrt {n}}{\big (}{\widehat {F}}_{n}(t)-F(t){\big )}\ \ {\xrightarrow {d}}\ \ {\mathcal {N}}{\Big (}0,F(t){\big (}1-F(t){\big )}{\Big )}.} n ( F ^ n − F ) {\textstyle {\sqrt {n}}({\widehat {F}}_{n}-F)} t ∈ R {\textstyle t\in \mathbb {R} } D [ − ∞ , + ∞ ] {\displaystyle D[-\infty ,+\infty ]} G F = B ∘ F {\textstyle G_{F}=B\circ F} E [ G F ( t 1 ) G F ( t 2 ) ] = F ( t 1 ∧ t 2 ) − F ( t 1 ) F ( t 2 ) . {\displaystyle \operatorname {E} [\,G_{F}(t_{1})G_{F}(t_{2})\,]=F(t_{1}\wedge t_{2})-F(t_{1})F(t_{2}).} lim sup n → ∞ n ln 2 n ‖ n ( F ^ n − F ) − G F , n ‖ ∞ < ∞ , a.s. {\displaystyle \limsup _{n\to \infty }{\frac {\sqrt {n}}{\ln ^{2}n}}\left\|{\sqrt {n}}({\widehat {F}}_{n}-F)-G_{F,n}\right\|_{\infty }<\infty ,\quad {\text{a.s.}}}
あるいは、 の収束速度は、 この式のノルム超過の漸近的挙動によって定量化することもできる。この分野では多くの結果が得られており、例えば、 ドヴォレツキー・キーファー・ウォルフォヴィッツ不等式 は の裾確率に上限を与える : [6] 実際、コルモゴロフは、累積分布関数 F が連続であれば、式は に分布収束し 、これは F の形に依存しない コルモゴロフ分布 に従うことを示した。 n ( F ^ n − F ) {\displaystyle {\sqrt {n}}({\widehat {F}}_{n}-F)} n ‖ F ^ n − F ‖ ∞ {\textstyle {\sqrt {n}}\left\|{\widehat {F}}_{n}-F\right\|_{\infty }} Pr ( n ‖ F ^ n − F ‖ ∞ > z ) ≤ 2 e − 2 z 2 . {\displaystyle \Pr \!{\Big (}{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }>z{\Big )}\leq 2e^{-2z^{2}}.} n ‖ F ^ n − F ‖ ∞ {\textstyle {\sqrt {n}}\left\|{\widehat {F}}_{n}-F\right\|_{\infty }} ‖ B ‖ ∞ {\textstyle \left\|B\right\|_{\infty }}
反復対数の法則 から導かれるもう一つの結果は [6] であり 、 lim sup n → ∞ n 2 ln ln n ‖ F ^ n − F ‖ ∞ ≤ 1 2 , a.s. {\displaystyle \limsup _{n\to \infty }{\sqrt {\frac {n}{2\ln \ln n}}}\left\|{\widehat {F}}_{n}-F\right\|_{\infty }\leq {\frac {1}{2}},\quad {\text{a.s.}}} lim inf n → ∞ 2 n ln ln n ‖ F ^ n − F ‖ ∞ = π 2 , a.s. {\displaystyle \liminf _{n\to \infty }{\sqrt {2n\ln \ln n}}\left\|{\widehat {F}}_{n}-F\right\|_{\infty }={\frac {\pi }{2}},\quad {\text{a.s.}}}
信頼区間 正規分布 のさまざまなサンプルサイズの経験的CDF、CDF、および信頼区間プロット コーシー分布 の様々なサンプルサイズの経験的CDF、CDF、および信頼区間プロット 三角分布 のさまざまなサンプルサイズの経験的CDF、CDF、および信頼区間プロット ドヴォレツキー・キーファー・ウォルフォヴィッツ不等式 によれば 、真のCDFを含む区間は、 確率が 次のように指定される。 F ( x ) {\displaystyle F(x)} 1 − α {\displaystyle 1-\alpha }
F n ( x ) − ε ≤ F ( x ) ≤ F n ( x ) + ε where ε = ln 2 α 2 n . {\displaystyle F_{n}(x){-}\varepsilon \leq F(x)\leq F_{n}(x){+}\varepsilon \;{\text{ where }}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha }}}{2n}}}.}
上記の境界に従って、統計実装のいずれかを使用して、さまざまな分布の経験 CDF、CDF、および信頼区間をプロットできます。
統計的実装 経験分布関数のソフトウェア実装の非網羅的なリストには以下が含まれます。
R ソフトウェアでは、このような「ecdf」オブジェクトを使用してプロット、印刷、計算するためのいくつかの方法を使用して、経験累積分布関数を計算します。 GNU OctaveまたはMATLABでは経験的累積分布関数(CDF)プロットを使用することができます。 SAS の jmp では、CDF プロットは経験累積分布関数のプロットを作成します。 Minitab、経験CDFを作成する Mathwaveでは、データに確率分布を当てはめることができます データプロットでは経験CDFプロットをプロットすることができます Scipyではscipy.stats.ecdfが使えます Statsmodelsでは、statsmodels.distributions.empirical_distribution.ECDFを使用することができます。 Matplotlib、matplotlib.pyplot.ecdf関数を使用(バージョン3.8.0の新機能) [7] Seaborn、seaborn.ecdfplot関数を使用 Plotly、plotly.express.ecdf関数を使用 Excelでは経験CDFプロットをプロットできます ArviZ 、az.plot_ecdf 関数を使用
参照
参考文献 ^ 確率と統計の現代的入門:なぜ、どのように理解するか 。ミシェル・デッキング著。ロンドン:シュプリンガー。2005年、219頁 。ISBN 978-1-85233-896-1 . OCLC 262680588。 {{cite book }}: CS1 maint: others (link )^ abc van der Vaart、AW (1998)。 漸近統計 。ケンブリッジ大学出版局。 p. 265.ISBN 0-521-78450-6 。 ^ Coles, S. (2001) 極値統計モデリング入門 . Springer, p. 36, 定義2.4. ISBN 978-1-4471-3675-0 。 ^ Madsen, HO, Krenk, S., Lind, SC (2006) 構造安全法 . Dover Publications. p. 148-149. ISBN 0486445976 ^ ab van der Vaart、AW (1998)。 漸近統計 。ケンブリッジ大学出版局。 p. 266.ISBN 0-521-78450-6 。 ^ abc van der Vaart、AW (1998)。 漸近統計 。ケンブリッジ大学出版局。 p. 268.ISBN 0-521-78450-6 。 ^ 「Matplotlib 3.8.0 の新機能 (2023 年 9 月 13 日) — Matplotlib 3.8.3 ドキュメント」。
さらに読む
外部リンク ウィキメディア・コモンズにおける経験分布関数に関連するメディア