経験分布関数

統計学において、経験分布関数（経験累積分布関数、eCDFとも呼ばれる）は、標本の経験的測定値に関連付けられた分布関数である。^[1]この累積分布関数は、 $n個$ のデータ点ごとに $1/$ $n$ ずつ増加するステップ関数である。測定変数の任意の指定値におけるその値は、測定変数の観測値のうち指定値以下となるものの割合である。

経験分布関数は、標本点を生成した累積分布関数の推定値です。グリベンコ・カンテリ定理によれば、経験分布関数は確率1で基礎分布に収束します。経験分布関数が基礎累積分布関数に収束する速度を定量化した研究は数多く存在します。

意味

$(X 1, \dots, X n)$ を共通の累積分布関数 $F$ $($ $t$ $)を持つ$ 独立した同一分布の実数確率変数とします。このとき、経験分布関数は^[2]で定義され、は事象 $A$ の指標です。 $t$ が固定されている場合、指標はパラメータ $p$ $=$ $F$ $($ $t$ $)を持つ$ ベルヌーイ確率変数です。したがって、は平均 $nF$ $($ $t$ $)$ 、分散 $nF$ $($ $t$ $)(1 -$ $F$ $($ $t$ $))$ を持つ二項確率変数です。これは、が $F$ $($ $t$ $)$ の不偏推定値であることを意味します。 ${\widehat {F}}_{n}(t)={\frac {{\text{number of elements in the sample}}\leq t}{n}}={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t},$ $\mathbf {1} _{A}$ $\mathbf {1} _{X_{i}\leq t}$ $n{\widehat {F}}_{n}(t)$ ${\widehat {F}}_{n}(t)$

しかし、一部の教科書では次のように定義されています^[3]^[4] ${\widehat {F}}_{n}(t)={\frac {1}{n+1}}\sum _{i=1}^{n}\mathbf {1} _{X_{i}\leq t}$

漸近的性質

$n$ が無限大に近づくにつれて、比率 $(n + 1)/ n$ は 1 に近づくため、上記の 2 つの定義の漸近特性は同じになります。

大数の強い法則により、推定量は $n$ $\to \infty$ のときに、あらゆる $t$ の値に対してほぼ確実に $F$ $($ $t$ $)$ に収束します。^[2]したがって推定量は一貫しています。この表現は、経験分布関数が真の累積分布関数に点ごとに収束することを主張しています。グリベンコ–カンテリの定理と呼ばれるより強い結果があり、収束は実際には $t$ にわたって一様に起こると述べています。^[5]この表現のスーパーノルムは、経験分布と仮定された真の累積分布関数 $F$ との間の適合度をテストするためのコルモゴロフ–スミルノフ統計量と呼ばれます。ここではスーパーノルムの代わりに他のノルム関数を使用するのが合理的です。たとえば、L ² ノルムは、クラマー–フォンミーゼス統計量をもたらします。 ${\widehat {F}}_{n}(t)$ ${\widehat {F}}_{n}(t)\ {\xrightarrow {\text{a.s.}}}\ F(t);$ ${\widehat {F}}_{n}(t)$ $\left\|{\widehat {F}}_{n}-F\right\|_{\infty }\equiv \sup _{t\in \mathbb {R} }\left|{\widehat {F}}_{n}(t)-F(t)\right|\xrightarrow {} \ 0.$ ${\textstyle {\widehat {F}}_{n}(t)}$

漸近分布は、さらにいくつかの異なる方法で特徴付けることができます。まず、中心極限定理は、点ごとに、標準収束率で漸近的に正規分布すると述べています。 ^{[2]この結果は}ドンスカーの定理によって拡張され、経験過程をで添え字付けされた関数として見ると、スコロホード空間内の分布で平均ゼロのガウス過程に収束することを主張しています。ここで、 $B$ は標準ブラウン橋です。^[5]このガウス過程の共分散構造は、ドンスカーの定理における一様収束率は、ハンガリアン埋め込みとして知られる結果によって定量化できます。^[6] ${\textstyle {\widehat {F}}_{n}(t)}$ ${\textstyle {\sqrt {n}}}$ ${\sqrt {n}}{\big (}{\widehat {F}}_{n}(t)-F(t){\big )}\ \ {\xrightarrow {d}}\ \ {\mathcal {N}}{\Big (}0,F(t){\big (}1-F(t){\big )}{\Big )}.$ ${\textstyle {\sqrt {n}}({\widehat {F}}_{n}-F)}$ ${\textstyle t\in \mathbb {R} }$ $D[-\infty ,+\infty ]$ ${\textstyle G_{F}=B\circ F}$ $\operatorname {E} [\,G_{F}(t_{1})G_{F}(t_{2})\,]=F(t_{1}\wedge t_{2})-F(t_{1})F(t_{2}).$ $\limsup _{n\to \infty }{\frac {\sqrt {n}}{\ln ^{2}n}}\left\|{\sqrt {n}}({\widehat {F}}_{n}-F)-G_{F,n}\right\|_{\infty }<\infty ,\quad {\text{a.s.}}$

あるいは、の収束速度は、この式のノルム超過の漸近的挙動によって定量化することもできる。この分野では多くの結果が得られており、例えば、ドヴォレツキー・キーファー・ウォルフォヴィッツ不等式はの裾確率に上限を与える：^[6]実際、コルモゴロフは、累積分布関数 $F$ が連続であれば、式はに分布収束し、これは $F$ の形に依存しないコルモゴロフ分布に従うことを示した。 ${\sqrt {n}}({\widehat {F}}_{n}-F)$ ${\textstyle {\sqrt {n}}\left\|{\widehat {F}}_{n}-F\right\|_{\infty }}$ $\Pr \!{\Big (}{\sqrt {n}}\|{\widehat {F}}_{n}-F\|_{\infty }>z{\Big )}\leq 2e^{-2z^{2}}.$ ${\textstyle {\sqrt {n}}\left\|{\widehat {F}}_{n}-F\right\|_{\infty }}$ ${\textstyle \left\|B\right\|_{\infty }}$

反復対数の法則から導かれるもう一つの結果は^[6]であり、 $\limsup _{n\to \infty }{\sqrt {\frac {n}{2\ln \ln n}}}\left\|{\widehat {F}}_{n}-F\right\|_{\infty }\leq {\frac {1}{2}},\quad {\text{a.s.}}$ $\liminf _{n\to \infty }{\sqrt {2n\ln \ln n}}\left\|{\widehat {F}}_{n}-F\right\|_{\infty }={\frac {\pi }{2}},\quad {\text{a.s.}}$

信頼区間

ドヴォレツキー・キーファー・ウォルフォヴィッツ不等式によれば、真のCDFを含む区間は、確率が次のように指定される。 $F(x)$ $1-\alpha$

$F_{n}(x){-}\varepsilon \leq F(x)\leq F_{n}(x){+}\varepsilon \;{\text{ where }}\varepsilon ={\sqrt {\frac {\ln {\frac {2}{\alpha }}}{2n}}}.$

上記の境界に従って、統計実装のいずれかを使用して、さまざまな分布の経験 CDF、CDF、および信頼区間をプロットできます。

統計的実装

経験分布関数のソフトウェア実装の非網羅的なリストには以下が含まれます。

R ソフトウェアでは、このような「ecdf」オブジェクトを使用してプロット、印刷、計算するためのいくつかの方法を使用して、経験累積分布関数を計算します。
GNU OctaveまたはMATLABでは経験的累積分布関数（CDF）プロットを使用することができます。
SAS の jmp では、CDF プロットは経験累積分布関数のプロットを作成します。
Minitab、経験CDFを作成する
Mathwaveでは、データに確率分布を当てはめることができます
データプロットでは経験CDFプロットをプロットすることができます
Scipyではscipy.stats.ecdfが使えます
Statsmodelsでは、statsmodels.distributions.empirical_distribution.ECDFを使用することができます。
Matplotlib、matplotlib.pyplot.ecdf関数を使用（バージョン3.8.0の新機能）^[7]
Seaborn、seaborn.ecdfplot関数を使用
Plotly、plotly.express.ecdf関数を使用
Excelでは経験CDFプロットをプロットできます
ArviZ、az.plot_ecdf 関数を使用

参照

参考文献

^ 確率と統計の現代的入門：なぜ、どのように理解するか。ミシェル・デッキング著。ロンドン：シュプリンガー。2005年、219頁。ISBN 978-1-85233-896-1. OCLC 262680588。{{cite book}}: CS1 maint: others (link)
^ abc van der Vaart、AW (1998)。漸近統計。ケンブリッジ大学出版局。 p. 265.ISBN 0-521-78450-6。
^ Coles, S. (2001)極値統計モデリング入門. Springer, p. 36, 定義2.4. ISBN 978-1-4471-3675-0。
^ Madsen, HO, Krenk, S., Lind, SC (2006)構造安全法. Dover Publications. p. 148-149. ISBN 0486445976
^ ab van der Vaart、AW (1998)。漸近統計。ケンブリッジ大学出版局。 p. 266.ISBN 0-521-78450-6。
^ abc van der Vaart、AW (1998)。漸近統計。ケンブリッジ大学出版局。 p. 268.ISBN 0-521-78450-6。
^ 「Matplotlib 3.8.0 の新機能 (2023 年 9 月 13 日) — Matplotlib 3.8.3 ドキュメント」。

さらに読む

ショラック, GR ;ウェルナー, JA (1986).経験的プロセスとその統計への応用. ニューヨーク: ワイリー. ISBN 0-471-86725-X。

外部リンク

ウィキメディア・コモンズにおける経験分布関数に関連するメディア

[1] 確率と統計の現代的入門：なぜ、どのように理解するか。ミシェル・デッキング著。ロンドン：シュプリンガー。2005年、219頁。ISBN 978-1-85233-896-1. OCLC 262680588。{{cite book}}: CS1 maint: others (link)

[vdv265-2] van der Vaart、AW (1998)。漸近統計。ケンブリッジ大学出版局。 p. 265.ISBN 0-521-78450-6。

[3] Coles, S. (2001)極値統計モデリング入門. Springer, p. 36, 定義2.4. ISBN 978-1-4471-3675-0。

[4] Madsen, HO, Krenk, S., Lind, SC (2006)構造安全法. Dover Publications. p. 148-149. ISBN 0486445976

[vdv266-5] van der Vaart、AW (1998)。漸近統計。ケンブリッジ大学出版局。 p. 266.ISBN 0-521-78450-6。

[vdv268-6] van der Vaart、AW (1998)。漸近統計。ケンブリッジ大学出版局。 p. 268.ISBN 0-521-78450-6。

[7] 「Matplotlib 3.8.0 の新機能 (2023 年 9 月 13 日) — Matplotlib 3.8.3 ドキュメント」。