Measure of statistical dispersion
平均 絶対差 (単変量)は、 確率分布 から抽出された2つの独立した値の 平均 絶対差に等しい 統計的分散の尺度 です。関連する統計量として 相対平均絶対差が あります。これは平均絶対差を 算術平均 で割ったもので、 ジニ係数の 2倍に等しくなります。平均絶対差は、 絶対平均差( 平均符号差 の 絶対値 と混同しないでください )や ジニ 平均差 (GMD)とも呼ばれます。 [1] 平均絶対差は、ΔまたはMDと表記されることもあります。
定義 平均絶対差は、 独立して 同一の分布(以下Qと呼ぶ)に従う2つの 確率変数 X と Y の絶対差の「平均」または「平均値」、正式には 期待値 として 定義されます
M D := E [ | X − Y | ] . {\displaystyle \mathrm {MD} :=E[|X-Y|].}
計算 具体的には、離散的なケースでは、
Q に従って均一に分布する母集団から n 個のランダムサンプルを抽出した場合、 全期待値の法則 により、サンプル値 y i ( i = 1 ~ n) のシーケンスの(経験的)平均絶対差は、 すべての可能な差の絶対値の 算術平均 として計算できます。 M D = E [ | X − Y | ] = E X [ E Y | X [ | X − Y | ] ] = 1 n 2 ∑ i = 1 n ∑ j = 1 n | x i − y j | . {\displaystyle \mathrm {MD} =E[|X-Y|]=E_{X}[E_{Y|X}[|X-Y|]]={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}|x_{i}-y_{j}|.} Qが 離散確率関数 f ( y )を持つ 場合 、 y i ( i = 1~ n )は非ゼロの確率を持つ値です。 M D = ∑ i = 1 n ∑ j = 1 n f ( y i ) f ( y j ) | y i − y j | . {\displaystyle \mathrm {MD} =\sum _{i=1}^{n}\sum _{j=1}^{n}f(y_{i})f(y_{j})|y_{i}-y_{j}|.} 連続の場合、
確率密度関数 を持つ 場合 : Q {\displaystyle Q} f ( x ) {\displaystyle f(x)} M D = ∫ − ∞ ∞ ∫ − ∞ ∞ f ( x ) f ( y ) | x − y | d x d y . {\displaystyle \mathrm {MD} =\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }f(x)\,f(y)\,|x-y|\,dx\,dy.} この式の別の形式は次のようになります。
M D = ∫ 0 ∞ ∫ − ∞ ∞ 2 f ( x ) f ( x + δ ) δ d x d δ . {\displaystyle \mathrm {MD} =\int _{0}^{\infty }\int _{-\infty }^{\infty }2\,f(x)\,f(x+\delta )\,\delta \,dx\,d\delta .} が累積分布関数 を持ち、 分位関数 がである 場合 、および であるので 、 次の式が成り立ちます。 Q {\displaystyle Q} F ( x ) {\displaystyle F(x)} Q ( F ) {\displaystyle Q(F)} f ( x ) = d F ( x ) / d x {\textstyle f(x)=dF(x)/dx} Q ( F ( x ) ) = x {\displaystyle Q(F(x))=x} M D = ∫ 0 1 ∫ 0 1 | Q ( F 1 ) − Q ( F 2 ) | d F 1 d F 2 . {\displaystyle \mathrm {MD} =\int _{0}^{1}\int _{0}^{1}|Q(F_{1})-Q(F_{2})|\,dF_{1}\,dF_{2}.}
相対平均絶対差 確率分布が有限かつ非ゼロの 算術平均 AMを持つ場合、相対平均絶対差(ΔまたはRMDと表記されることもある)は次のように定義される。
R M D = M D A M . {\displaystyle \mathrm {RMD} ={\frac {\mathrm {MD} }{\mathrm {AM} }}.} 相対平均絶対差は、平均の大きさと比較して平均絶対差を定量化する 無次元量 です。相対平均絶対差は、 ローレンツ曲線 で定義される ジニ係数の 2倍に等しくなります。この関係は、相対平均絶対差とジニ係数の両方に相補的な視点を与え、それらの値を計算する代替方法も提供します。
性質 平均絶対差は並進および反転に対して不変であり、正のスケーリングに比例して変化します。つまり、 X が確率変数で c が定数の場合、次の式が
成り立ちます
M D ( X + c ) = M D ( X ) {\displaystyle \mathrm {MD(X+c)=MD(X)} } 、 M D ( − X ) = M D ( X ) {\displaystyle \mathrm {MD(-X)=MD(X)} } 、そして M D ( c X ) = | c | M D ( X ) {\displaystyle \mathrm {MD(cX)=|c|MD(X)} } 。 相対平均絶対差は正のスケーリングに対して不変であり、負のスケーリングと交換し、平行移動によって元の算術平均と平行移動後の算術平均の比に比例して変化します。つまり、 X が確率変数でcが定数の場合、次の
式が成り立ちます
R M D ( X + c ) = R M D ( X ) ⋅ m e a n ( X ) m e a n ( X ) + c = R M D ( X ) 1 + c m e a n ( X ) for c ≠ − m e a n ( X ) {\displaystyle \mathrm {RMD} (X+c)=\mathrm {RMD} (X)\cdot {\frac {\mathrm {mean} (X)}{\mathrm {mean} (X)+c}}={\frac {\mathrm {RMD} (X)}{1+{\frac {c}{\mathrm {mean} (X)}}}}\quad {\text{for }}c\neq -\mathrm {mean} (X)} 、 R M D ( − X ) = − R M D ( X ) {\displaystyle \mathrm {RMD} (-X)=-\mathrm {RMD} (X)} 、そして R M D ( c X ) = R M D ( X ) for c > 0 {\displaystyle \mathrm {RMD} (cX)=\mathrm {RMD} (X)\quad {\text{for }}c>0} 。 確率変数の平均値が正の場合、その相対平均絶対差は常に0以上になります。さらに、確率変数が0以上の値しか取れない場合、その相対平均絶対差は2未満になります。
標準偏差と比較 平均絶対差は Lスケールの 2倍(第 2Lモーメント )であり、標準偏差は平均を中心とした分散の平方根(第2従来型 中心モーメント )です。Lモーメントと従来型モーメントの違いは、平均絶対差と標準偏差を比較することで初めて分かります(第1Lモーメントと第1従来型モーメントはどちらも平均です)。
標準偏差 と平均絶対差はどちらも 、分散、つまり母集団の値や分布の確率がどれだけ広がっているかを表します。平均絶対差は特定の 中心傾向 の尺度で定義されるのではなく、標準偏差は算術平均からの偏差で定義されます。標準偏差は差を二乗するため、平均絶対差と比較して、大きな差に重み付けされ、小さな差には重み付けされない傾向があります。算術平均が有限の場合、標準偏差が無限大であっても、平均絶対差も有限になります。具体的な比較については例を参照してください。
最近導入された 距離標準偏差は、 平均絶対差と同様の役割を果たしますが、距離標準偏差は中心距離で機能します。E 統計量 も参照してください。
サンプル推定値 ランダム変数 X からのランダムサンプル Sは n個の 値 y i から成り 、統計量は
M D ( S ) = ∑ i = 1 n ∑ j = 1 n | y i − y j | n ( n − 1 ) {\displaystyle \mathrm {MD} (S)={\frac {\sum _{i=1}^{n}\sum _{j=1}^{n}|y_{i}-y_{j}|}{n(n-1)}}} はMD( X )の一貫性が あり 、 かつ偏りのない 推定値 である。統計量:
R M D ( S ) = ∑ i = 1 n ∑ j = 1 n | y i − y j | ( n − 1 ) ∑ i = 1 n y i {\displaystyle \mathrm {RMD} (S)={\frac {\sum _{i=1}^{n}\sum _{j=1}^{n}|y_{i}-y_{j}|}{(n-1)\sum _{i=1}^{n}y_{i}}}} はRMD( X )の一貫した 推定値 です が、一般には 偏りのない推定 値ではありません。
RMD( X )の信頼区間は ブートストラップサンプリング手法を使用して計算できます。
一般に、RMD( X )の不偏推定量は存在しない。これは、平均値の逆数を乗じた不偏推定値を求めるのが難しいことに一因がある。例えば、サンプルが未知の pに対するランダム変数 X ( p )から採取されたことが分かっており 、 X ( p )−1が ベルヌーイ分布 に従う 場合、 Pr( X ( p )=1)=1− p かつ Pr( X ( p )=2)= p となる。
RMD( X ( p )) = 2p ( 1− p )/(1+ p ) です。 しかし、 RMD( X ( p ))の任意の推定値 R ( S )の期待値は次の形式となる: [ 引用が必要 ]
E ( R ( S ) ) = ∑ i = 0 n p i ( 1 − p ) n − i r i , {\displaystyle \operatorname {E} (R(S))=\sum _{i=0}^{n}p^{i}(1-p)^{n-i}r_{i},} ここで、 r i は定数です。したがって、 p が0から1の間の
すべての場合において、E( R ( S ))はRMD( X ( p )) と等しくなることはありません。
例 平均絶対差と相対平均絶対差の例 分布 パラメータ 平均 標準偏差 平均絶対差 相対平均絶対差 連続一様分布 a = 0 ; b = 1 {\displaystyle a=0;b=1} 1 / 2 = 0.5 {\displaystyle 1/2=0.5} 1 12 ≈ 0.2887 {\displaystyle {\frac {1}{\sqrt {12}}}\approx 0.2887} 1 3 ≈ 0.3333 {\displaystyle {\frac {1}{3}}\approx 0.3333} 2 3 ≈ 0.6667 {\displaystyle {\frac {2}{3}}\approx 0.6667} 正規分布 μ = 0 {\displaystyle \mu =0} ; σ = 1 {\displaystyle \sigma =1} 0 {\displaystyle 0} 1 {\displaystyle 1} 2 π ≈ 1.1284 {\displaystyle {\frac {2}{\sqrt {\pi }}}\approx 1.1284} 未定義 指数分布 λ = 1 {\displaystyle \lambda =1} 1 {\displaystyle 1} 1 {\displaystyle 1} 1 {\displaystyle 1} 1 {\displaystyle 1} パレート分布 k > 1 {\displaystyle k>1} ; x m = 1 {\displaystyle x_{m}=1} k k − 1 {\displaystyle {\frac {k}{k-1}}} 1 k − 1 k k − 2 for k > 2 {\displaystyle {\frac {1}{k-1}}\,{\sqrt {\frac {k}{k-2}}}{\text{ for }}k>2} 2 k ( k − 1 ) ( 2 k − 1 ) {\displaystyle {\frac {2k}{(k-1)(2k-1)}}\,} 2 2 k − 1 {\displaystyle {\frac {2}{2k-1}}\,} ガンマ k {\displaystyle k} ; θ {\displaystyle \theta } k θ {\displaystyle k\theta } k θ {\displaystyle {\sqrt {k}}\,\theta } 2 θ B ( 0.5 , k ) {\displaystyle {\frac {2\theta }{\mathrm {B} (0.5,k)}}\,} † 2 k B ( 0.5 , k ) {\displaystyle {\frac {2}{k\mathrm {B} (0.5,k)}}\,} † ガンマ k = 1 {\displaystyle k=1} ; θ = 1 {\displaystyle \theta =1} 1 {\displaystyle 1} 1 {\displaystyle 1} 1 {\displaystyle 1} 1 {\displaystyle 1} ガンマ k = 2 {\displaystyle k=2} ; θ = 1 {\displaystyle \theta =1} 2 {\displaystyle 2} 2 ≈ 1.4142 {\displaystyle {\sqrt {2}}\approx 1.4142} 3 / 2 = 1.5 {\displaystyle 3/2=1.5} 3 / 4 = 0.75 {\displaystyle 3/4=0.75} ガンマ k = 3 {\displaystyle k=3} ; θ = 1 {\displaystyle \theta =1} 3 {\displaystyle 3} 3 ≈ 1.7321 {\displaystyle {\sqrt {3}}\approx 1.7321} 15 / 8 = 1.875 {\displaystyle 15/8=1.875} 5 / 8 = 0.625 {\displaystyle 5/8=0.625} ガンマ k = 4 {\displaystyle k=4} ; θ = 1 {\displaystyle \theta =1} 4 {\displaystyle 4} 2 {\displaystyle 2} 35 / 16 = 2.1875 {\displaystyle 35/16=2.1875} 35 / 64 = 0.546875 {\displaystyle 35/64=0.546875} ベルヌーイ 0 ≤ p ≤ 1 {\displaystyle 0\leq p\leq 1} p {\displaystyle p} p ( 1 − p ) {\displaystyle {\sqrt {p(1-p)}}} 2 p ( 1 − p ) {\displaystyle 2p(1-p)} 2 ( 1 − p ) for p > 0 {\displaystyle 2(1-p){\text{ for }}p>0} スチューデントの t 、2 自由度 ν = 2 {\displaystyle \nu =2} 0 {\displaystyle 0} ∞ {\displaystyle \infty } π 2 ≈ 2.2214 {\displaystyle {\frac {\pi }{\sqrt {2}}}\approx 2.2214} 未定義
†は ベータ関数 です B ( x , y ) {\displaystyle \mathrm {B} (x,y)}
参照
参考文献 ^ Yitzhaki, Shlomo (2003). 「ジニ平均差:非正規分布における変動性の優れた尺度」 (PDF) . Springer Verlag ( FTP ). pp. 285– 316 [ デッド FTP リンク ] (ドキュメントを表示するには、 ヘルプ:FTP を 参照してください)
出典 Xu, Kuan (2004年1月). 「過去80年間でジニ係数に関する文献はどのように進化してきたか?」 (PDF) . ダルハウジー大学経済学部. 2006年6月1日 閲覧 . ジニ、コッラード (1912)。 可変性と可変性 。ボローニャ:ティポグラフィア・ディ・パオロ・クッピーニ。 Bibcode :1912vamu.book....G. ジニ、コラード (1921). 「不平等と所得の測定」. 経済ジャーナル . 31 (121): 124– 126. doi :10.2307/2223319. JSTOR 2223319. Chakravarty, SR (1990). 倫理的社会指標番号 . ニューヨーク: Springer-Verlag. ミルズ, ジェフリー・A.; ザンドヴァキリ, サウルシェ (1997). 「不平等の尺度におけるブートストラッピングによる統計的推論」. 応用計量経済学ジャーナル . 12 (2): 133– 150. CiteSeerX 10.1.1.172.5003 . doi :10.1002/(SICI)1099-1255(199703)12:2<133::AID-JAE433>3.0.CO;2-H. ロムニッキ, ZA (1952). 「ジニ平均差の標準誤差」. 数理統計年報 . 23 (4): 635– 637. doi : 10.1214/aoms/1177729346 . Nair, US (1936). 「ジニ平均差の標準誤差」. Biometrika . 28 ( 3–4 ): 428–436 . doi :10.1093/biomet/28.3-4.428. Yitzhaki, Shlomo (2003). 「ジニ平均差:非正規分布における変動性の優れた指標」 (PDF) . Metron – International Journal of Statistics ( FTP ). pp. 285– 316. [ デッド FTP リンク ] (ドキュメントを表示するには、 ヘルプ:FTP を 参照してください)