分位回帰

分位点回帰は、統計学および計量経済学において用いられる回帰分析の一種です。最小二乗法が予測変数の値全体にわたって応答変数の条件付き平均を推定するのに対し、分位点回帰は応答変数の条件付き中央値(またはその他の分位点)を推定します。[応答変数の 条件付き幾何平均を予測する方法もあります[1]。] 分位点回帰は、線型回帰の条件が満たされない場合に用いられる線型回帰の拡張です。

分位回帰の例

利点と用途

通常の最小二乗回帰と比較した分位点回帰の利点の一つは、分位点回帰推定値が応答測定値の外れ値に対してより頑健であることです。しかし、分位点回帰の最大の魅力はそれだけにとどまらず、条件付き分位点関数が対象である場合にも有利です。中心傾向統計的分散の異なる指標を用いることで、変数間の関係をより包括的に分析することができます。[2]

生態学において、変数間の平均値に相関関係が全くないか、あるいは弱い相関関係しかない場合に、変数間のより有用な予測関係を発見する方法として、分位点回帰が提案され、用いられてきました。生態学における分位点回帰の必要性と成功は、異なる因子間の相互作用の複雑さによって、ある変数の変動が別の変数の異なる範囲に対して不均等になるデータが生じることに起因すると考えられてきました。[3]

分位回帰のもう一つの応用は成長曲線の分野であり、パーセンタイル曲線は異常な成長をスクリーニングするためによく使用されます。[4] [5]

歴史

中央回帰の傾きを推定するというアイデア、絶対偏差の合計を最小化する主要な定理、および中央回帰を構築するための幾何学的アルゴリズムは、1760年にドゥブロヴニク出身のイエズス会カトリック司祭であるルジェール・ヨシップ・ボシュコビッチによって提案されました。[ 2 ] : 4  [6]彼は、地球の楕円性に興味を持ち、アイザック・ニュートンが示唆した、地球の自転によって赤道が膨らみ、両極がそれに応じて平坦になる可能性があるという説に基づいいました。[7]彼は最終的に、表面の特徴を3回観測することで、自転する惑星赤道を決定する最初の幾何学的手順を生み出しました。 四分位回帰にとってさらに重要なのは、彼が最小絶対基準の最初の証拠を開発することができ、1805年にルジャンドルが導入した最小二乗法より50年も先んじたことです。[8]

ピエール=シモン・ラプラスをはじめとする他の思想家たちは、ボシュコヴィッチの考えを基に発展させ始めました。ラプラスはいわゆる「状況法」を考案しました。これはフランシス・エッジワースの複数中央値[9](中央値回帰への幾何学的アプローチ)につながり、単体法[8]の先駆けとして認識されています。ボシュコヴィッチ、ラプラス、エッジワースの研究は、ロジャー・ケンカーによる分位点回帰への貢献の前兆とみなされています

より大きなデータ セットに対する中央値回帰の計算は、最小二乗法に比べて非常に面倒です。そのため、20 世紀後半にコンピューターが広く採用されるまで、統計学者の間では歴史的にあまり人気がありませんでした。

背景:四分位数

分位点回帰は、従属変数の条件付き分位点を説明変数の線形関数として表します。分位点回帰の実用性において重要なのは、分位点を最小化問題の解として表せることです。次のセクションで条件付き分位点について説明する前に、このセクションでその点を示します。

確率変数の分位数

を累積分布関数を持つ実数値確率変数とする。Y番目の分位数は次のように与えられる 。

どこ

損失関数を次のように 定義する

ここで、は指示関数である。に対してに対して となることが観察される。直感的には、高位分位数 ( ) では正の残差に負の残差よりも大きなペナルティを課し、その逆もまた同様であり、損失は非対称となる。しかし、 に対してはペナルティは対称的である(したがって、中央値推定値となる)。に対する期待損失を最小化することで、特定の分位数を求めることができる[2] (pp. 5–6):

これは、ライプニッツの積分則を適用して期待損失の導関数を について計算し、それを0に設定し、を の解とすることで示されます。

この式は次のように帰納される。

そして

解が一意でない場合は、ランダム変数Yの 番目の分位数を取得するために、そのような解の最小値を取る必要があります

を等確率で値をとる離散確率変数とする課題はYの中央値を求めることであり、したがって値を選ぶ。すると、期待損失

は定数なので、期待損失関数から除外することができる(ただし、 の場合にのみ有効)。すると、u =3 において、

uが1単位増加したと仮定します。すると、期待損失はuが4に変化したときに変化します。u =5の場合 、期待損失は

uが変化すると期待損失は増加します。したがって、u =5 が中央値です。下の表は、uの異なる値に対する期待損失( で割った値)を示しています

あなた123456789
予想損失362924212021242936

直感

を考えてqを初期推定値とする。qで評価される期待損失

期待損失を最小化するために、qの値を少し変化させて、期待損失が増加するか減少するかを確認します。q1単位増加させたとします。すると、期待損失の変化は次のようになります。

方程式の最初の項は であり、方程式の2番目の項は です。したがって、期待損失関数の変化が負になるのは の場合、つまりq が中央値より小さい場合のみです。同様に、1単位減らした場合、期待損失関数の変化が負になるのはq が中央値より大きい場合のみです。

期待損失関数を最小化するには、qが中央値より小さい(大きい)場合はqを増加(減少)させ、 qが中央値に達するまで続けます。この最小化の考え方は、 qより大きいまたは小さい点の数(密度で重み付け)を数え、 qが点の%よりも大きくなる点にqを移動させることです。

サンプル四分位数

標本分位数は、重要度サンプリング推定値を使用し、次の最小化問題を解くことによって得られる。

ここで、関数は傾斜絶対値関数です。直感的には、母集団分位数の場合と同じです。

条件付き分位点と分位点回帰

与えられた の 番目の条件付き分位数は、与えられた の条件付き確率分布番目の分位数です

条件付き分位数を大文字で表して、ランダム変数であることを示します。

番目の分位点の分位回帰では、番目の条件付き分位点が説明変数の線形関数として与えられると仮定します。

の分布関数が与えられれば次のように解くことができる。

サンプルアナログを解くと、 の推定値が得られます

のとき、損失関数は絶対値関数に比例するため、中央値回帰は最小絶対偏差による線形回帰と同じになることに注意してください。

回帰パラメータの推定値の計算

分位回帰から生じる数学的形式は、最小二乗法から生じる形式とは異なる。最小二乗法は、部分空間への射影を含む内積空間における問題を考慮することになり、したがって二乗誤差の最小化問題は数値線形代数の問題に還元できる。分位回帰にはこのような構造はなく、代わりに最小化問題は線形計画問題として再定式化できる。

どこ

、   

線形計画問題を解くには、単体法[2] :181  または内点法[2] :190 を適用することができる。

漸近的性質

、ある正則性条件下では、漸近的に正規 である

どこ

そして

漸近分散共分散行列の直接推定は必ずしも満足のいくものではない。分位回帰パラメータの推論は、回帰順位スコア検定またはブートストラップ法によって行うことができる。[10]

同値性

不変性の背景については、不変推定量を参照してください。また、等価性を参照してください。

尺度等価性

いかなる場合

シフト等価性

いかなる場合

設計の再パラメータ化に対する等価性

を任意の非特異行列とし、

単調変換に対する不変性

が 上の非減少関数である場合、次の不変性が適用されます。

例(1):

かつ ならばなる。平均回帰は、以下の理由から同じ性質を持たない。

推論

傾斜パラメータの解釈

線形モデルは、 が非線形である 場合、真の系統的関係を誤って規定する。しかし、線形モデル間の重み付き距離を最小化する。 [11]さらに、線形モデルの傾きパラメータは、導関数の重み付き平均として解釈できるため、因果推論に使用できる。[12]具体的には、すべての に対する仮説は仮説 を意味し、これは推定量とその極限分布を用いて検定できる

適合度

分位点回帰の適合度はのように定義されます: [13]ここで、 は完全モデルにおける最小化された期待損失関数であり、は切片のみのモデルにおける期待損失関数です。

変種

分位回帰のためのベイズ法

分位回帰では通常、Y|Xの条件付き分布に対してパラメトリック尤度を仮定しないため、ベイズ法では作業尤度を用いて作業を行う。便利な選択肢として非対称ラプラシアン尤度[14]が挙げられる。これは、平坦な事前分布の下で得られる事後分布の最頻値が、通常の分位回帰推定値となるためである。しかし、事後推定値は慎重に解釈する必要がある。Yang、Wang、およびHe [15]は、有効な推定値を得るために事後分散調整を行った。さらに、YangとHe [16]は、作業尤度として経験尤度を選択した場合、漸近的に有効な事後推定値が得られることを示した。

分位回帰のための機械学習手法

単純な線形回帰以外にも、分位点回帰に拡張できる機械学習手法がいくつかあります。二乗誤差損失関数から傾斜絶対値損失関数(別名ピンボール損失[17])に切り替えると、勾配降下法に基づく学習アルゴリズムで平均ではなく特定の分位点を学習できるようになります。つまり、すべてのニューラルネットワークアルゴリズムディープラーニングアルゴリズムを分位点回帰に適用できるということです。[18] [19]これはノンパラメトリック分位点回帰と呼ばれます。[20]ツリーベースの学習アルゴリズムも分位点回帰に使用できます(ランダムフォレストの単純な一般化として、分位点回帰フォレスト[21]を参照)。

打ち切り分位回帰

応答変数が打ち切りの対象となる場合、条件付き平均値は追加の分布仮定なしには識別できないが、条件付き分位点は識別できることが多い。打ち切り分位回帰に関する最近の研究については、Portnoy [22]およびWang and Wang [23]を参照のこと。

例(2)

とするととなる。これは打ち切り分位回帰モデルである。分布に関する仮定を一切行わずに推定値を得ることができるが、計算が困難になるという犠牲を払うことになる。[24]その困難の一部は、近似として単純な3段階の打ち切り分位回帰手順を用いることで回避できる。[25]

応答変数のランダム打ち切りの場合、Portnoy(2003)[22]の打ち切り分位回帰は、各打ち切り点を適切に再重み付けすることに基づいて、識別可能なすべての分位関数の一貫した推定値を提供します。

打ち切り分位回帰は生存分析と密接な関係があります。

2つの患者群の生存確率を時間の関数として表した2つのカプラン・マイヤー推定値。ここで、は死亡数の分布関数である。死亡数の分位数は、ここで、は死亡数の分位関数である。打ち切り分位回帰はこれらの条件付き分位数を個別に推定するのに使用できるが、生存分析は(条件付き)生存関数を推定する。

異分散誤差

効率を上げるためには、異分散誤差がある場合に分位回帰損失を適応させる必要がある[26]

実装

数多くの統計ソフトウェア パッケージには、分位回帰の実装が含まれています。

  • Matlab関数quantreg[27]
  • gretlにはコマンドがありますquantreg[28]
  • Rには、 Roger Koenkerquantregによる分位点回帰を実装したパッケージがいくつか提供されているが[29]、また[30][31] 、 [32][33]によるものも知られている。gbm quantregForest qrnnqgam
  • PythonScikit-garden[34]およびstatsmodels[35]経由
  • SASproc quantreg(バージョン9.2)[36]およびproc quantselect(バージョン9.3)[37]まで。
  • Stata、コマンド経由qreg[38] [39]
  • Vowpal Wabbit、経由--loss_function quantile[40]
  • GitHubのMathematicaForPredictionプロジェクトでホストされているMathematicaパッケージQuantileRegression.m[41] 。
  • Wolfram言語関数QuantileRegression[42]はWolfram Function Repositoryでホストされています。

参照

文学

  • アングリスト、ジョシュア・D.、ピシュケ、ヨーン=ステフェン (2009).「分位点回帰」. 『Mostly Harmless Econometrics: An Empiricist's Companion』 . プリンストン大学出版局. pp.  269– 291. ISBN 978-0-691-12034-8
  • ケンカー、ロジャー(2005年)『分位点回帰』ケンブリッジ大学出版局、ISBN 978-0-521-60827-5

参考文献

  1. ^ Tofallis (2015). 「モデル選択とモデル推定のための相対予測精度のより良い尺度」, Journal of the Operational Research Society , 66(8):1352-1362. [1]
  2. ^ abcde Koenker, Roger (2005). Quantile Regression . Cambridge University Press. pp. 146–7. ISBN 978-0-521-60827-5
  3. ^ Cade, Brian S.; Noon, Barry R. (2003). 「生態学者のための分位点回帰のやさしい入門」(PDF) . Frontiers in Ecology and the Environment . 1 (8): 412– 420. doi :10.2307/3868138. JSTOR  3868138.
  4. ^ Wei, Y.; Pere, A.; Koenker, R.; He, X. (2006). 「成長曲線の参照のための分位点回帰法」. Statistics in Medicine . 25 (8): 1369– 1382. doi :10.1002/sim.2271. PMID  16143984. S2CID  7830193.
  5. ^ Wei, Y.; He, X. (2006). 「条件付き成長チャート(考察付き)」. Annals of Statistics . 34 (5): 2069–2097 and 2126–2131. arXiv : math/0702634 . doi :10.1214/009053606000000623. S2CID  88516697.
  6. ^ Stigler, S. (1984). 「Boscovich, Simpson, and a 1760 manuscript note on fitting a linear relation」. Biometrika . 71 (3): 615– 620. doi :10.1093/biomet/71.3.615.
  7. ^ Koenker, Roger (2005). Quantile Regression . Cambridge: Cambridge University Press. pp. 2. ISBN 9780521845731
  8. ^ ab Furno, Marilena; Vistocco, Domenico (2018). Quantile Regression: Estimation and Simulation . Hoboken, NJ: John Wiley & Sons. pp. xv. ISBN 9781119975281
  9. ^ Koenker, Roger (1998年8月). 「Galton, Edgeworth, Frisch, and prospects for quantile regression in economics」(PDF) . UIUC.edu . 2018年8月22日閲覧
  10. ^ Kocherginsky, M.; He, X.; Mu, Y. (2005). 「回帰分位点の実用的な信頼区間」. Journal of Computational and Graphical Statistics . 14 (1): 41– 55. doi :10.1198/106186005X27563. S2CID  120598656.
  11. ^ Angrist, J.; Chernozhukov, V.; Fernandez-Val, I. (2006). 「誤定性を考慮した分位回帰分析と米国賃金構造への応用」(PDF) . Econometrica . 74 (2): 539– 563. doi :10.1111/j.1468-0262.2006.00671.x.
  12. ^ 加藤 亮; 佐々木 雄二 (2017). 「因果推論における線形分位回帰の活用について」.計量経済理論. 33 (3): 664– 690. doi : 10.1017/S0266466616000177 .
  13. ^ Roger Koenker & José AF Machado (1999)「分位回帰における適合度と関連する推論プロセス」、アメリカ統計学会誌、94:448, 1296-1310、DOI: 10.1080/01621459.1999.10473882
  14. ^ Kozumi, H.; Kobayashi, G. (2011). 「ベイズ分位回帰のためのギブスサンプリング法」(PDF) . Journal of Statistical Computation and Simulation . 81 (11): 1565– 1578. doi :10.1080/00949655.2010.496117. S2CID  44015988.
  15. ^ Yang, Y.; Wang, HX; He, X. (2016). 「非対称ラプラス尤度を用いたベイズ分位回帰における事後推論」.国際統計評論. 84 (3): 327– 344. doi :10.1111/insr.12114. hdl : 2027.42/135059 . S2CID  14947362.
  16. ^ Yang, Y.; He, X. (2010). 「分位点回帰におけるベイズ経験尤度」Annals of Statistics . 40 (2): 1102– 1131. arXiv : 1207.5378 . doi :10.1214/12-AOS1005. S2CID  88519086.
  17. ^ Steinwart, Ingo; Christmann, Andreas (2011). 「ピンボールロスを用いた条件付き分位点の推定」. Bernoulli . 17 (1). Bernoulli Society for Mathematical Statistics and Probability: 211– 225. arXiv : 1102.2101 . doi :10.3150/10-BEJ267.
  18. ^ ペトネハージ、ガボール (2019-08-21). 「QCNN: 分位畳み込みニューラル ネットワーク」。arXiv : 1908.07978 [cs.LG]。
  19. ^ Rodrigues, Filipe; Pereira, Francisco C. (2018-08-27). 「期待を超える:時空間問題のためのディープジョイント平均・分位点回帰」arXiv : 1808.08798 [stat].
  20. ^ 非パラメトリック分位回帰:非交差制約と共形予測、Wenlu Tang、Guohao Shen、Yuanyuan Lin、Jian Huang著、https://arxiv.org/pdf/2210.10161.pdf
  21. ^ Meinshausen, Nicolai (2006). 「Quantile Regression Forests」(PDF) . Journal of Machine Learning Research . 7 (6): 983– 999.
  22. ^ ab Portnoy, SL (2003). 「打ち切り回帰分位点」.アメリカ統計学会誌. 98 (464): 1001– 1012. doi :10.1198/016214503000000954. S2CID  120674851.
  23. ^ Wang, H. ; Wang, L. (2009). 「局所加重打ち切り分位回帰」.アメリカ統計学会誌. 104 (487): 1117– 1128. CiteSeerX 10.1.1.504.796 . doi :10.1198/jasa.2009.tm08230. S2CID  34494316. 
  24. ^ Powell, James L. (1986). 「打ち切り回帰分位点」. Journal of Econometrics . 32 (1): 143– 155. doi :10.1016/0304-4076(86)90016-3.
  25. ^ チェルノジュコフ, ヴィクター; ホン, ハン (2002). 「3段階打ち切り分位回帰と婚外恋愛」. J. Amer. Statist. Assoc. 97 (459): 872– 882. doi :10.1198/016214502388618663. S2CID  1410755.
  26. ^ 異分散モデルのための効率的な分位点回帰、Yoonsuh Jung、Yoonkyung Lee、Steven N. MacEachern、https://www.tandfonline.com/doi/abs/10.1080/00949655.2014.967244?journalCode=gscs20
  27. ^ "quantreg(x,y,tau,order,Nboot) - File Exchange - MATLAB Central". www.mathworks.com . 2016年3月12日時点のオリジナルよりアーカイブ。 2016年2月1日閲覧
  28. ^ 「Gretlコマンドリファレンス」(PDF) 2017年4月. 2018年12月15日時点のオリジナル(PDF)からアーカイブ。 2017年4月22日閲覧
  29. ^ "quantreg: Quantile Regression". Rプロジェクト. 2018年12月18日.
  30. ^ 「gbm: 一般化ブースト回帰モデル」Rプロジェクト. 2019年1月14日.
  31. ^ "quantregForest: Quantile Regression Forests". Rプロジェクト. 2017年12月19日.
  32. ^ 「qrnn: Quantile Regression Neural Networks」Rプロジェクト. 2018年6月26日.
  33. ^ 「qgam: 滑らかな加法分位点回帰モデル」Rプロジェクト. 2019年5月23日.
  34. ^ 「Quantile Regression Forests」. Scikit-garden . 2019年1月3日閲覧
  35. ^ "統計モデル: 分位点回帰".統計モデル2019 年11 月 15 日に取得
  36. ^ 「分位回帰とQUANTREGプロシージャの紹介」(PDF)SASサポート
  37. ^ 「QUANTSELECTプロシジャ」。SASサポート。2022年1月12日時点のオリジナルよりアーカイブ。 2022年1月12日閲覧
  38. ^ 「qreg — 分位点回帰」(PDF) Stataマニュアル
  39. ^ Cameron, A. Colin; Trivedi, Pravin K. (2010). 「Quantile Regression」. Stataを用いたミクロ計量経済学(改訂版). College Station: Stata Press. pp.  211– 234. ISBN 978-1-59718-073-3
  40. ^ "JohnLangford/vowpal_wabbit". GitHub 2016 年 7 月 9 日に取得
  41. ^ "QuantileRegression.m". MathematicaForPrediction . 2019年1月3日閲覧
  42. ^ "QuantileRegression". Wolfram Function Repository . 2022年9月14日閲覧
Retrieved from "https://en.wikipedia.org/w/index.php?title=Quantile_regression&oldid=1317851878"