カーネル（統計）

カーネルという用語は、統計分析においてウィンドウ関数を指すために使用されます。「カーネル」という用語は、統計学の異なる分野では複数の異なる意味を持ちます。

ベイズ統計

統計学、特にベイズ統計学において、確率密度関数(pdf) または確率質量関数(pmf)のカーネルは、定義域内のいずれの変数の関数でもない因子が省略された pdf または pmf の形式である。 ^[1]このような因子は、pdf または pmf のパラメータの関数である可能性もあることに注意する。これらの因子は、確率分布の正規化因子の一部を形成し、多くの場合不要である。たとえば、疑似乱数サンプリングでは、ほとんどのサンプリングアルゴリズムが正規化因子を無視する。さらに、共役事前分布のベイズ解析では、計算中に正規化因子は通常無視され、カーネルのみを考慮する。最後にカーネルの形式が検査され、既知の分布と一致する場合、正規化係数を復元できる。そうでない場合、正規化係数は不要な場合がある (たとえば、分布のみをサンプリングする必要がある場合)。

多くの分布では、カーネルは閉じた形式で記述できますが、正規化定数は閉じた形式で記述できません。

一例として正規分布が挙げられます。その確率密度関数は

p(x|\mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}

そして関連するカーネルは

p(x|\mu ,\sigma ^{2})\propto e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}

指数関数の前の係数は、パラメータを含んでいますが、ドメイン変数の関数ではないため省略されていることに注意してください。 $\sigma ^{2}$ $x$

パターン分析

再生核ヒルベルト空間の核は、カーネル法と呼ばれる一連の手法において、暗黙空間内のデータに対して統計分類、回帰分析、クラスター分析などのタスクを実行するために使用されます。この用法は特に機械学習でよく使用されます。

ノンパラメトリック統計

ノンパラメトリック統計において、カーネルとはノンパラメトリック推定手法で使用される重み関数です。カーネルは、カーネル密度推定においてランダム変数の密度関数を推定するために、またカーネル回帰においてランダム変数の条件付き期待値を推定するために使用されます。カーネルは時系列においても使用され、ピリオドグラムを用いてスペクトル密度を推定する際にはウィンドウ関数として知られています。また、点過程における時間とともに変化する強度を推定する際にも使用され、ウィンドウ関数（カーネル）は時系列データと畳み込まれます。

通常、非パラメトリック推定を実行する場合はカーネル幅も指定する必要があります。

意味

カーネルは非負の実数値積分関数Kです。ほとんどのアプリケーションでは、次の 2 つの追加要件を満たすように関数を定義することが望ましいです。

正規化:

\int _{-\infty }^{+\infty }K(u)\,du=1\,;

偶関数対称性:

K(-u)=K(u){\mbox{ for all values of }}u\,.

最初の要件は、カーネル密度推定法によって確率密度関数が得られることを保証する。2番目の要件は、対応する分布の平均が、使用される標本の平均と等しくなることを保証する。

Kがカーネルである場合、関数K * もカーネルであり、 K *( u ) = λ K (λ u )で定義されます(λ > 0)。これを使用して、データに適したスケールを選択できます。

よく使われるカーネル関数

一般的に使用されているカーネル関数の種類には、均一、三角形、エパネチニコフ、^[2] 4次（バイウェイト）、トリキューブ、^[3]トリウェイト、ガウス、二次^[4]およびコサインなどがあります。

下の表では、が有界サポートとともに与えられている場合、uの値がサポートの外側にある場合、となります。 $K$ $K(u)=0$

カーネル関数、K ( u )			$\textstyle \int u^{2}K(u)du$	$\textstyle \int K(u)^{2}du$	エパネチニコフカーネルに対する効率^[a]
均一（「長方形のウィンドウ」）	$K(u)={\frac {1}{2}}$ サポート： $\|u\|\leq 1$	「ボックスカー関数」	${\frac {1}{3}}$	${\frac {1}{2}}$	92.9%
三角	$K(u)=(1-\|u\|)$ サポート： $\|u\|\leq 1$		${\frac {1}{6}}$	${\frac {2}{3}}$	98.6%
エパネチニコフ（放物線）	$K(u)={\frac {3}{4}}(1-u^{2})$ サポート： $\|u\|\leq 1$		${\frac {1}{5}}$	${\frac {3}{5}}$	100%
四次（バイウェイト）	$K(u)={\frac {15}{16}}(1-u^{2})^{2}$ サポート： $\|u\|\leq 1$		${\frac {1}{7}}$	${\frac {5}{7}}$	99.4%
トライウェイト	$K(u)={\frac {35}{32}}(1-u^{2})^{3}$ サポート： $\|u\|\leq 1$		${\frac {1}{9}}$	${\frac {350}{429}}$	98.7%
トリキューブ	$K(u)={\frac {70}{81}}(1-{\left\|u\right\|}^{3})^{3}$ サポート： $\|u\|\leq 1$		${\frac {35}{243}}$	${\frac {175}{247}}$	99.8%
ガウス分布	$K(u)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {1}{2}}u^{2}}$		$1\,$	${\frac {1}{2{\sqrt {\pi }}}}$	95.1%
余弦	$K(u)={\frac {\pi }{4}}\cos \left({\frac {\pi }{2}}u\right)$ サポート： $\|u\|\leq 1$		$1-{\frac {8}{\pi ^{2}}}$	${\frac {\pi ^{2}}{16}}$	99.9%
ロジスティクス	$K(u)={\frac {1}{e^{u}+2+e^{-u}}}$		${\frac {\pi ^{2}}{3}}$	${\frac {1}{6}}$	88.7%
シグモイド関数	$K(u)={\frac {2}{\pi }}{\frac {1}{e^{u}+e^{-u}}}$		${\frac {\pi ^{2}}{4}}$	${\frac {2}{\pi ^{2}}}$	84.3%
シルバーマンカーネル^[5]	$K(u)={\frac {1}{2}}e^{-{\frac {\|u\|}{\sqrt {2}}}}\cdot \sin \left({\frac {\|u\|}{\sqrt {2}}}+{\frac {\pi }{4}}\right)$		$0$	${\frac {3{\sqrt {2}}}{16}}$	適用できない

参照

注記

^ 効率は次のように定義されます。^[^なぜ?^] ${\sqrt {\int u^{2}K(u)\,du}}\int K(u)^{2}\,du$

参考文献

^ Schuster, Eugene (1969年8月). 「確率密度関数とその導関数の推定」.数理統計年報. 40 (4): 1187-1195. doi : 10.1214/aoms/1177697495 .
^ Epanechnikov, VA (1969). 「多変量確率密度の非パラメトリック推定」にちなんで名付けられました。Theory Probab. Appl . 14 (1): 153– 158. doi :10.1137/1114019.
^ Altman, NS (1992). 「カーネル法と最近傍法によるノンパラメトリック回帰入門」. The American Statistician . 46 (3): 175– 185. doi :10.1080/00031305.1992.10475879. hdl : 1813/31637 .
^ Cleveland, WS ; Devlin, SJ (1988). 「局所加重回帰：局所フィッティングによる回帰分析へのアプローチ」アメリカ統計学会誌. 83 (403): 596– 610. doi :10.1080/01621459.1988.10478639.
^ Silverman, BW (1986).統計とデータ分析のための密度推定. Chapman and Hall, London. Bibcode :1986desd.book.....S.

Li, Qi; Racine, Jeffrey S. (2007). 『ノンパラメトリック計量経済学：理論と実践』プリンストン大学出版局. ISBN 978-0-691-12161-1。

ズッキーニ、ウォルター. 「応用スムージング技術パート1：カーネル密度推定」(PDF) . 2018年9月6日閲覧。

Comaniciu, D; Meer, P (2002). 「平均シフト：特徴空間分析に向けた堅牢なアプローチ」. IEEE Transactions on Pattern Analysis and Machine Intelligence . 24 (5): 603– 619. CiteSeerX 10.1.1.76.8968 . doi :10.1109/34.1000236.

[5] 効率は次のように定義されます。^[^なぜ?^] ${\sqrt {\int u^{2}K(u)\,du}}\int K(u)^{2}\,du$

[1] Schuster, Eugene (1969年8月). 「確率密度関数とその導関数の推定」.数理統計年報. 40 (4): 1187-1195. doi : 10.1214/aoms/1177697495 .

[2] Epanechnikov, VA (1969). 「多変量確率密度の非パラメトリック推定」にちなんで名付けられました。Theory Probab. Appl . 14 (1): 153– 158. doi :10.1137/1114019.

[3] Altman, NS (1992). 「カーネル法と最近傍法によるノンパラメトリック回帰入門」. The American Statistician . 46 (3): 175– 185. doi :10.1080/00031305.1992.10475879. hdl : 1813/31637 .

[4] Cleveland, WS ; Devlin, SJ (1988). 「局所加重回帰：局所フィッティングによる回帰分析へのアプローチ」アメリカ統計学会誌. 83 (403): 596– 610. doi :10.1080/01621459.1988.10478639.

[6] Silverman, BW (1986).統計とデータ分析のための密度推定. Chapman and Hall, London. Bibcode :1986desd.book.....S.