スペクトルフィルタリングによる正規化

スペクトル正則化は、機械学習においてノイズの影響を制御し、過学習を防ぐために用いられる正則化手法の一種です。スペクトル正則化は、画像のぼかし除去からメールをスパムフォルダと非スパムフォルダに分類するまで、幅広い用途に利用できます。例えば、メール分類の例では、ラベル付けされたメールセットを用いて機械学習システムを訓練し、スパムメールと非スパムメールを区別する方法を学習させる際に、スペクトル正則化を用いることでノイズの影響を軽減し、過学習を防ぐことができます。

スペクトル正則化アルゴリズムは、元々は不良設定逆問題理論で定義・研究された手法（例えば、^{[ 1 ]}を参照）に基づいており、条件数が悪かったり逆行列が非有界であったりする可能性のある線形演算子（または行列）の逆行列化に焦点を当てています。この文脈では、正則化とは、元の演算子を「正則化演算子」と呼ばれる有界演算子で置き換えることであり、この演算子の条件数は正則化パラメータによって制御されます。 ^{[ 2 ]}古典的な例としては、ティホノフ正則化が挙げられます。安定性を確保するために、この正則化パラメータはノイズレベルに基づいて調整されます。^{[ 2 ]}スペクトル正則化の背後にある基本的な考え方は、各正則化演算子は、問題を定義する演算子の固有値に対する適切なフィルタとしてスペクトル計算を用いて記述でき、フィルタの役割は「小さな固有値に対応する振動挙動を抑制すること」であるというものです。^{[ 2 ]}したがって、スペクトル正則化アルゴリズムの各アルゴリズムは、適切なフィルタ関数（そのアルゴリズムごとに導出する必要がある）によって定義されます。スペクトルフィルタリングがよく研究されている最も一般的に使用される正則化アルゴリズムには、ティホノフ正則化、ランドウェーバー反復法、および切り捨て特異値分解（TSVD）の3つがあります。正則化パラメータの選択に関しては、このパラメータを計算するための候補手法の例として、矛盾原理、一般化交差検証、およびL曲線基準などがあります。^{[ 3 ]}

注目すべきは、機械学習の文脈で研究されるスペクトルフィルタリングの概念は、関数近似(信号処理) に関する文献と密接に関連していることです。

表記

トレーニングセットはと定義されます。ここでは入力行列、は出力ベクトルです。該当する場合、カーネル関数はで表され、カーネル行列はで表されます。これはの要素を持ち、はカーネルを持つ再生カーネルヒルベルト空間(RKHS)を表します。正規化パラメータはで表されます。 $S=\{(x_{1},y_{1}),\dots ,(x_{n},y_{n})\}$ $X$ $n\times d$ $Y=(y_{1},\dots ,y_{n})$ $k$ $n\times n$ $K$ $K_{ij}=k(x_{i},x_{j})$ ${\mathcal {H}}$ $k$ $\lambda$

(注: およびについて、およびはヒルベルト空間であり、線形連続演算子が与えられている場合、が成り立つと仮定します。この設定では、直接的な問題は与えられたについて解くことであり、逆問題は与えられたについて解くことです。解が存在し、が一意かつ安定している場合、逆問題 (つまりについて解く問題) は適切であり、そうでない場合は適切ではありません。) $g\in G$ $f\in F$ $G$ $F$ $L$ $g=Lf$ $g$ $f$ $f$ $g$ $f$

不適切逆問題理論との関係

正規化最小二乗 (RLS) 推定問題 (ティホノフ正規化設定) と不良設定逆問題の理論との関係は、スペクトル正規化アルゴリズムが不良設定逆問題の理論とどのように関連しているかを示す例です。

RLS推定量はを解き、RKHSはをと表すことができる。ここでである。 ^[⁴^]ペナルティ項は、平滑性を制御し、過適合を防ぐために使用される。経験的リスク最小化の解はと書けるため、ペナルティ関数を追加すると、解くべきシステムに次のような変化が生じる。^[⁵^] $\min_{f\in{\mathcal{H}}}{\frac{1}{n}}\sum_{i=1}^{n}(y_{i}-f(x_{i}))^{2}+\lambda\left\|f\right\|_{\mathcal{H}}^{2}$ $f_{S}^{\lambda }(X)=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ $(K+n\lambda I)c=Y$ $c=(c_{1},\dots ,c_{n})$ $\min_{f\in {\mathcal{H}}}{\frac{1}{n}}\sum_{i=1}^{n}(y_{i}-f(x_{i}))^{2}$ $f_{S}^{\lambda }(X)=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ $Kc=Y$ $上の式は、Kc=Y\rightarrow \left(K+n\lambda I\right)c=Y{\biggr \}} と等価である。$

この学習設定では、カーネル行列はと分解でき、およびは対応する固有ベクトルです。したがって、初期学習設定では、以下が成り立ちます。 $K=Q\Sigma Q^{T}$ $\sigma =\operatorname {diag} (\sigma _{1},\dots ,\sigma _{n}),~\sigma _{1}\geq \sigma _{2}\geq \cdots \geq \sigma _{n}\geq 0$ $q_{1},\dots ,q_{n}$ $c=K^{-1}Y=Q\Sigma ^{-1}Q^{T}Y=\sum _{i=1}^{n}{\frac {1}{\sigma _{i}}}\langle q_{i},Y\rangle q_{i}.$

このように、固有値が小さい場合、データのわずかな摂動でさえ解に大きな変化をもたらす可能性があります。したがって、この問題は悪条件であり、このRLS問題を解くことは、悪条件である可能性のある逆行列問題を安定化することと同義です。逆行列問題は、悪設定逆問題理論で研究されています。どちらの問題においても、数値安定性の問題に対処することが主な関心事です。

アルゴリズムの実装

スペクトル正則化アルゴリズムの各アルゴリズムは、適切なフィルタ関数（ここではと表記）によって定義されます。カーネル行列がと表記されている場合、はの小さな固有値の大きさを制御します。フィルタリング設定における目標は、となる推定値を見つけることです。そのために、スカラーフィルタ関数はカーネル行列の固有分解を用いて定義されます。これは、 $G_{\lambda }(\cdot )$ $K$ $\lambda$ $G_{\lambda }(K)$ $f_{S}^{\lambda }(X):=\sum _{i=1}^{n}c_{i}k(x,x_{i})$ $c=G_{\lambda }(K)Y$ $G_{\lambda }(\sigma )$ $G_{\lambda }(K)=QG_{\lambda }(\Sigma )Q^{T},$ $G_{\lambda }(K)Y~=~\sum _{i=1}^{n}G_{\lambda }(\sigma _{i})\langle q_{i},Y\rangle q_{i}.$

典型的には、適切なフィルタ関数は以下の特性を持つべきである。^{[ 5 ]}

がゼロに近づくにつれて、 . $\lambda$ $G_{\lambda }(\sigma )~\rightarrow ~1/\sigma$
の（より小さい）固有値の大きさはによって制御されます。 $G_{\lambda}$ $\lambda$

上記の項目は、すべてのスペクトル正規化アルゴリズムのフィルタ関数の一般的な特性を大まかに説明していますが、フィルタ関数の導出（およびその正確な形式）は、スペクトルフィルタリングが適用される特定の正規化方法によって異なります。

ティホノフ正規化のフィルタ関数

ティホノフ正則化設定では、RLSのフィルタ関数は以下のように記述される。^{[ 4 ]}に示されているように、この設定では、 $c=\left(K+n\lambda I\right)^{-1}Y$ $c=(K+n\lambda I)^{-1}Y=Q(\Sigma +n\lambda I)^{-1}Q^{T}Y=\sum _{i=1}^{n}{\frac {1}{\sigma _{i}+n\lambda }q_{i},Y>q_{i}.$

不要なコンポーネントは正規化を使用して除去されます。

もしなら、。 $\sigma \gg \lambda n$ ${\frac {1}{\sigma _{i}+n\lambda }}\sim {\frac {1}{\sigma _{i}}}$
もしなら、。 $\sigma \ll \lambda n$ ${\frac {1}{\sigma _{i}+n\lambda }}\sim {\frac {1}{\lambda n}}$

したがって、ティホノフ正規化のフィルタ関数は次のように定義される: ^{[ 5 ]} $G_{\lambda }(\sigma )={\frac {1}{\sigma +n\lambda }}.$

ランドウェーバー反復法のフィルタ関数

ランドウェーバー反復法の背後にある考え方は勾配降下法である：^{[ 5 ]}

c ⁰  := 0 （i = 1, ..., t − 1） c ⁱ  := c ^{i −1} + η ( Y − Kc ^{i −1} ) 終了

この設定で、が最大固有値より大きい場合、上記の反復は、ステップサイズとしてを選択することで収束します。^[⁵^]上記の反復は、勾配降下法によって（つまり、経験的リスクを）最小化することと同等です。帰納法を用いると、 -回目の反復で、解は ^[⁵^]で与えられることが証明できます。 $n$ $K$ $\eta =2/n$ ${\frac {1}{n}}\left\|Y-Kc\right\|_{2}^{2}$ $t$ $c=\eta \sum _{i=0}^{t-1}\left(I-\eta K\right)^{i}Y.$

したがって、適切なフィルタ関数は次のように定義されます。 $G_{\lambda }(\sigma )=\eta \sum _{i=0}^{t-1}\left(I-\eta \sigma \right)^{i}.$

このフィルタ関数はの切断されたべき乗展開に対応することが示されます。^[⁵^]これを確認するには、が行列に置き換えられた場合でも、関係が依然として成立することに注目してください。したがって、（カーネル行列）、またはを考慮すると、次が成立します。 $K^{-1}$ $\sum _{i\geq 0}x^{i}=1/(1-x)$ $x$ $K$ $I-\eta K$ $K^{-1}=\eta \sum _{i=0}^{\infty }\left(I-\eta K\right)^{i}\sim \eta \sum _{i=0}^{t-1}\left(I-\eta K\right)^{i}.$

この設定では、反復回数が正則化パラメータを与える。大まかに言えば、である。^[⁵^]が大きい場合、過学習が懸念される。小さい場合、過平滑化が懸念される。したがって、反復を早期に停止する適切なタイミングを選択することで、正則化効果が得られる。 $t\sim 1/\lambda$ $t$ $t$

TSVDのフィルタ関数

TSVD設定では、固有値分解と所定の閾値を用いて、この閾値より小さい固有値をすべて破棄することで、カーネル行列の正規化された逆行列を形成することができる。^[⁵^] したがって、TSVDのフィルタ関数は次のように定義される。 $K=Q\Sigma Q^{T}$ $\lambda n$ $G_{\lambda }(\sigma )={\begin{cases}1/\sigma ,&{\text{if }}\sigma \geq \lambda n\\[1ex]0,&{\text{otherwise}}\end{cases}}$

TSVDは、（カーネル）主成分分析（PCA）を用いたデータの（教師なし）投影と同等であり、投影されたデータの経験的リスクを（正則化なしで）最小化することと同等であることが示されています。^{[ 5 ]}投影のために保持される成分の数は、ここでは唯一の自由なパラメータであることに注意してください。

参考文献

^ HW Engl、M. Hanke、A. Neubauer.逆問題の正則化. Kluwer、1996年。
^ ^a ^b ^c L. ロ・ジェルフォ、L. ロザスコ、F. オドーネ、E. デ・ヴィート、A. ヴェッリ。教師あり学習のためのスペクトルアルゴリズム、ニューラルコンピューティング、20(7)、2008。
^ PC Hansen、JG Nagy、DP O'Leary.画像のぼかし除去：行列、スペクトル、フィルタリング、アルゴリズムの基礎3、SIAM、フィラデルフィア、2006年。
^ ^a ^b L. Rosasco. 9.520講義ノート第6講義「統計学習理論とその応用」マサチューセッツ工科大学、2013年秋。https ://www.mit.edu/~9.520/fall13/slides/class06/class06_RLSSVM.pdfから入手可能。
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j L. Rosasco. 講義ノート9.520「統計学習理論とその応用」第7講義。マサチューセッツ工科大学、2013年秋。https ://www.mit.edu/~9.520/fall13/slides/class07/class07_spectral.pdfから入手可能。

[1] HW Engl、M. Hanke、A. Neubauer.逆問題の正則化. Kluwer、1996年。

[rosasco-2] L. ロ・ジェルフォ、L. ロザスコ、F. オドーネ、E. デ・ヴィート、A. ヴェッリ。教師あり学習のためのスペクトルアルゴリズム、ニューラルコンピューティング、20(7)、2008。

[3] PC Hansen、JG Nagy、DP O'Leary.画像のぼかし除去：行列、スペクトル、フィルタリング、アルゴリズムの基礎3、SIAM、フィラデルフィア、2006年。

[BB-4] L. Rosasco. 9.520講義ノート第6講義「統計学習理論とその応用」マサチューセッツ工科大学、2013年秋。https ://www.mit.edu/~9.520/fall13/slides/class06/class06_RLSSVM.pdfから入手可能。

[AA-5] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j L. Rosasco. 講義ノート9.520「統計学習理論とその応用」第7講義。マサチューセッツ工科大学、2013年秋。https ://www.mit.edu/~9.520/fall13/slides/class07/class07_spectral.pdfから入手可能。

[ 1 ]

[ 2 ]

[ 3 ]

[

[