逐次最小最適化

逐次最小最適化
クラス	サポートベクターマシンのトレーニングのための最適化アルゴリズム
最悪のパフォーマンス	O( n³ )

逐次最小最適化（SMO ）は、サポートベクターマシン（SVM）の学習中に生じる二次計画問題（QP）を解くアルゴリズムです。 1998年にMicrosoft Researchの John Plattによって発明されました。^{[1] SMOはサポートベクターマシンの学習に広く利用されており、人気の高い}LIBSVMツールによって実装されています。 ^[2]^[3] 1998年のSMOアルゴリズムの発表は、SVMコミュニティに大きな衝撃を与えました。それ以前のSVM学習方法ははるかに複雑で、高価なサードパーティ製のQPソルバーを必要としていたためです。^[4]

最適化問題

データセット ( x ₁ , y ₁ ), ..., ( x _n , y _n )を用いた2値分類問題を考える。ここで、 x _iは入力ベクトル、y _i ∈ {-1, +1}はそれに対応する2値ラベルである。ソフトマージンサポートベクターマシンは、以下の双対形式で表現される二次計画問題を解くことで学習される。

\max_{\alpha}\sum_{i=1}^{n}\alpha_{i}-{\frac{1}{2}}\sum_{i=1}^{n}\sum_{j=1}^{n}y_{i}y_{j}K(x_{i},x_{j})\alpha_{i}\alpha_{j},

以下を条件とする:

0\leq \alpha _{i}\leq C,\quad {\mbox{ for }}i=1,2,\ldots ,n,

\sum _{i=1}^{n}y_{i}\alpha _{i}=0

ここで、CはSVMハイパーパラメータ、K(xi、xj )はカーネル関数_であり_、どちらもユーザーが指定します。変数はラグランジュ乗数です。 $\alpha _{i}$

アルゴリズム

SMOは、上記の最適化問題を解くための反復アルゴリズムです。SMOは、この問題を可能な限り小さな一連の部分問題に分割し、それらを解析的に解きます。ラグランジュ乗数を含む線形等式制約により、可能な限り小さな問題は、そのような乗数を2つ含むことになります。そして、任意の2つの乗数およびに対して、制約は次のように簡約されます。 $\alpha _{i}$ $\alpha _{1}$ $\alpha _{2}$

0\leq \alpha _{1},\alpha _{2}\leq C,

y_{1}\alpha _{1}+y_{2}\alpha _{2}=k,

この簡約された問題は解析的に解くことができます。1 次元の 2 次関数の最小値を見つける必要があります。は、等式制約の残りの項の合計の負数であり、各反復で固定されます。 $k$

アルゴリズムは次のように進行します。

最適化問題のKarush–Kuhn–Tucker (KKT) 条件に違反するラグランジュ乗数を見つけます。 $\alpha _{1}$
2 番目の乗数を選択し、ペアを最適化します。 $\alpha _{2}$ $(\alpha _{1},\alpha _{2})$
収束するまで手順 1 と 2 を繰り返します。

すべてのラグランジュ乗数がKKT条件を満たす場合（ユーザー定義の許容範囲内）、問題は解決されます。このアルゴリズムは収束が保証されていますが、収束速度を加速するために乗数のペアを選択する際にヒューリスティックが用いられます。これは、との選択肢が複数存在するため、大規模なデータセットでは非常に重要です。 $n(n-1)/2$ $\alpha _{i}$ $\alpha_{j}$

参照

カーネルパーセプトロン

参考文献

^ abcde Platt, John (1998). 「Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines」(PDF) . CiteSeerX 10.1.1.43.4376 .
^ Chang, Chih-Chung; Lin, Chih-Jen (2011). 「LIBSVM: サポートベクターマシン用ライブラリ」. ACM Transactions on Intelligent Systems and Technology . 2 (3). doi :10.1145/1961189.1961199. S2CID 961425.
^ Zanni, Luca (2006). 「マルチプロセッサシステム上で大規模サポートベクターマシンをトレーニングするための並列ソフトウェア」(PDF) .
^ Rifkin, Ryan (2002). Everything Old is New Again: a Fresh Look at Historical Approaches in Machine Learning (Ph.D. Thesis). マサチューセッツ工科大学. p. 18. hdl :1721.1/17549.
^ Boser, BE; Guyon, IM; Vapnik, VN (1992). 「最適マージン分類器のための訓練アルゴリズム」.第5回計算学習理論ワークショップ COLT '92 議事録. p. 144. CiteSeerX 10.1.1.21.3818 . doi :10.1145/130385.130401. ISBN 978-0897914970. S2CID 207165665。
^ Osuna, E.; Freund, R.; Girosi, F. (1997). 「サポートベクターマシンのための改良型学習アルゴリズム」. Neural Networks for Signal Processing [1997] VII. Proceedings of the 1997 IEEE Workshop . pp. 276– 285. CiteSeerX 10.1.1.392.7405 . doi :10.1109/NNSP.1997.622408. ISBN 978-0-7803-4256-9. S2CID 5667586。

[Platt-1] Platt, John (1998). 「Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines」(PDF) . CiteSeerX 10.1.1.43.4376 .

[2] Chang, Chih-Chung; Lin, Chih-Jen (2011). 「LIBSVM: サポートベクターマシン用ライブラリ」. ACM Transactions on Intelligent Systems and Technology . 2 (3). doi :10.1145/1961189.1961199. S2CID 961425.

[3] Zanni, Luca (2006). 「マルチプロセッサシステム上で大規模サポートベクターマシンをトレーニングするための並列ソフトウェア」(PDF) .

[4] Rifkin, Ryan (2002). Everything Old is New Again: a Fresh Look at Historical Approaches in Machine Learning (Ph.D. Thesis). マサチューセッツ工科大学. p. 18. hdl :1721.1/17549.

[ReferenceA-5] Boser, BE; Guyon, IM; Vapnik, VN (1992). 「最適マージン分類器のための訓練アルゴリズム」.第5回計算学習理論ワークショップ COLT '92 議事録. p. 144. CiteSeerX 10.1.1.21.3818 . doi :10.1145/130385.130401. ISBN 978-0897914970. S2CID 207165665。

[6] Osuna, E.; Freund, R.; Girosi, F. (1997). 「サポートベクターマシンのための改良型学習アルゴリズム」. Neural Networks for Signal Processing [1997] VII. Proceedings of the 1997 IEEE Workshop . pp. 276– 285. CiteSeerX 10.1.1.392.7405 . doi :10.1109/NNSP.1997.622408. ISBN 978-0-7803-4256-9. S2CID 5667586。

逐次最小最適化

最適化問題

アルゴリズム

関連研究

参照

参考文献