オンライン機械学習

コンピュータサイエンスにおいて、オンライン機械学習とは、データが順次利用可能になり、各ステップで将来のデータの最良の予測子を更新する機械学習の方法であり、トレーニングデータセット全体を一度に学習することで最良の予測子を生成するバッチ学習技法とは対照的です。オンライン学習は、データセット全体をトレーニングすることが計算上不可能で、アウトオブコアアルゴリズムが必要となる機械学習の分野で使用される一般的な技法です。また、アルゴリズムがデータ内の新しいパターンに動的に適応する必要がある場合や、データ自体が時間の関数として生成される場合（例：金融国際市場での価格予測）にも使用されます。オンライン学習アルゴリズムは壊滅的な干渉を起こしやすい場合がありますが、この問題は増分学習アプローチによって対処できます。

オンライン機械学習アルゴリズムは、広告収入を最大化するためのスポンサードサーチ、ポートフォリオ最適化、最短経路予測（確率的重み付け、例えば地図アプリケーションの道路交通量）、スパムフィルタリング、リアルタイムの詐欺検出、電子商取引の動的価格設定など、さまざまな分野で応用されています。また、初期トレーニング後の継続的かつリアルタイムの適応を可能にするために、LLM向けのオンライン学習パラダイムの使用にも関心が高まっています。^[1]

導入

教師あり学習の設定では、の関数を学習します。ここで、は入力の空間、出力の空間として考えられ、上の結合確率分布から抽出されたインスタンスをうまく予測します。実際には、学習者はインスタンス上の真の分布を知ることはありません。その代わり、学習者は通常、トレーニング用の例のセットにアクセスできます。この設定では、損失関数はとして与えられ、は予測値と真の値の差を測定します。理想的な目標は、総損失の概念が最小限に抑えられるように、仮説空間と呼ばれる関数の空間である関数を選択することです。モデルのタイプ（統計的または敵対的）に応じて、異なる学習アルゴリズムにつながる異なる損失の概念を考案できます。 $f:X\to Y$ $X$ $Y$ $p(x,y)$ $X\times Y$ $p(x,y)$ $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ $V:Y\times Y\to \mathbb {R}$ $V(f(x),y)$ $f(x)$ $y$ $f\in {\mathcal {H}}$ ${\mathcal {H}}$

オンライン学習の統計的見方

統計学習モデルでは、訓練サンプルは真の分布から抽出されたと仮定され、期待される「リスク」を最小化することが目的となります。このような状況における一般的なパラダイムは、経験的リスク最小化法または正規化経験的リスク最小化法（通常はチホノフ正則化）によって関数を推定することです。ここでの損失関数の選択により、正規化最小二乗法やサポートベクターマシンといったいくつかのよく知られた学習アルゴリズムが生まれます。このカテゴリの純粋なオンラインモデルは、新しい入力、現在の最良の予測子、そして追加の保存情報（通常、訓練データのサイズとは無関係なストレージ要件を持つことが想定されます）のみに基づいて学習します。多くの定式化、例えば非線形カーネル法では、真のオンライン学習は不可能ですが、再帰アルゴリズムを用いたハイブリッドオンライン学習の形式を使用することで、と以前のすべてのデータポイントに依存することが許容されます。この場合、以前のすべてのデータポイントを保存する必要があるため、必要なストレージ容量が一定であることが保証されなくなりますが、バッチ学習手法と比較して、新しいデータポイントを追加することで解の計算時間が短縮される可能性があります。 $(x_{i},y_{i})$ $p(x,y)$ $I[f]=\mathbb {E} [V(f(x),y)]=\int V(f(x),y)\,dp(x,y)\ .$ ${\hat {f}}$ $(x_{t+1},y_{t+1})$ $f_{t}$ $f_{t+1}$ $f_{t}$ $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$

上記の問題を克服するための一般的な戦略は、ミニバッチを用いた学習です。ミニバッチでは、一度に少量のデータポイントを処理します。これは、トレーニングポイントの総数よりもはるかに少ないデータポイントに対する擬似オンライン学習と見なすことができます。ミニバッチ手法は、トレーニングデータを繰り返し渡すことで、確率的勾配降下法などの機械学習アルゴリズムの最適化されたアウトオブコアバージョンを取得するために使用されます。バックプロパゲーションと組み合わせると、これは現在、人工ニューラルネットワークのトレーニングにおける事実上のトレーニング手法となっています。 $b\geq 1$ $b$

例: 線形最小二乗法

線形最小二乗法というシンプルな例は、オンライン学習における様々な考え方を説明するために用いられています。これらの考え方は汎用性が高く、他の凸損失関数など、他の設定にも適用できます。

バッチ学習

教師あり学習において、学習対象となる線形関数を考える。ここでは入力（データ点）のベクトルであり、は線形フィルタベクトルである。目標はフィルタベクトルを計算することである。この目的のために、平方損失関数を用いて、経験的損失を最小化するベクトルを計算する。ここで $f$ $f(x_{j})=\langle w,x_{j}\rangle =w\cdot x_{j}$ $x_{j}\in \mathbb {R} ^{d}$ $w\in \mathbb {R} ^{d}$ $w$ $V(f(x_{j}),y_{j})=(f(x_{j})-y_{j})^{2}=(\langle w,x_{j}\rangle -y_{j})^{2}$ $w$ $I_{n}[w]=\sum _{j=1}^{n}V(\langle w,x_{j}\rangle ,y_{j})=\sum _{j=1}^{n}(x_{j}^{\mathsf {T}}w-y_{j})^{2}$ $y_{j}\in \mathbb {R} .$

をデータ行列とし、を最初のデータ点の到着後の目標値の列ベクトルとする。共分散行列が逆行列であると仮定すると（そうでない場合は、ティホノフ正則化と同様の方法で処理することが好ましい）、線形最小二乗問題の最適解は次のように与えられる。 $X$ $i\times d$ $y\in \mathbb {R} ^{i}$ $i$ $\Sigma _{i}=X^{\mathsf {T}}X$ $f^{*}(x)=\langle w^{*},x\rangle$ $w^{*}=(X^{\mathsf {T}}X)^{-1}X^{\mathsf {T}}y=\Sigma _{i}^{-1}\sum _{j=1}^{i}x_{j}y_{j}.$

ここで、共分散行列の計算には時間、行列の逆行列の計算には時間、残りの乗算には時間かかり、合計時間はとなります。データセットに合計点がある場合、すべてのデータ点の到着後に解を再計算すると、単純なアプローチでは合計計算量がになります。行列を保存し、各ステップで更新するにはを追加するだけで済みますが、これには時間がかかります。これにより、合計時間はに短縮されますが、を保存するためにの追加の記憶領域が必要になります。^[2] $\Sigma _{i}=\sum _{j=1}^{i}x_{j}x_{j}^{\mathsf {T}}$ $O(id^{2})$ $d\times d$ $O(d^{3})$ $O(d^{2})$ $O(id^{2}+d^{3})$ $n$ $i=1,\ldots ,n$ $O(n^{2}d^{2}+nd^{3})$ $\Sigma _{i}$ $x_{i+1}x_{i+1}^{\mathsf {T}}$ $O(d^{2})$ $O(nd^{2}+nd^{3})=O(nd^{3})$ $O(d^{2})$ $\Sigma _{i}$

オンライン学習：再帰最小二乗法

再帰最小二乗法（RLS）アルゴリズムは、最小二乗問題に対するオンラインアプローチを考察する。とを初期化することにより、前節で示した線形最小二乗問題の解は、以下の反復によって計算できることが示される。上記の反復アルゴリズムは、に関する帰納法を用いて証明できる。^[3]証明では、であることも示されている。RLSは適応フィルタの文脈でも考察できる（RLSを参照）。 $\textstyle w_{0}=0\in \mathbb {R} ^{d}$ $\textstyle \Gamma _{0}=I\in \mathbb {R} ^{d\times d}$ $\Gamma _{i}=\Gamma _{i-1}-{\frac {\Gamma _{i-1}x_{i}x_{i}^{\mathsf {T}}\Gamma _{i-1}}{1+x_{i}^{\mathsf {T}}\Gamma _{i-1}x_{i}}}$ $w_{i}=w_{i-1}-\Gamma _{i}x_{i}\left(x_{i}^{\mathsf {T}}w_{i-1}-y_{i}\right)$ $i$ $\Gamma _{i}=\Sigma _{i}^{-1}$

このアルゴリズムのステップの計算量はであり、これは対応するバッチ学習の計算量よりも1桁高速です。ここでの各ステップで必要な記憶容量は、で定数となる行列を格納することです。が逆行列でない場合、問題の損失関数の正規化バージョンを考えてみましょう。すると、同じアルゴリズムがに対しても動作し、反復処理が進むにつれてになることが簡単に示せます。^[2] $n$ $O(nd^{2})$ $i$ $\Gamma _{i}$ $O(d^{2})$ $\Sigma _{i}$ $\sum _{j=1}^{n}\left(x_{j}^{\mathsf {T}}w-y_{j}\right)^{2}+\lambda \left\|w\right\|_{2}^{2}$ $\Gamma _{0}=(I+\lambda I)^{-1}$ $\Gamma _{i}=(\Sigma _{i}+\lambda I)^{-1}$

確率的勾配降下法

これをまたはに置き換えると、確率的勾配降下法アルゴリズムになります。この場合、このアルゴリズムのステップの計算量はまで減少します。各ステップで必要な記憶容量はで一定です。 $w_{i}=w_{i-1}-\Gamma _{i}x_{i}\left(x_{i}^{\mathsf {T}}w_{i-1}-y_{i}\right)$ $w_{i}=w_{i-1}-\gamma _{i}x_{i}\left(x_{i}^{\mathsf {T}}w_{i-1}-y_{i}\right)=w_{i-1}-\gamma _{i}\nabla V(\langle w_{i-1},x_{i}\rangle ,y_{i})$ $\Gamma _{i}\in \mathbb {R} ^{d\times d}$ $\gamma _{i}\in \mathbb {R}$ $n$ $O(nd)$ $i$ $O(d)$

しかし、期待リスク最小化問題を解くには、上述のようにステップサイズを慎重に選択する必要があります。減衰ステップサイズを選択することで、平均反復の収束を証明できます。この設定は、最適化におけるよく知られた問題である確率的最適化の特殊なケースです。 ^[2] $\gamma _{i}$ $\gamma _{i}\approx {\frac {1}{\sqrt {i}}},$ ${\textstyle {\overline {w}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}w_{i}}$

増分確率勾配降下法

実際には、データに対して複数の確率的勾配パス（サイクルまたはエポックとも呼ばれる）を実行することができます。このようにして得られるアルゴリズムは増分勾配法と呼ばれ、反復に相当します。確率的勾配法との主な違いは、ここではステップでどのトレーニングポイントを訪問するかを決定するためにシーケンスが選択される点です。このようなシーケンスは、確率的でも決定論的でも構いません。反復回数はポイント数とは切り離されます（各ポイントは複数回考慮することができます）。増分勾配法は、経験的リスクを最小化する手法であることが示されています。^[4]増分手法は、多くの項の合計で構成される目的関数（例えば、非常に大規模なデータセットに対応する経験的誤差）を考慮する場合に有利です。^[2] $w_{i}=w_{i-1}-\gamma _{i}\nabla V(\langle w_{i-1},x_{t_{i}}\rangle ,y_{t_{i}})$ $t_{i}$ $i$

カーネル法

カーネルは、上記のアルゴリズムをノンパラメトリックモデル（またはパラメータが無限次元空間を形成するモデル）に拡張するために使用できます。対応する手順は完全にオンラインではなく、すべてのデータポイントを保存することになりますが、それでもブルートフォース法よりも高速です。この議論は平方損失の場合に限定されていますが、任意の凸損失に拡張できます。簡単な帰納法^[2]により、がデータ行列であり、がSGDアルゴリズムの各ステップ後の出力である場合、であることが示されます。ここで、シーケンスは次の再帰を満たします。およびここで、はの標準的なカーネルであり、予測子は次の形式であることに注意してください。 $X_{i}$ $w_{i}$ $i$ $w_{i}=X_{i}^{\mathsf {T}}c_{i}$ $c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ $c_{i}$ $c_{0}=0$ $(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1$ $(c_{i})_{i}=\gamma _{i}{\Big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x_{i}\rangle {\Big )}$ $\langle x_{j},x_{i}\rangle$ $\mathbb {R} ^{d}$ $f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j}\langle x_{j},x\rangle .$

ここで、代わりに一般的なカーネルを導入し、予測子をとすると、同じ証明から、最小二乗損失を最小化する予測子は、上記の再帰をに変更することによって得られることも示されます。上記の式では、を更新するためにすべてのデータを保存する必要があります。番目のデータポイントを評価する場合の再帰の合計時間計算量はです。ここで、は単一のポイントペアでカーネルを評価するコストです。^[2]このように、カーネルを使用すると、代わりにパラメータ空間で再帰を実行することで、有限次元のパラメータ空間からカーネルによって表される可能性のある無限次元の特徴に移行できます。この次元は、トレーニングデータセットのサイズと同じです。一般に、これは表現子定理の結果です。^[2] $K$ $f_{i}(x)=\sum _{j=1}^{i-1}(c_{i-1})_{j}K(x_{j},x)$ $(c_{i})_{i}=\gamma _{i}{\Big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1})_{j}K(x_{j},x_{i}){\Big )}$ $c_{i}$ $n$ $O(n^{2}dk)$ $k$ $\textstyle w_{i}\in \mathbb {R} ^{d}$ $K$ $\textstyle c_{i}\in \mathbb {R} ^{i}$

オンライン凸最適化

オンライン凸最適化（OCO）^[5]は、凸最適化を活用して効率的なアルゴリズムを実現する意思決定のための一般的なフレームワークです。このフレームワークは、以下のような繰り返しゲームプレイに基づいています。

のために $t=1,2,...,T$

学習者は入力を受け取る $x_{t}$
固定凸集合からの学習器出力 $w_{t}$ $S$
自然は凸損失関数を返します。 $v_{t}:S\rightarrow \mathbb {R}$
学習者は損失を被り、モデルを更新する $v_{t}(w_{t})$

目標は、後悔、つまり累積損失と事後的に最良の固定点の損失との差を最小化することです。例として、オンライン最小二乗線形回帰の場合を考えてみましょう。ここでは、重みベクトルは凸集合から与えられ、凸損失関数が自然と返されます。ここで、は暗黙的にとともに送られることに注意してください。 $u\in S$ $S=\mathbb {R} ^{d}$ $v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2}$ $y_{t}$ $v_{t}$

しかし、オンライン予測問題の中には、OCOの枠組みに当てはまらないものもあります。例えば、オンライン分類では、予測領域と損失関数は凸ではありません。このようなシナリオでは、ランダム化と代理損失関数という2つのシンプルな凸化手法が用いられます。 ^[^要出典^]

いくつかの単純なオンライン凸最適化アルゴリズムは次のとおりです。

リーダーに従う（FTL）

最も単純な学習規則は、（現在のステップにおいて）過去のすべてのラウンドで損失が最小となる仮説を選択することです。このアルゴリズムは「リーダーに従う」と呼ばれ、ラウンドは単純に次のように与えられます。したがって、この手法は貪欲アルゴリズムと見なすことができます。オンライン二次最適化（損失関数が）の場合、に比例して増加するリグレット境界を示すことができます。しかし、オンライン線形最適化のような他の重要なモデル群に対するFTLアルゴリズムでは、同様の境界を得ることはできません。これを実現するために、FTLに正則化を追加することでFTLを修正します。 $t$ $w_{t}=\mathop {\operatorname {arg\,min} } _{w\in S}\sum _{i=1}^{t-1}v_{i}(w)$ $v_{t}(w)=\left\|w-x_{t}\right\|_{2}^{2}$ $\log(T)$

正規化されたリーダーに従う（FTRL）

これはFTLの自然な修正であり、FTL解を安定化させ、より良い後悔境界を得るために用いられます。tラウンドで以下のように正則化関数が $選択$ され、学習が行われます。特別な例として、オンライン線形最適化の場合、つまり、自然がの形式の損失関数を返す場合を考えてみましょう。また、とします。正則化関数が何らかの正の数に対して選択されたと仮定します。すると、後悔最小化反復がになることが示せます。これはと書き直すことができ、オンライン勾配降下法と全く同じように見えることに注意してください。 $R:S\to \mathbb {R}$ $w_{t}=\mathop {\operatorname {arg\,min} } _{w\in S}\sum _{i=1}^{t-1}v_{i}(w)+R(w)$ $v_{t}(w)=\langle w,z_{t}\rangle$ $S=\mathbb {R} ^{d}$ ${\textstyle R(w)={\frac {1}{2\eta }}\left\|w\right\|_{2}^{2}}$ $\eta$ $w_{t+1}=-\eta \sum _{i=1}^{t}z_{i}=w_{t}-\eta z_{t}$ $w_{t+1}=w_{t}-\eta \nabla v_{t}(w_{t})$

$S$ がの凸部分空間である場合、 $S$ をに射影する必要があり、修正更新則が適用されます。このアルゴリズムは、ベクトルが勾配を累積するため、遅延射影と呼ばれます。また、ネステロフの双対平均化アルゴリズムとしても知られています。線形損失関数と二次正則化のこのシナリオでは、リグレットはによって制限されるため、平均リグレットは期待どおりに $0$ になります。 $\mathbb {R} ^{d}$ $w_{t+1}=\Pi _{S}(-\eta \sum _{i=1}^{t}z_{i})=\Pi _{S}(\eta \theta _{t+1})$ $\theta _{t+1}$ $O({\sqrt {T}})$

オンライン劣勾配降下法（OSD）

上記は線形損失関数に対する後悔境界を証明しました。このアルゴリズムを任意の凸損失関数に一般化するために、の劣勾配をに近いの線形近似として用い、オンライン劣勾配降下法アルゴリズムを導きます。 $v_{t}(w)=\langle w,z_{t}\rangle$ $\partial v_{t}(w_{t})$ $v_{t}$ $v_{t}$ $w_{t}$

パラメータを初期化する $\eta ,w_{1}=0$

のために $t=1,2,...,T$

を使って予測し、自然から受け取る。 $w_{t}$ $f_{t}$
選ぶ $z_{t}\in \partial v_{t}(w_{t})$
の場合、次のように更新します。 $S=\mathbb {R} ^{d}$ $w_{t+1}=w_{t}-\eta z_{t}$
ならば、累積勾配をすなわち $S\subset \mathbb {R} ^{d}$ $S$ $w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t}$

OSDアルゴリズムを使用して、分類のためのオンライン版SVMの後悔境界を導出することができる。これはヒンジ損失を使用する。 $O({\sqrt {T}})$ $v_{t}(w)=\max\{0,1-y_{t}(w\cdot x_{t})\}$

その他のアルゴリズム

二次正規化FTRLアルゴリズムは、上述の遅延投影勾配アルゴリズムにつながります。任意の凸関数と正則化器に上記を適用するには、オンラインミラー降下法を使用します。線形損失関数については、事後的な最適正則化を導出することができ、これはAdaGradアルゴリズムにつながります。ユークリッド正則化については、のリグレット境界を示すことができ、これはさらに、強凸関数および指数凹関数の損失関数に対してはまで改善できます。 $O({\sqrt {T}})$ $O(\log T)$

継続的な学習

継続学習とは、連続的な情報ストリームを処理することで、学習したモデルを継続的に改善することを意味します。^[6]継続学習機能は、絶えず変化する現実世界で相互作用するソフトウェアシステムや自律エージェントにとって不可欠です。しかし、非定常なデータ分布から段階的に利用可能な情報を継続的に取得することは、一般的に壊滅的な忘却につながるため、機械学習やニューラルネットワークモデルにとって継続学習は課題となります。

オンライン学習の解釈

オンライン学習のパラダイムは、学習モデルの選択によって異なる解釈が可能であり、それぞれのモデルは関数列の予測精度について異なる意味合いを持つ。この議論では、典型的な確率的勾配降下法を用いる。前述のように、その再帰は次のように与えられる。 $f_{1},f_{2},\ldots ,f_{n}$ $w_{t}=w_{t-1}-\gamma _{t}\nabla V(\langle w_{t-1},x_{t}\rangle ,y_{t})$

最初の解釈では、上で定義した期待リスクを最小化する問題に適用される確率的勾配降下法を検討します。^[7]実際、無限データストリームの場合、例は分布から iid 抽出されると想定されるため、上記の反復におけるの勾配のシーケンスは、期待リスクの勾配の確率的推定値の iid サンプルであり、したがって、確率的勾配降下法の複雑性の結果を適用して偏差を制限できます。ここで、はの最小化者です。^[8]この解釈は、有限のトレーニングセットの場合にも有効です。データを複数回通過すると勾配は独立ではなくなりますが、それでも特殊なケースで複雑性の結果を得ることができます。 $I[w]$ $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ $p(x,y)$ $V(\cdot ,\cdot )$ $I[w]$ $I[w_{t}]-I[w^{\ast }]$ $w^{\ast }$ $I[w]$

2 番目の解釈は、有限トレーニングセットの場合に適用され、SGD アルゴリズムを増分勾配降下法の 1 つの例として考えます。^[4]この場合、代わりに経験的リスクに注目します。増分勾配降下法の反復におけるの勾配はの勾配の確率的推定値でもあるため、この解釈も確率的勾配降下法に関連していますが、期待されるリスクではなく経験的リスクを最小化するために適用されます。この解釈は経験的リスクに関するものであり、期待されるリスクに関するものではないため、データの複数回のパスが容易に許可され、実際に偏差の境界が狭くなります。ここではの最小値です。 $I_{n}[w]={\frac {1}{n}}\sum _{i=1}^{n}V(\langle w,x_{i}\rangle ,y_{i})\ .$ $V(\cdot ,\cdot )$ $I_{n}[w]$ $I_{n}[w_{t}]-I_{n}[w_{n}^{\ast }]$ $w_{n}^{\ast }$ $I_{n}[w]$

実装

Vowpal Wabbit：オープンソースの高速アウトオブコアオンライン学習システム。機械学習による様々な縮約、重要度重み付け、そして様々な損失関数と最適化アルゴリズムをサポートしていることが特徴。ハッシュトリックを用いることで、学習データの量に依存せずに特徴量セットのサイズを制限します。
scikit-learn : アルゴリズムのアウトオブコア実装を提供します
- 分類:パーセプトロン、SGD 分類器、ナイーブベイズ分類器。
- 回帰: SGD 回帰変数、パッシブアグレッシブ回帰変数。
- クラスタリング:ミニバッチ k-means。
- 特徴抽出:ミニバッチ辞書学習、増分 PCA。

参照

学習パラダイム

一般的なアルゴリズム

学習モデル

参考文献

^ 「大規模言語モデルのオンライントレーニング：チャットしながら学ぶ」arxiv.org . 2025年10月3日閲覧。
^ abcdefg L. Rosasco, T. Poggio, 機械学習：正規化アプローチ、MIT-9.520講義ノート、原稿、2015年12月。第7章 - オンライン学習
^ クシュナー、ハロルド・J.、イン、G.ジョージ (2003).確率的近似と再帰アルゴリズムとその応用（第2版）. ニューヨーク: シュプリンガー. pp. 8–12. ISBN 978-0-387-21769-7。
^ ab Bertsekas, DP (2011). 凸最適化における増分勾配法、劣勾配法、近似法：概観. 機械学習のための最適化, 85.
^ Hazan, Elad (2015). オンライン凸最適化入門(PDF) . 最適化の基礎とトレンド.
^ Parisi, German I.; Kemker, Ronald; Part, Jose L.; Kanan, Christopher; Wermter, Stefan (2019). 「ニューラルネットワークによる継続的な生涯学習：レビュー」. Neural Networks . 113 : 54–71 . arXiv : 1802.07569 . doi :10.1016/j.neunet.2019.01.012. ISSN 0893-6080. PMID 30780045.
^ Bottou, Léon (1998). 「オンラインアルゴリズムと確率的近似」.オンライン学習とニューラルネットワーク. ケンブリッジ大学出版局. ISBN 978-0-521-65263-6。
^ 確率近似アルゴリズムとその応用、Harold J. KushnerとG. George Yin、ニューヨーク：Springer-Verlag、1997年。ISBN 0-387-94916-X; 第2版、Stochastic approximation and Recursive Algorithms and Applications、2003年、ISBN 0-387-00894-2。

外部リンク

6.883: 機械学習におけるオンライン手法：理論と応用。アレクサンダー・ラクリン。MIT

[1] 「大規模言語モデルのオンライントレーニング：チャットしながら学ぶ」arxiv.org . 2025年10月3日閲覧。

[lorenzo-2] L. Rosasco, T. Poggio, 機械学習：正規化アプローチ、MIT-9.520講義ノート、原稿、2015年12月。第7章 - オンライン学習

[3] クシュナー、ハロルド・J.、イン、G.ジョージ (2003).確率的近似と再帰アルゴリズムとその応用（第2版）. ニューヨーク: シュプリンガー. pp. 8–12. ISBN 978-0-387-21769-7。

[bertsekas-4] Bertsekas, DP (2011). 凸最適化における増分勾配法、劣勾配法、近似法：概観. 機械学習のための最適化, 85.

[5] Hazan, Elad (2015). オンライン凸最適化入門(PDF) . 最適化の基礎とトレンド.

[6] Parisi, German I.; Kemker, Ronald; Part, Jose L.; Kanan, Christopher; Wermter, Stefan (2019). 「ニューラルネットワークによる継続的な生涯学習：レビュー」. Neural Networks . 113 : 54–71 . arXiv : 1802.07569 . doi :10.1016/j.neunet.2019.01.012. ISSN 0893-6080. PMID 30780045.

[7] Bottou, Léon (1998). 「オンラインアルゴリズムと確率的近似」.オンライン学習とニューラルネットワーク. ケンブリッジ大学出版局. ISBN 978-0-521-65263-6。

[kushneryin-8] 確率近似アルゴリズムとその応用、Harold J. KushnerとG. George Yin、ニューヨーク：Springer-Verlag、1997年。ISBN 0-387-94916-X; 第2版、Stochastic approximation and Recursive Algorithms and Applications、2003年、ISBN 0-387-00894-2。