チェーンルール

微積分学において、連鎖律とは、 2つの微分可能関数 $f$ と $gの$ 合成の導関数を、 $f$ と $g$ の導関数を用いて表す公式である。より正確には、が任意の $x$ に対してとなる関数である場合、連鎖律はラグランジュ記法でとなる。あるいは、それと同値で、 $h=f\circ g$ $h(x)=f(g(x))$ $h'(x)=f'(g(x))g'(x).$ $h'=(f\circ g)'=(f'\circ g)\cdot g'.$

連鎖律はライプニッツ記法で表すこともできます。変数 $z が$ 変数 $y$ に依存し、変数 y が変数 $x$ に依存する場合（つまり、 $y$ と $zが$ 従属変数である場合）、 $z は中間変数$ $yを介して$ $x$ にも依存します。この場合、連鎖律はと表され、どの点で導関数を評価する必要があるかを示します。 ${\frac {dz}{dx}}={\frac {dz}{dy}}\cdot {\frac {dy}{dx}},$ $\left.{\frac {dz}{dx}}\right|_{x}=\left.{\frac {dz}{dy}}\right|_{y(x)}\cdot \left.{\frac {dy}{dx}}\right|_{x},$

積分において、連鎖律に対応するのは置換律です。

直感的な説明

直感的に言えば、連鎖律は、 $y$ に対する $z$ の瞬間変化率と $x$ に対する $y$ の瞬間変化率を知ることで、2 つの変化率の積として $x$ に対する $z$ の瞬間変化率を計算できることを示しています。

ジョージ・F・シモンズ氏は次のように述べています。「車が自転車の2倍の速さで走り、自転車が歩行者の4倍の速さで走っている場合、車は歩行者の2×4＝8倍の速さで走ることになります。」^[1]^[2]

この例と連鎖律の関係は以下のとおりです。z $、$ $y$ 、 $xを$ それぞれ車、自転車、歩行者の（可変の）位置とします。車と自転車の相対的な位置の変化率は、同様に、車と歩行者の相対的な位置の変化率は、 ${\textstyle {\frac {dz}{dy}}=2.}$ ${\textstyle {\frac {dy}{dx}}=4.}$ ${\frac {dz}{dx}}={\frac {dz}{dy}}\cdot {\frac {dy}{dx}}=2\cdot 4=8.$

位置の変化率は速度の比であり、速度は時間に対する位置の微分です。つまり、または、同等に、これも連鎖律の応用です。 ${\frac {dz}{dx}}={\frac {\frac {dz}{dt}}{\frac {dx}{dt}}},$ ${\frac {dz}{dt}}={\frac {dz}{dx}}\cdot {\frac {dx}{dt}},$

歴史

連鎖律は、ゴットフリート・ヴィルヘルム・ライプニッツが初めて使用したと思われる。彼は、平方根関数と関数の合成としての導関数を計算するためにそれを使用した。彼が初めてそれについて言及したのは 1676 年の回想録である（計算に符号エラーあり）。^[3]連鎖律の一般的な表記法は、ライプニッツによるものである。^[4]ギヨーム・ド・ロピタルは、彼の著書「小無限大の分析」で連鎖律を暗黙的に使用した。連鎖律は、ライプニッツの発見から 100 年以上も後に書かれたレオンハルト・オイラーの解析学の本にはどこにも登場しない。 ^[^要出典^{]連鎖律の最初の「現代」版は、ラグランジュの 1797 年の}著書「解析関数理論」に登場すると考えられている。これは、コーシーの 1823 年の『Résumé des Leçons données a L'École Royale Polytechnique sur Le Calcul Infinitesimal』にも登場します。^[4] ${\sqrt {a+bz+cz^{2}}}$ $a+bz+cz^{2}\!$

声明

連鎖律の最も単純な形は、実数値関数に対して成り立つ。これは、 $g$ が点 $c$ で微分可能な関数（すなわち導関数 $g'(c)$ が存在する）であり、 $fが$ $g (c)$ で微分可能な関数である場合、合成関数は $c$ で微分可能であり、導関数は^[5]となることを述べている。この規則は次のように略されることもある。 $f\circ g$ $(f\circ g)'(c)=f'(g(c))\cdot g'(c).$ $(f\circ g)'=(f'\circ g)\cdot g'.$

$y = f (u)$ かつ $u = g (x)$ の場合、この省略形はライプニッツ記法で次のように表されます。 ${\frac {dy}{dx}}={\frac {dy}{du}}\cdot {\frac {du}{dx}}.$

導関数が評価されるポイントも明示的に指定できます。 $\left.{\frac {dy}{dx}}\right|_{x=c}=\left.{\frac {dy}{du}}\right|_{u=g(c)}\cdot \left.{\frac {du}{dx}}\right|_{x=c}.$

同じ推論をさらに進めると、合成関数を持つ $n$ 個の関数が与えられ、各関数がその直接の入力で微分可能であれば、連鎖律を繰り返し適用することで合成関数も微分可能になります。ここで、導関数は（ライプニッツの記法では）次のようになります。 $f_{1},\ldots ,f_{n}\!$ $f_{1}\circ (f_{2}\circ \cdots (f_{n-1}\circ f_{n}))\!$ $f_{i}\!$ ${\frac {df_{1}}{dx}}={\frac {df_{1}}{df_{2}}}{\frac {df_{2}}{df_{3}}}\cdots {\frac {df_{n}}{dx}}.$

アプリケーション

2つ以上の関数の合成

連鎖律は、2つ以上の関数の合成にも適用できます。2つ以上の関数の合成の微分を求める場合、 $f$ 、 $g$ 、 $h$ （この順序）の合成は、 $f$ と $g \circ h$ の合成であることに留意してください。連鎖律によれば、 $f \circ g \circ hの微分を計算するには、$ $fの微分と$ $g \circ h$ の微分を計算すれば十分です。 $f$ の微分は直接計算でき、 $g \circ h$ の微分は連鎖律を再度適用することで計算できます。^[要出典]

具体的には、関数を考えます。これは、3 つの関数の合成として分解できます。つまり、となります。 $y=e^{\sin(x^{2})}.$ ${\begin{aligned}y&=f(u)=e^{u},\\u&=g(v)=\sin v,\\v&=h(x)=x^{2}.\end{aligned}}$ $y=f(g(h(x)))$

それらの派生語は次のとおりです。 ${\begin{aligned}{\frac {dy}{du}}&=f'(u)=e^{u},\\{\frac {du}{dv}}&=g'(v)=\cos v,\\{\frac {dv}{dx}}&=h'(x)=2x.\end{aligned}}$

連鎖律によれば、点 $x = a$ におけるそれらの合成値の導関数は次のようになります。 ${\begin{aligned}(f\circ g\circ h)'(a)&=f'((g\circ h)(a))\cdot (g\circ h)'(a)\\&=f'((g\circ h)(a))\cdot g'(h(a))\cdot h'(a)\\&=(f'\circ g\circ h)(a)\cdot (g'\circ h)(a)\cdot h'(a).\end{aligned}}$

ライプニッツの記法では、これは次のようになります。または、簡単に言うと、したがって、微分関数は次のようになります。 ${\frac {dy}{dx}}=\left.{\frac {dy}{du}}\right|_{u=g(h(a))}\cdot \left.{\frac {du}{dv}}\right|_{v=h(a)}\cdot \left.{\frac {dv}{dx}}\right|_{x=a},$ ${\frac {dy}{dx}}={\frac {dy}{du}}\cdot {\frac {du}{dv}}\cdot {\frac {dv}{dx}}.$ ${\frac {dy}{dx}}=e^{\sin(x^{2})}\cdot \cos(x^{2})\cdot 2x.$

この導関数を計算する別の方法は、合成関数 $f \circ g \circ hを$ $f \circ g$ とhの合成関数と見なすことです。このように連鎖律を適用すると、以下の式が得られます。 ${\begin{aligned}(f\circ g\circ h)'(a)&=(f\circ g)'(h(a))\cdot h'(a)\\&=f'(g(h(a)))\cdot g'(h(a))\cdot h'(a).\end{aligned}}$

これは上で計算したものと同じです。 $(f \circ g) \circ h = f \circ (g \circ h)$ なので、これは予想通りの結果です。

場合によっては、任意の長さのの合成を微分する必要がある。この場合、がいつ、どこで成立するかを定義する。そうすると、連鎖律はの形をとる。ラグランジュ記法では、 $f_{1}\circ f_{2}\circ \cdots \circ f_{n-1}\circ f_{n}\!$ $f_{a\,.\,.\,b}=f_{a}\circ f_{a+1}\circ \cdots \circ f_{b-1}\circ f_{b}$ $f_{a\,.\,.\,a}=f_{a}$ $f_{a\,.\,.\,b}(x)=x$ $b<a$ ${\begin{aligned}Df_{1\,.\,.\,n}&=(Df_{1}\circ f_{2\,.\,.\,n})(Df_{2}\circ f_{3\,.\,.\,n})\cdots (Df_{n-1}\circ f_{n\,.\,.\,n})Df_{n}\\&=\prod _{k=1}^{n}\left[Df_{k}\circ f_{(k+1)\,.\,.\,n}\right]\end{aligned}}$ ${\begin{aligned}f_{1\,.\,.\,n}'(x)&=f_{1}'\left(f_{2\,.\,.\,n}(x)\right)\;f_{2}'\left(f_{3\,.\,.\,n}(x)\right)\cdots f_{n-1}'\left(f_{n\,.\,.\,n}(x)\right)\;f_{n}'(x)\\[1ex]&=\prod _{k=1}^{n}f_{k}'\left(f_{(k+1\,.\,.\,n)}(x)\right)\end{aligned}}$

商の法則

連鎖律は、いくつかのよく知られた微分法則を導くために用いることができます。例えば、商則は連鎖律と積則の帰結です。これを確認するには、関数 $f (x)/ g (x)$ を積 $f (x) \cdot 1/ g (x)$ と書きます。まず積則を適用します。 ${\begin{aligned}{\frac {d}{dx}}\left({\frac {f(x)}{g(x)}}\right)&={\frac {d}{dx}}\left(f(x)\cdot {\frac {1}{g(x)}}\right)\\&=f'(x)\cdot {\frac {1}{g(x)}}+f(x)\cdot {\frac {d}{dx}}\left({\frac {1}{g(x)}}\right).\end{aligned}}$

$1/ g (x)$ の導関数を計算するには、 $gと逆関数、つまり$ $x を$ $1/ x$ に送る関数との合成であることに注意してください。逆関数の導関数はです。連鎖律を適用すると、最後の式はとなります。これは商則の一般的な公式です。 $-1/x^{2}\!$ $f'(x)\cdot {\frac {1}{g(x)}}+f(x)\cdot \left(-{\frac {1}{g(x)^{2}}}\cdot g'(x)\right)={\frac {f'(x)g(x)-f(x)g'(x)}{g(x)^{2}}},$

逆関数の微分

$y = g (x)が$ 逆関数を持つと仮定します。その逆関数を $fと呼び、$ $x = f (y)$ とします。 $f$ の微分は $g$ の微分によって表されます。これを確認するには、 $f$ と $g が$ 次の式を満たすことに注目してください。 $f(g(x))=x.$

そして、関数と $xは$ 等しいので、それらの導関数も等しくなければなりません。xの導関数 $は$ 値が1の定数関数であり、の導関数は連鎖律によって決定されます。したがって、次の式が成り立ちます。 $f(g(x))$ $f(g(x))$ $f'(g(x))g'(x)=1.$

$f' を独立変数$ $y$ の関数として表すには、 xが現れる箇所に $x$ を代入します。そうすれば $f'$ を解くことができます。 $f(y)$ ${\begin{aligned}f'(g(f(y)))g'(f(y))&=1\\f'(y)g'(f(y))&=1\\f'(y)={\frac {1}{g'(f(y))}}.\end{aligned}}$

例えば、関数 $g (x) = e x$ を考えてみましょう。この関数の逆関数 $f (y) = ln yがあります。g$ $' (x) = e x$ なので、上記の式は ${\frac {d}{dy}}\ln y={\frac {1}{e^{\ln y}}}={\frac {1}{y}}.$

この式は、 $g$ が微分可能で、その逆関数 $f$ も微分可能な場合は常に成立します。これらの条件のいずれかが成立しない場合、この式は成立しません。たとえば、 $g (x) = x 3$ を考えます。その逆関数は $f (y) = y 1/3$ ですが、これは 0 で微分できません。上記の式を使用して $fの 0 での導関数を計算しようとすると、$ $1/ g'(f (0))$ を評価する必要があります。 $f (0) = 0$ かつ $g'(0) = 0であるため、 1/0 を評価する必要がありますが、これは未定義です。したがって、この場合、式は成立しません。$ $f$ は 0 で微分不可能であるため、これは驚くことではありません。

バックプロパゲーション

連鎖律はバックプロパゲーションアルゴリズムの基礎であり、ディープラーニング（人工知能）におけるニューラルネットワークの勾配降下法で使用されている。^[6]

高階微分

ファア・ディ・ブルーノの公式は、 $連鎖$ 律を高次の微分に一般化したものである。y $=$ $f (u)$ 、 $u = g (x)$ と仮定すると、最初のいくつかの微分は次のようになる。 ${\begin{aligned}{\frac {dy}{dx}}&={\frac {dy}{du}}{\frac {du}{dx}}\\{\frac {d^{2}y}{dx^{2}}}&={\frac {d^{2}y}{du^{2}}}\left({\frac {du}{dx}}\right)^{2}+{\frac {dy}{du}}{\frac {d^{2}u}{dx^{2}}}\\{\frac {d^{3}y}{dx^{3}}}&={\frac {d^{3}y}{du^{3}}}\left({\frac {du}{dx}}\right)^{3}+3\,{\frac {d^{2}y}{du^{2}}}{\frac {du}{dx}}{\frac {d^{2}u}{dx^{2}}}+{\frac {dy}{du}}{\frac {d^{3}u}{dx^{3}}}\\{\frac {d^{4}y}{dx^{4}}}&={\frac {d^{4}y}{du^{4}}}\left({\frac {du}{dx}}\right)^{4}+6\,{\frac {d^{3}y}{du^{3}}}\left({\frac {du}{dx}}\right)^{2}{\frac {d^{2}u}{dx^{2}}}+{\frac {d^{2}y}{du^{2}}}\left(4\,{\frac {du}{dx}}{\frac {d^{3}u}{dx^{3}}}+3\,\left({\frac {d^{2}u}{dx^{2}}}\right)^{2}\right)+{\frac {dy}{du}}{\frac {d^{4}u}{dx^{4}}}.\end{aligned}}$

証明

最初の証明

連鎖律の証明の一つは、合成関数 $f \circ g$ $の導関数を定義することから始まります。ここで、 x が$ $a$ に近づくにつれて $f$ $\circ$ $g$ の差商の極限をとります。 $(f\circ g)'(a)=\lim _{x\to a}{\frac {f(g(x))-f(g(a))}{x-a}}.$

今のところ、がの近傍の任意のに対して等しくないと仮定します。そうすると、前の式は2つの因数の積に等しくなります。 $g(x)\!$ $g(a)$ $x$ $a$ $\lim _{x\to a}{\frac {f(g(x))-f(g(a))}{g(x)-g(a)}}\cdot {\frac {g(x)-g(a)}{x-a}}.$

$がa$ 付近で振動する場合、 $a$ にどれだけ近づいても、さらに近い $xが存在し、$ $g$ $($ $x$ $) =$ $g$ $($ $a$ $)$ となることがあります。たとえば、 x $= 0のときは g ( x$ $) = 0 で、それ以外のときは$ $g$ $($ $x$ $)$ $=$ $x$ $2$ $sin(1/$ $x$ $)$ で $定義$ $さ$ れる連続関数 $g$ の場合、 $a = 0 付近でこの現象が発生します。このような場合、$ $ゼロ$ 除算が含まれるため、上記の式は定義されていません。この問題を回避するには、次のような関数を導入します。 $f$ $\circ$ $g$ $の差商が$ 常に次の値に等しいことを示します。 $g$ $Q$ $Q(y)={\begin{cases}\displaystyle {\frac {f(y)-f(g(a))}{y-g(a)}},&y\neq g(a),\\f'(g(a)),&y=g(a).\end{cases}}$ $Q(g(x))\cdot {\frac {g(x)-g(a)}{x-a}}.$

$g (x)が$ $g (a)$ と等しくない場合は、 $g (x) - g (a)$ の因数が打ち消されるため、このことは明らかです。 $g (x)が$ $g (a)$ と等しい場合、 $f$ $($ $g$ $($ $x$ $))が$ $f$ $($ $g$ $($ $a$ $))$ と等しいため、 $f \circ g$ の差商はゼロになります。また、上記の積は $f$ $'($ $g$ $($ $a$ $)) の$ ゼロ倍に等しいため、ゼロになります。つまり、上記の積は常に差商に等しく、 $a$ における $f$ $\circ$ $gの導関数が存在し、その値を決定するには、上記の積の$ $x が$ $a$ に近づくときの極限が存在し、その値を決定すればよいだけです。

これを実行するには、積の極限は、その因数の極限が存在する場合にも存在することを思い出してください。この場合、これら2つの因数の積の極限は、因数の極限の積に等しくなります。2つの因数は、 $Q (g (x))$ と $(g (x) - g (a)) / (x - a)$ です。後者は $a$ における $g$ の差の商であり、仮定により $g は$ $a$ で微分可能であるため、 $x が$ $a$ に近づくにつれて極限が存在し、 $g$ $'($ $a$ $)$ に等しくなります。

$Q (g (x))$ については、 $Q は$ $f が$ どこにあっても定義されることに注意してください。さらに、仮定により $fは$ $g (a)$ で微分可能であるため、微分の定義により $Qは$ $g (a)$ で連続です。関数 $gは$ $a$ で微分可能であるため $a$ で連続であり、したがって $Q \circ g$ $はa$ で連続です。したがって、 $x が$ $a$ に近づくにつれて Q ( g $($ $a$ )) の極限が存在し、これは $Q (g ( a ))$ に等しく、 $f'(g (a))$ です。

これは、両因子に極限が存在し、それぞれ $f'(g (a))$ と $g'(a)に等しいことを示しています。したがって、$ aにおける $f \circ g$ の微分は存在し、 $f$ $'($ $g$ $($ $a$ $))$ $g$ $'($ $a$ $)$ に等しくなります。

第二校正

連鎖律を証明する別の方法は、導関数によって決定される線形近似の誤差を測定することです。この証明は、複数の変数に一般化できるという利点があります。これは、ある点における微分可能性の次の等価な定義に基づいています。関数gがaで微分可能であるとは、実数g ′( a ) と、 h がゼロに近づくにつれてゼロに近づく関数ε ( h ) が存在し、さらに、であることを意味します。ここで、左辺はaと $a$ $+$ $h$ におけるgの値の真の差を表し、右辺は導関数によって決定される近似値に誤差項を加えたものを表します。 $g(a+h)-g(a)=g'(a)h+\varepsilon (h)h.$

連鎖律の状況では、 g がaで微分可能であると仮定されるため、そのような関数εが存在する。また、仮定により、 g ( a )におけるfにも同様の関数が存在する。この関数をηと呼ぶと、次の式が得られる。上記の定義は、 k がゼロに近づくにつれてη ( k ) がゼロに近づくと仮定しているにもかかわらず、 η (0) に何の制約も課さない。η $($ $0) = 0$ と設定すれば、η は0 で連続となる。 $f(g(a)+k)-f(g(a))=f'(g(a))k+\eta (k)k.$

定理を証明するには、 hが 0 に近づくにつれて、差 $f (g (a + h)) - f (g (a))$ を調べる必要があります。最初のステップは、aにおけるgの微分可能性の定義を使用して、 $g$ $($ $a$ $+$ $h$ $)$ を代入することです。次のステップは、g ( a )におけるfの微分可能性の定義を使用することです。これには、あるkに対して、 $f$ $($ $g$ $($ $a$ $) +$ $k$ $)$ という形式の項が必要です。上記の式では、正しいk はhによって異なります。 $k$ $h$ $=$ $g$ $'($ $a$ $)$ $h$ $+$ $ε$ $($ $h$ $)$ $h$ と設定すると、右側の辺は $f$ $($ $g$ $($ $a$ $) +$ $k$ $h$ $) -$ $f$ $($ $g$ $($ $a$ $))$ になります。導関数の定義を適用すると、次のようになります。 h が0 に近づくにつれてこの式がどのように動作するかを調べるには、k _hを展開します。項を整理すると、右辺は次のようになります。hが0に近づくにつれてε ( h ) とη ( k _h )も0に近づくため、括弧で囲まれた最初の2つの項もhが0に近づくにつれて0に近づきます。最初の証明と同じ極限積の定理を適用すると、括弧で囲まれた3番目の項も0に近づきます。上記の式は差 $f$ $($ $g$ $($ $a$ $+$ $h$ $)) -$ $f$ $($ $g$ $($ $a$ $))$ に等しいため、導関数の定義により、 $f$ $\circ$ $g$ はaで微分可能であり、その導関数は $f$ $'($ $g$ $($ $a$ $))$ $g$ $'($ $a$ $) です。$ $f(g(a+h))-f(g(a))=f(g(a)+g'(a)h+\varepsilon (h)h)-f(g(a)).$ $f(g(a)+k_{h})-f(g(a))=f'(g(a))k_{h}+\eta (k_{h})k_{h}.$ $f'(g(a))g'(a)h+[f'(g(a))\varepsilon (h)+\eta (k_{h})g'(a)+\eta (k_{h})\varepsilon (h)]h.$

最初の証明におけるQの役割は、この証明ではηが担っています。これらは次の式で結びついています。g ( a )におけるQを定義する必要性は、ゼロにおけるηを定義する必要性に似ています。 $Q(y)=f'(g(a))+\eta (y-g(a)).$

第三の証明

コンスタンティン・カラテオドリによる関数の微分可能性の代替定義は、連鎖律のエレガントな証明を与えるために使用することができる。^[7]

この定義によれば、関数 $f$ が点 $aで微分可能であるためには、関数$ $q$ が存在し、それが $a$ で連続であり、 $f (x) - f (a) = q (x)(x - a)$ が成り立つことが必要である。そのような関数は最大で1つ存在し、 $f が$ $a$ で微分可能である場合、 $f'(a) = q (a)$ が成り立つ。

連鎖律の仮定と、微分可能関数および連続関数の合成が連続であるという事実から、 $g$ $($ $a$ $)$ で連続な関数 $q$ と $a$ で連続な関数 $r$ が存在し、かつ、かつとなることが分かる。したがって、しかし、 $h$ $($ $x$ $) =$ $q$ $($ $g$ $($ $x$ $))$ $r$ $($ $x$ $)$ で与えられる関数は $a$ で連続であり、この $a$ に対して、となる。同様のアプローチは、連続的に微分可能な（ベクトル）関数（多変数）に対しても適用できる。この因数分解の方法は、導関数がリプシッツ連続、ヘルダー連続などであることが求められる場合、より強い微分可能性形式に対する統一的なアプローチも可能にする。微分自体は、適切な関数のクラスに一般化された多項式剰余定理（小ベズー定理、または因数定理）と見なすことができる。^[^要出典^] $f(g(x))-f(g(a))=q(g(x))(g(x)-g(a))$ $g(x)-g(a)=r(x)(x-a).$ $f(g(x))-f(g(a))=q(g(x))r(x)(x-a),$ $(f(g(a)))'=q(g(a))r(a)=f'(g(a))g'(a).$

多変数の場合

連鎖律を多変数関数（など）に完全に一般化するのはやや専門的である。しかし、、各に対してとなる形の関数の場合は、次のように書く方が簡単である。 $f\colon \mathbb {R} ^{m}\to \mathbb {R} ^{n}$ $f(g_{1}(x),\dots ,g_{k}(x)),$ $f\colon \mathbb {R} ^{k}\to \mathbb {R}$ $g_{i}\colon \mathbb {R} \to \mathbb {R}$ $i=1,2,\dots ,k.$

このケースは単一変数の関数の研究では頻繁に発生するため、個別に説明する価値があります。

スカラー値多変数関数の場合

とし、各についてとします。関数の合成に関する連鎖律を書くには、関数 $f$ の $k$ 番目の引数に関する偏微分が必要です。偏微分の通常の表記では、関数の引数に名前が付けられます。上記の式ではこれらの引数に名前が付けられていないため、D 表記を使用し、関数 $fの$ $i$ 番目の引数に関する偏微分をで表し、この微分の $z$ における値をで表す方が単純かつ明確です。 $f\colon \mathbb {R} ^{k}\to \mathbb {R}$ $g_{i}\colon \mathbb {R} \to \mathbb {R}$ $i=1,2,\dots ,k.$ $x\mapsto f(g_{1}(x),\dots ,g_{k}(x)),$ $D_{i}f$ $D_{i}f(z)$

この表記法を用いると、連鎖律は ${\frac {d}{dx}}f(g_{1}(x),\dots ,g_{k}(x))=\sum _{i=1}^{k}\left({\frac {d}{dx}}{g_{i}}(x)\right)D_{i}f(g_{1}(x),\dots ,g_{k}(x)).$

例: 算術演算

関数 $f$ が加法関数、つまりならばとなり、となる。したがって連鎖律によれば $f(u,v)=u+v,$ ${\textstyle D_{1}f={\frac {\partial f}{\partial u}}=1}$ ${\textstyle D_{2}f={\frac {\partial f}{\partial v}}=1}$ ${\frac {d}{dx}}(g(x)+h(x))=\left({\frac {d}{dx}}g(x)\right)D_{1}f+\left({\frac {d}{dx}}h(x)\right)D_{2}f={\frac {d}{dx}}g(x)+{\frac {d}{dx}}h(x).$

乗算の場合、部分項はとです。したがって、 $f(u,v)=uv,$ $D_{1}f=v$ $D_{2}f=u$ ${\frac {d}{dx}}(g(x)h(x))=h(x){\frac {d}{dx}}g(x)+g(x){\frac {d}{dx}}h(x).$

指数の場合は少し複雑で、次のようになります。 $f(u,v)=u^{v}$ $D_{1}f=vu^{v-1},$ $u^{v}=e^{v\ln u},$ $D_{2}f=u^{v}\ln u.$ ${\frac {d}{dx}}\left(g(x)^{h(x)}\right)=h(x)g(x)^{h(x)-1}{\frac {d}{dx}}g(x)+g(x)^{h(x)}\ln g(x)\,{\frac {d}{dx}}h(x).$

一般的なルール: ベクトル値多変数関数

一般的なケースで連鎖律を記述する最も簡単な方法は、全微分を使うことです。これは、すべての方向微分を1 つの式で表す線型変換です。微分可能関数 $f : R m \to R k$ と $g : R n \to R m$ $、およびR$ $n$ 内の点 $a$ を考えます。D $a$ $g$ を $a$ における $g$ の全微分 $、$ $D$ $g$ $($ $a$ $)$ $f を$ $g$ $($ $a$ $)$ における $f$ の全微分とします。これらの 2 つの微分は、それぞれ線型変換 $R$ $n$ $\to$ $R$ $m$ と $R$ $m$ $\to$ $R$ $k$ であるため、合成できます。全微分に関する連鎖律は、それらの合成値が $a$ における $f$ $\circ$ $g$ の全微分:または略してとなることです。高次元の連鎖律は、上記の 2 番目の証明と同様の手法を使用して証明できます。^[8] $D_{\mathbf {a} }(f\circ g)=D_{g(\mathbf {a} )}f\circ D_{\mathbf {a} }g,$ $D(f\circ g)=Df\circ Dg.$

全微分は線型変換であるため、式に現れる関数は行列として書き直すことができます。全微分に対応する行列はヤコビ行列と呼ばれ、2つの微分の合成はそれらのヤコビ行列の積に対応します。この観点から、連鎖律は次のように表されます。あるいは、簡単に言えば、 $J_{f\circ g}(\mathbf {a} )=J_{f}(g(\mathbf {a} ))J_{g}(\mathbf {a} ),$ $J_{f\circ g}=(J_{f}\circ g)J_{g}.$

つまり、合成関数のヤコビアンは、合成関数のヤコビアンの積です (適切なポイントで評価されます)。

高次元連鎖律は、1次元連鎖律の一般化です。 $k$ 、 $m$ 、 $n$ が1 で、 $f : R \to R$ かつ $g : R \to Rとなる場合、$ $f$ と $g$ のヤコビ行列は $1 \times 1$ になります。具体的には、 $f$ $\circ$ $g$ のヤコビアンはこれらの $1 \times 1$ 行列の積なので、1次元連鎖律から予想されるように、 $f$ $'($ $g$ $($ $a$ $))\cdot$ $g$ $'($ $a$ $)$ となります。線形変換の言語では、 $D$ $a$ $($ $g$ $)はベクトルを$ $g$ $'($ $a$ $)$ 倍する関数であり、 $D$ $g$ $($ $a$ $)$ $($ $f$ $)はベクトルを$ $f$ $'($ $g$ $($ $a$ $))$ 倍する関数です。連鎖律によれば、これら2つの線形変換の合成は線形変換 $D$ $a$ $($ $f$ $\circ$ $g$ $)であり、したがってそれはベクトルを$ $f$ $'($ $g$ $($ $a$ $))\cdot$ $g$ $'($ $a$ $)$ でスケーリングする関数です。 ${\begin{aligned}J_{g}(a)&={\begin{pmatrix}g'(a)\end{pmatrix}},\\J_{f}(g(a))&={\begin{pmatrix}f'(g(a))\end{pmatrix}}.\end{aligned}}$

連鎖律の別の書き方は、fとgがその成分を用いて $y = f (u) = (f 1 (u), \dots, f k (u))$ 、 $u = g (x) = (g 1 (x), \dots, g m (x))$ と表されるときに用いられます。この場合、ヤコビ行列の上記の規則は通常、次のように表されます。 ${\frac {\partial (y_{1},\ldots ,y_{k})}{\partial (x_{1},\ldots ,x_{n})}}={\frac {\partial (y_{1},\ldots ,y_{k})}{\partial (u_{1},\ldots ,u_{m})}}{\frac {\partial (u_{1},\ldots ,u_{m})}{\partial (x_{1},\ldots ,x_{n})}}.$

全微分に関する連鎖律は、偏微分に関する連鎖律を暗示しています。全微分が存在する場合、 $i$ 番目の座標方向の偏微分は、ヤコビ行列に $i$ 番目の基底ベクトルを乗じることで求められることを思い出してください。上記の式にこれを当てはめると、次の式が得られます。ヤコビ行列の各要素は偏微分であるため、上記の式を簡略化すると次の式が得られます。より概念的に言えば、この規則は、 $x$ $i$ $方向の変化によってg$ $1$ から $g$ $m$ まですべてが変化する可能性があり、これらの変化のいずれかが $f$ に影響を与える可能性があるという事実を表しています。 ${\frac {\partial (y_{1},\ldots ,y_{k})}{\partial x_{i}}}={\frac {\partial (y_{1},\ldots ,y_{k})}{\partial (u_{1},\ldots ,u_{m})}}{\frac {\partial (u_{1},\ldots ,u_{m})}{\partial x_{i}}}.$ ${\frac {\partial (y_{1},\ldots ,y_{k})}{\partial x_{i}}}=\sum _{\ell =1}^{m}{\frac {\partial (y_{1},\ldots ,y_{k})}{\partial u_{\ell }}}{\frac {\partial u_{\ell }}{\partial x_{i}}}.$

$k = 1 の$ 特殊なケース、つまり $f$ が実数値関数となる場合、この式はさらに簡略化されます。これはドット積として書き直すことができます。u $= ($ $g$ $1$ $, \dots,$ $g$ $m$ $)$ $を$ 思い出すと、偏微分 $\partial$ $u$ $/ \partial$ $x$ $i$ もベクトルであり、連鎖律によれば次のようになります。 ${\frac {\partial y}{\partial x_{i}}}=\sum _{\ell =1}^{m}{\frac {\partial y}{\partial u_{\ell }}}{\frac {\partial u_{\ell }}{\partial x_{i}}}.$ ${\frac {\partial y}{\partial x_{i}}}=\nabla y\cdot {\frac {\partial \mathbf {u} }{\partial x_{i}}}.$

例

$u (x, y) = x 2 + 2 y$ $（ x (r, t) = r sin(t)$ 、 $y (r, t) = sin 2 (t) ）$ が与えられたとき、連鎖律を用いて $\partial u / \partial r$ と $\partial u / \partial t$ の値を決定します。^{[引用が必要]}および ${\frac {\partial u}{\partial r}}={\frac {\partial u}{\partial x}}{\frac {\partial x}{\partial r}}+{\frac {\partial u}{\partial y}}{\frac {\partial y}{\partial r}}=(2x)(\sin(t))+(2)(0)=2r\sin ^{2}(t),$ ${\begin{aligned}{\frac {\partial u}{\partial t}}&={\frac {\partial u}{\partial x}}{\frac {\partial x}{\partial t}}+{\frac {\partial u}{\partial y}}{\frac {\partial y}{\partial t}}\\&=(2x)(r\cos(t))+(2)(2\sin(t)\cos(t))\\&=(2r\sin(t))(r\cos(t))+4\sin(t)\cos(t)\\&=2(r^{2}+2)\sin(t)\cos(t)\\&=(r^{2}+2)\sin(2t).\end{aligned}}$

多変数関数の高次導関数

ファア・ディ・ブルーノの単変数関数の高階微分公式は、多変数の場合にも一般化されます。y $= f (u) が上記のように$ $u = g (x)$ の関数である場合、 $f \circ g$ の二階微分は次のようになります。 ${\frac {\partial ^{2}y}{\partial x_{i}\partial x_{j}}}=\sum _{k}\left({\frac {\partial y}{\partial u_{k}}}{\frac {\partial ^{2}u_{k}}{\partial x_{i}\partial x_{j}}}\right)+\sum _{k,\ell }\left({\frac {\partial ^{2}y}{\partial u_{k}\partial u_{\ell }}}{\frac {\partial u_{k}}{\partial x_{i}}}{\frac {\partial u_{\ell }}{\partial x_{j}}}\right).$

さらなる一般化

微積分の拡張にはすべて連鎖律があります。これらのほとんどにおいて、式の意味は大きく異なるものの、式自体は同じままです。

一般化の一つは多様体への適用です。この場合、連鎖律は $f \circ gの微分が$ $f$ の微分と $g$ の微分との合成であるという事実を表します。この定理は、上記に示した高次元の連鎖律から直接導かれるものであり、全く同じ式を持ちます。

連鎖律はバナッハ空間におけるフレシェ微分にも成り立つ。前述と同じ式が成り立つ。^{[9]この場合と前の場合を同時に}バナッハ多様体にも一般化できる。

微分代数において、導関数はケーラー微分加群の射として解釈される。可換環 $f$ $:$ $R$ $\to$ $S$ の環準同型は、ケーラー微分 $Df$ $: Ω$ $R$ $\to Ω$ $S$ の射を決定し、これは $f$ $($ $r$ $)$ の外微分 $d$ $($ $f$ $($ $r$ $))$ に元 $dr$ を写す。この文脈においても、式 $D$ $($ $f$ $\circ$ $g$ $) =$ $Df$ $\circ$ $Dgが成立する。$

これらの例に共通する特徴は、導関数が関数の一部であるという考え方を表現していることです。関数とは、空間とそれらの間の関数に対する操作です。関数は、各空間に新しい空間を関連付け、2 つの空間間の各関数に、対応する新しい空間間の新しい関数を関連付けます。上記の各ケースにおいて、関数は各空間をその接束に送り、各関数をその導関数に送ります。たとえば、多様体の場合、導関数は $C r$ $多様体をC r -1$ 多様体 (その接束)に送り、 $C r$ 関数をその全導関数に送ります。これが関数であるための要件が 1 つあります。つまり、合成物の導関数は、導関数の合成物でなければなりません。これは、式 $D (f \circ g) = Df \circ Dg$ とまったく同じです。

確率計算には連鎖律も存在する。その 1 つである伊藤の補題は、伊藤過程（より一般的には半マルチンゲール）dX _tと 2 回微分可能な関数fの合成を表現する。伊藤の補題では、合成関数の導関数はdX _tとfの導関数だけでなく、 fの 2 次導関数にも依存する。2 次導関数への依存は、確率過程の非ゼロの二次変化の結果であり、大まかに言えば、この過程が非常に大まかに上下に変動する可能性があることを意味する。この連鎖律の変形は、合成される 2 つの関数が異なる型であるため、関数の例ではない。

参照

自動微分 - 導関数を伴う数値計算 − 連鎖律を多用して正確な数値導関数を計算する計算方法。
微分法則 – 関数の微分を計算するための規則
置換積分 – 積分評価における手法
ライプニッツの積分則 – 積分符号公式による微分
積の法則 – 積の微分公式
商の法則 – 関数の比の微分公式
三重積則 – 3つの変数の相対微分の関係

参考文献

^ George F. Simmons、「微積分と解析幾何学」（1985年）、93ページ。
^ シモンズ, ジョージ・F. (1996).微積分学と解析幾何学. マグロウヒル. p. 115. ISBN 9780070575295. インターネットアーカイブ
^ チャイルド, JM (1917). 「ライブニツの微分積分発見に関する手稿。第2部（続）」 .モニスト. 27 (3): 411– 454. doi :10.5840/monist191727324. ISSN 0026-9662. JSTOR 27900650.
^ ab ロドリゲス、オマール・エルナンデス;ロペス・フェルナンデス、ホルヘ・M. (2010)。「連鎖規則の教訓に関する記号論的考察」。数学愛好家。7 (2): 321–332。土井: 10.54870/1551-3440.1191。S2CID 29739148 。2019年8月4日に取得。
^ アポストル、トム(1974).数学解析（第2版）. アディソン・ウェスレー. 定理5.5.
^ Goodfellow, Ian ; Bengio, Yoshua ; Courville, Aaron (2016),ディープラーニング, MIT 、pp=197–217。
^ クーン、スティーブン (1991). 「カラテオドリー流微分法」.アメリカ数学月刊誌. 98 (1): 40– 44. doi :10.2307/2324035. JSTOR 2324035.
^ スピヴァック、マイケル(1965).多様体上の微積分. ボストン: アディソン・ウェスレー. pp. 19– 20. ISBN 0-8053-9021-9。
^ チェイニー、ウォード(2001). 「連鎖律と平均値定理」.応用数学のための解析学. ニューヨーク: シュプリンガー. pp. 121– 125. ISBN 0-387-95279-9。

さらに読む

Abou-Hayt, Imad; Dahl, Bettina (2025-03-29). 「現実的な文脈を用いて工学部の学生にチェーンルールを動機付け、教える」.教育科学. 15 (4): 433. doi : 10.3390/educsci15040433 . ISSN 2227-7102.

外部リンク

「ライプニッツの規則」数学百科事典、EMSプレス、2001 [1994]
ワイスタイン、エリック・W.「チェーンルール」。MathWorld。

[1] George F. Simmons、「微積分と解析幾何学」（1985年）、93ページ。

[2] シモンズ, ジョージ・F. (1996).微積分学と解析幾何学. マグロウヒル. p. 115. ISBN 9780070575295. インターネットアーカイブ

[3] チャイルド, JM (1917). 「ライブニツの微分積分発見に関する手稿。第2部（続）」 .モニスト. 27 (3): 411– 454. doi :10.5840/monist191727324. ISSN 0026-9662. JSTOR 27900650.

[OHR-4] ロドリゲス、オマール・エルナンデス;ロペス・フェルナンデス、ホルヘ・M. (2010)。「連鎖規則の教訓に関する記号論的考察」。数学愛好家。7 (2): 321–332。土井: 10.54870/1551-3440.1191。S2CID 29739148 。2019年8月4日に取得。

[5] アポストル、トム(1974).数学解析（第2版）. アディソン・ウェスレー. 定理5.5.

[6] Goodfellow, Ian ; Bengio, Yoshua ; Courville, Aaron (2016),ディープラーニング, MIT 、pp=197–217。

[7] クーン、スティーブン (1991). 「カラテオドリー流微分法」.アメリカ数学月刊誌. 98 (1): 40– 44. doi :10.2307/2324035. JSTOR 2324035.

[spivak_manifolds-8] スピヴァック、マイケル(1965).多様体上の微積分. ボストン: アディソン・ウェスレー. pp. 19– 20. ISBN 0-8053-9021-9。

[9] チェイニー、ウォード(2001). 「連鎖律と平均値定理」.応用数学のための解析学. ニューヨーク: シュプリンガー. pp. 121– 125. ISBN 0-387-95279-9。