Formula in calculus
微積分学 において 、 連鎖律 とは、 2つの 微分可能関数 f と gの 合成 の 導関数を、 f と g の導関数を用い て表す 公式 である 。より正確には、 が任意の x に対してとなる関数である場合 、連鎖律は ラグランジュ記法 で となる。あるいは、 それと同値で、 h = f ∘ g {\displaystyle h=f\circ g} h ( x ) = f ( g ( x ) ) {\displaystyle h(x)=f(g(x))} h ′ ( x ) = f ′ ( g ( x ) ) g ′ ( x ) . {\displaystyle h'(x)=f'(g(x))g'(x).} h ′ = ( f ∘ g ) ′ = ( f ′ ∘ g ) ⋅ g ′ . {\displaystyle h'=(f\circ g)'=(f'\circ g)\cdot g'.}
連鎖律は ライプニッツ記法 で表すこともできます。変数 z が 変数 y に依存し、変数 y が変数 x に依存する場合(つまり、 y と zが 従属変数 である場合 )、 z は中間変数 yを介して x に も依存します 。この場合、連鎖律は と表され
、 どの点で導関数を評価する必要があるかを示します。 d z d x = d z d y ⋅ d y d x , {\displaystyle {\frac {dz}{dx}}={\frac {dz}{dy}}\cdot {\frac {dy}{dx}},} d z d x | x = d z d y | y ( x ) ⋅ d y d x | x , {\displaystyle \left.{\frac {dz}{dx}}\right|_{x}=\left.{\frac {dz}{dy}}\right|_{y(x)}\cdot \left.{\frac {dy}{dx}}\right|_{x},}
積分 において 、連鎖律に対応するのは 置換律 です。
直感的な説明 直感的に言えば、連鎖律は、 y に対する z の瞬間変化率と x に対する y の瞬間変化率を知ることで、2 つの変化率の積として x に対する z の瞬間変化率を計算できることを示しています。
ジョージ・F・シモンズ 氏は次のように述べています 。「車が自転車の2倍の速さで走り、自転車が歩行者の4倍の速さで走っている場合、車は歩行者の2×4=8倍の速さで走ることになります。」 [1] [2]
この例と連鎖律の関係は以下のとおりです。z 、 y 、 xを それぞれ 車、自転車、歩行者の(可変の)位置とします。車と自転車の相対的な位置の変化率は 、同様に 、車と歩行者の相対的な位置の変化率は、 d z d y = 2. {\textstyle {\frac {dz}{dy}}=2.} d y d x = 4. {\textstyle {\frac {dy}{dx}}=4.} d z d x = d z d y ⋅ d y d x = 2 ⋅ 4 = 8. {\displaystyle {\frac {dz}{dx}}={\frac {dz}{dy}}\cdot {\frac {dy}{dx}}=2\cdot 4=8.}
位置の変化率は速度の比であり、速度は時間に対する位置の微分です。つまり、 または、同等に、 これも連鎖律の応用です。 d z d x = d z d t d x d t , {\displaystyle {\frac {dz}{dx}}={\frac {\frac {dz}{dt}}{\frac {dx}{dt}}},} d z d t = d z d x ⋅ d x d t , {\displaystyle {\frac {dz}{dt}}={\frac {dz}{dx}}\cdot {\frac {dx}{dt}},}
歴史 連鎖律は、 ゴットフリート・ヴィルヘルム・ライプニッツ が初めて使用したと思われる。彼は、平方根関数と関数の合成として の導関数を計算するためにそれを使用した 。彼が初めてそれについて言及したのは 1676 年の回想録である(計算に符号エラーあり)。 [3] 連鎖律の一般的な表記法は、ライプニッツによるものである。 [4] ギヨーム・ド・ロピタルは、彼の著書 「小無限大の分析」 で連鎖律を暗黙的に使用した。連鎖律は 、ライプニッツの発見から 100 年以上も後に書かれた レオンハルト・オイラー の解析学の本にはどこにも登場しない。 [ 要出典 ]連鎖律の最初の「現代」版は、ラグランジュの 1797 年の 著書「解析関数理論 」に登場すると考えられている 。これは、コーシーの 1823 年の 『Résumé des Leçons données a L'École Royale Polytechnique sur Le Calcul Infinitesimal』 にも登場します。 [4] a + b z + c z 2 {\displaystyle {\sqrt {a+bz+cz^{2}}}} a + b z + c z 2 {\displaystyle a+bz+cz^{2}\!}
声明 連鎖律の最も単純な形は、実数値関数に対して成り立つ 。 これは、 g が点 c で微分可能な関数(すなわち導関数 g ′( c ) が存在する)であり、 fが g ( c ) で微分可能な関数である場合 、合成関数は c で微分可能であり 、導関数は [5] となることを述べている
。この規則は次のように略されることもある。 f ∘ g {\displaystyle f\circ g} ( f ∘ g ) ′ ( c ) = f ′ ( g ( c ) ) ⋅ g ′ ( c ) . {\displaystyle (f\circ g)'(c)=f'(g(c))\cdot g'(c).} ( f ∘ g ) ′ = ( f ′ ∘ g ) ⋅ g ′ . {\displaystyle (f\circ g)'=(f'\circ g)\cdot g'.}
y = f ( u ) かつ u = g ( x ) の場合 、この省略形は ライプニッツ記法 で次のように表されます。 d y d x = d y d u ⋅ d u d x . {\displaystyle {\frac {dy}{dx}}={\frac {dy}{du}}\cdot {\frac {du}{dx}}.}
導関数が評価されるポイントも明示的に指定できます。 d y d x | x = c = d y d u | u = g ( c ) ⋅ d u d x | x = c . {\displaystyle \left.{\frac {dy}{dx}}\right|_{x=c}=\left.{\frac {dy}{du}}\right|_{u=g(c)}\cdot \left.{\frac {du}{dx}}\right|_{x=c}.}
同じ推論をさらに進めると、 合成関数を持つ n 個の関数が与えられ 、各関数が その直接の入力で微分可能であれば、連鎖律を繰り返し適用することで合成関数も微分可能になります。ここで、導関数は(ライプニッツの記法では)次のようになります。 f 1 , … , f n {\displaystyle f_{1},\ldots ,f_{n}\!} f 1 ∘ ( f 2 ∘ ⋯ ( f n − 1 ∘ f n ) ) {\displaystyle f_{1}\circ (f_{2}\circ \cdots (f_{n-1}\circ f_{n}))\!} f i {\displaystyle f_{i}\!} d f 1 d x = d f 1 d f 2 d f 2 d f 3 ⋯ d f n d x . {\displaystyle {\frac {df_{1}}{dx}}={\frac {df_{1}}{df_{2}}}{\frac {df_{2}}{df_{3}}}\cdots {\frac {df_{n}}{dx}}.}
アプリケーション 2つ以上の関数の合成における連鎖律
2つ以上の関数の合成 連鎖律は、2つ以上の関数の合成にも適用できます。2つ以上の関数の合成の微分を求める場合、 f 、 g 、 h (この順序)の合成は、 f と g ∘ h の合成であることに留意してください。連鎖律によれば、 f ∘ g ∘ hの微分を計算するには、 fの微分と g ∘ h の微分 を計算すれば十分です。 f の微分は直接計算でき、 g ∘ h の微分は 連鎖律を再度適用することで計算できます。 [ 要出典 ]
具体的には、関数を考えます。 これは、3 つの関数の合成として分解できます。 つまり、 となります 。 y = e sin ( x 2 ) . {\displaystyle y=e^{\sin(x^{2})}.} y = f ( u ) = e u , u = g ( v ) = sin v , v = h ( x ) = x 2 . {\displaystyle {\begin{aligned}y&=f(u)=e^{u},\\u&=g(v)=\sin v,\\v&=h(x)=x^{2}.\end{aligned}}} y = f ( g ( h ( x ) ) ) {\displaystyle y=f(g(h(x)))}
それらの派生語は次のとおりです。 d y d u = f ′ ( u ) = e u , d u d v = g ′ ( v ) = cos v , d v d x = h ′ ( x ) = 2 x . {\displaystyle {\begin{aligned}{\frac {dy}{du}}&=f'(u)=e^{u},\\{\frac {du}{dv}}&=g'(v)=\cos v,\\{\frac {dv}{dx}}&=h'(x)=2x.\end{aligned}}}
連鎖律によれば、点 x = a におけるそれらの合成値の導関数は次のようになります。 ( f ∘ g ∘ h ) ′ ( a ) = f ′ ( ( g ∘ h ) ( a ) ) ⋅ ( g ∘ h ) ′ ( a ) = f ′ ( ( g ∘ h ) ( a ) ) ⋅ g ′ ( h ( a ) ) ⋅ h ′ ( a ) = ( f ′ ∘ g ∘ h ) ( a ) ⋅ ( g ′ ∘ h ) ( a ) ⋅ h ′ ( a ) . {\displaystyle {\begin{aligned}(f\circ g\circ h)'(a)&=f'((g\circ h)(a))\cdot (g\circ h)'(a)\\&=f'((g\circ h)(a))\cdot g'(h(a))\cdot h'(a)\\&=(f'\circ g\circ h)(a)\cdot (g'\circ h)(a)\cdot h'(a).\end{aligned}}}
ライプニッツの記法 では 、これは次のようになります
。 または、簡単に言うと、したがって、 微分関数は次のようになります。 d y d x = d y d u | u = g ( h ( a ) ) ⋅ d u d v | v = h ( a ) ⋅ d v d x | x = a , {\displaystyle {\frac {dy}{dx}}=\left.{\frac {dy}{du}}\right|_{u=g(h(a))}\cdot \left.{\frac {du}{dv}}\right|_{v=h(a)}\cdot \left.{\frac {dv}{dx}}\right|_{x=a},} d y d x = d y d u ⋅ d u d v ⋅ d v d x . {\displaystyle {\frac {dy}{dx}}={\frac {dy}{du}}\cdot {\frac {du}{dv}}\cdot {\frac {dv}{dx}}.} d y d x = e sin ( x 2 ) ⋅ cos ( x 2 ) ⋅ 2 x . {\displaystyle {\frac {dy}{dx}}=e^{\sin(x^{2})}\cdot \cos(x^{2})\cdot 2x.}
この導関数を計算する別の方法は、合成関数 f ∘ g ∘ hを f ∘ g と h の合成関数と見なすことです 。このように連鎖律を適用すると、以下の式が得られます。 ( f ∘ g ∘ h ) ′ ( a ) = ( f ∘ g ) ′ ( h ( a ) ) ⋅ h ′ ( a ) = f ′ ( g ( h ( a ) ) ) ⋅ g ′ ( h ( a ) ) ⋅ h ′ ( a ) . {\displaystyle {\begin{aligned}(f\circ g\circ h)'(a)&=(f\circ g)'(h(a))\cdot h'(a)\\&=f'(g(h(a)))\cdot g'(h(a))\cdot h'(a).\end{aligned}}}
これは上で計算したものと同じです。 ( f ∘ g ) ∘ h = f ∘ ( g ∘ h ) なので、これは予想通りの結果です。
場合によっては、任意の長さの の合成を微分する必要がある 。この場合、
が いつ 、 どこで成立するかを定義する 。そうすると、連鎖律は の形をとる。 ラグランジュ記法では、 f 1 ∘ f 2 ∘ ⋯ ∘ f n − 1 ∘ f n {\displaystyle f_{1}\circ f_{2}\circ \cdots \circ f_{n-1}\circ f_{n}\!} f a . . b = f a ∘ f a + 1 ∘ ⋯ ∘ f b − 1 ∘ f b {\displaystyle f_{a\,.\,.\,b}=f_{a}\circ f_{a+1}\circ \cdots \circ f_{b-1}\circ f_{b}} f a . . a = f a {\displaystyle f_{a\,.\,.\,a}=f_{a}} f a . . b ( x ) = x {\displaystyle f_{a\,.\,.\,b}(x)=x} b < a {\displaystyle b<a} D f 1 . . n = ( D f 1 ∘ f 2 . . n ) ( D f 2 ∘ f 3 . . n ) ⋯ ( D f n − 1 ∘ f n . . n ) D f n = ∏ k = 1 n [ D f k ∘ f ( k + 1 ) . . n ] {\displaystyle {\begin{aligned}Df_{1\,.\,.\,n}&=(Df_{1}\circ f_{2\,.\,.\,n})(Df_{2}\circ f_{3\,.\,.\,n})\cdots (Df_{n-1}\circ f_{n\,.\,.\,n})Df_{n}\\&=\prod _{k=1}^{n}\left[Df_{k}\circ f_{(k+1)\,.\,.\,n}\right]\end{aligned}}} f 1 . . n ′ ( x ) = f 1 ′ ( f 2 . . n ( x ) ) f 2 ′ ( f 3 . . n ( x ) ) ⋯ f n − 1 ′ ( f n . . n ( x ) ) f n ′ ( x ) = ∏ k = 1 n f k ′ ( f ( k + 1 . . n ) ( x ) ) {\displaystyle {\begin{aligned}f_{1\,.\,.\,n}'(x)&=f_{1}'\left(f_{2\,.\,.\,n}(x)\right)\;f_{2}'\left(f_{3\,.\,.\,n}(x)\right)\cdots f_{n-1}'\left(f_{n\,.\,.\,n}(x)\right)\;f_{n}'(x)\\[1ex]&=\prod _{k=1}^{n}f_{k}'\left(f_{(k+1\,.\,.\,n)}(x)\right)\end{aligned}}}
商の法則 連鎖律は、いくつかのよく知られた微分法則を導くために用いることができます。例えば、商則は連鎖律と 積則 の帰結です。これを確認するには、関数 f ( x )/ g ( x ) を積 f ( x ) · 1/ g ( x ) と書きます。まず積則を適用します。 d d x ( f ( x ) g ( x ) ) = d d x ( f ( x ) ⋅ 1 g ( x ) ) = f ′ ( x ) ⋅ 1 g ( x ) + f ( x ) ⋅ d d x ( 1 g ( x ) ) . {\displaystyle {\begin{aligned}{\frac {d}{dx}}\left({\frac {f(x)}{g(x)}}\right)&={\frac {d}{dx}}\left(f(x)\cdot {\frac {1}{g(x)}}\right)\\&=f'(x)\cdot {\frac {1}{g(x)}}+f(x)\cdot {\frac {d}{dx}}\left({\frac {1}{g(x)}}\right).\end{aligned}}}
1/ g ( x ) の導関数を計算するには、 gと逆関数、つまり x を 1/ x に 送る関数との 合成であることに注意してください 。逆関数の導関数は です 。連鎖律を適用すると、最後の式は となります。 これは商則の一般的な公式です。 − 1 / x 2 {\displaystyle -1/x^{2}\!} f ′ ( x ) ⋅ 1 g ( x ) + f ( x ) ⋅ ( − 1 g ( x ) 2 ⋅ g ′ ( x ) ) = f ′ ( x ) g ( x ) − f ( x ) g ′ ( x ) g ( x ) 2 , {\displaystyle f'(x)\cdot {\frac {1}{g(x)}}+f(x)\cdot \left(-{\frac {1}{g(x)^{2}}}\cdot g'(x)\right)={\frac {f'(x)g(x)-f(x)g'(x)}{g(x)^{2}}},}
逆関数の微分 y = g ( x )が 逆関数 を持つ と仮定します 。その逆関数を fと呼び、 x = f ( y ) とします。 f の微分は g の微分によって表されます 。これを確認するには、 f と g が 次の式を満たすこと
に注目してください。 f ( g ( x ) ) = x . {\displaystyle f(g(x))=x.}
そして、関数 と xは 等しいので、それらの導関数も等しくなければなりません。xの導関数 は 値が1の定数関数であり、の導関数は 連鎖律によって決定されます。したがって、次の式が成り立ちます。 f ( g ( x ) ) {\displaystyle f(g(x))} f ( g ( x ) ) {\displaystyle f(g(x))} f ′ ( g ( x ) ) g ′ ( x ) = 1. {\displaystyle f'(g(x))g'(x)=1.}
f' を独立変数 y の関数として 表すには 、 x が現れる箇所に x を代入します。そうすれば f' を解くことができます。 f ( y ) {\displaystyle f(y)} f ′ ( g ( f ( y ) ) ) g ′ ( f ( y ) ) = 1 f ′ ( y ) g ′ ( f ( y ) ) = 1 f ′ ( y ) = 1 g ′ ( f ( y ) ) . {\displaystyle {\begin{aligned}f'(g(f(y)))g'(f(y))&=1\\f'(y)g'(f(y))&=1\\f'(y)={\frac {1}{g'(f(y))}}.\end{aligned}}}
例えば、関数 g ( x ) = e x を考えてみましょう。この関数の逆関数 f ( y ) = ln yがあります。g ′ ( x ) = e x なので 、上記の式は d d y ln y = 1 e ln y = 1 y . {\displaystyle {\frac {d}{dy}}\ln y={\frac {1}{e^{\ln y}}}={\frac {1}{y}}.}
この式は、 g が微分可能で、その逆関数 f も微分可能な場合は常に成立します。これらの条件のいずれかが成立しない場合、この式は成立しません。たとえば、 g ( x ) = x 3 を考えます。その逆関数は f ( y ) = y 1/3 ですが、これは 0 で微分できません。上記の式を使用して fの 0 での導関数を計算しようとすると、 1/ g ′( f (0)) を評価する必要があります 。 f (0) = 0 かつ g ′(0) = 0であるため、 1/0 を評価する必要がありますが、これは未定義です。したがって、この場合、式は成立しません。 f は 0 で微分不可能である ため、これは驚くことではありません。
バックプロパゲーション 連鎖律は バックプロパゲーション アルゴリズムの基礎であり、 ディープラーニング ( 人工知能 )における ニューラルネットワーク の 勾配降下法 で使用されている。 [6]
高階微分 ファア・ディ・ブルーノの公式は、 連鎖 律を高次の微分に一般化したものである。y = f ( u ) 、 u = g ( x ) と仮定すると、最初のいくつかの微分は次のようになる。 d y d x = d y d u d u d x d 2 y d x 2 = d 2 y d u 2 ( d u d x ) 2 + d y d u d 2 u d x 2 d 3 y d x 3 = d 3 y d u 3 ( d u d x ) 3 + 3 d 2 y d u 2 d u d x d 2 u d x 2 + d y d u d 3 u d x 3 d 4 y d x 4 = d 4 y d u 4 ( d u d x ) 4 + 6 d 3 y d u 3 ( d u d x ) 2 d 2 u d x 2 + d 2 y d u 2 ( 4 d u d x d 3 u d x 3 + 3 ( d 2 u d x 2 ) 2 ) + d y d u d 4 u d x 4 . {\displaystyle {\begin{aligned}{\frac {dy}{dx}}&={\frac {dy}{du}}{\frac {du}{dx}}\\{\frac {d^{2}y}{dx^{2}}}&={\frac {d^{2}y}{du^{2}}}\left({\frac {du}{dx}}\right)^{2}+{\frac {dy}{du}}{\frac {d^{2}u}{dx^{2}}}\\{\frac {d^{3}y}{dx^{3}}}&={\frac {d^{3}y}{du^{3}}}\left({\frac {du}{dx}}\right)^{3}+3\,{\frac {d^{2}y}{du^{2}}}{\frac {du}{dx}}{\frac {d^{2}u}{dx^{2}}}+{\frac {dy}{du}}{\frac {d^{3}u}{dx^{3}}}\\{\frac {d^{4}y}{dx^{4}}}&={\frac {d^{4}y}{du^{4}}}\left({\frac {du}{dx}}\right)^{4}+6\,{\frac {d^{3}y}{du^{3}}}\left({\frac {du}{dx}}\right)^{2}{\frac {d^{2}u}{dx^{2}}}+{\frac {d^{2}y}{du^{2}}}\left(4\,{\frac {du}{dx}}{\frac {d^{3}u}{dx^{3}}}+3\,\left({\frac {d^{2}u}{dx^{2}}}\right)^{2}\right)+{\frac {dy}{du}}{\frac {d^{4}u}{dx^{4}}}.\end{aligned}}}
証明
最初の証明 連鎖律の証明の一つは、合成関数 f ∘ g の導関数を定義することから始まります。ここで、 x が a に近づく につれて f ∘ g の 差商 の 極限 をとります 。 ( f ∘ g ) ′ ( a ) = lim x → a f ( g ( x ) ) − f ( g ( a ) ) x − a . {\displaystyle (f\circ g)'(a)=\lim _{x\to a}{\frac {f(g(x))-f(g(a))}{x-a}}.}
今のところ、が の 近傍の 任意の に対して 等しくないと仮定します 。そうすると、前の式は2つの因数の積に等しくなります。 g ( x ) {\displaystyle g(x)\!} g ( a ) {\displaystyle g(a)} x {\displaystyle x} a {\displaystyle a} lim x → a f ( g ( x ) ) − f ( g ( a ) ) g ( x ) − g ( a ) ⋅ g ( x ) − g ( a ) x − a . {\displaystyle \lim _{x\to a}{\frac {f(g(x))-f(g(a))}{g(x)-g(a)}}\cdot {\frac {g(x)-g(a)}{x-a}}.}
がa 付近で振動する 場合、 a にどれだけ近づいても 、さらに近い xが存在し、 g ( x ) = g ( a ) となることがあります 。たとえば、 x = 0のときは g ( x ) = 0 で、それ以外のときは g ( x ) = x 2 sin(1/ x ) で 定義 さ れる 連続関数 g の 場合、 a = 0 付近でこの現象が発生します。このような場合、 ゼロ 除算 が含まれるため、上記の式は定義されていません。この問題を回避するには、 次のような 関数を導入します。 f ∘ g の差商が 常に次の値に等しい
ことを示します 。 g {\displaystyle g} Q {\displaystyle Q} Q ( y ) = { f ( y ) − f ( g ( a ) ) y − g ( a ) , y ≠ g ( a ) , f ′ ( g ( a ) ) , y = g ( a ) . {\displaystyle Q(y)={\begin{cases}\displaystyle {\frac {f(y)-f(g(a))}{y-g(a)}},&y\neq g(a),\\f'(g(a)),&y=g(a).\end{cases}}} Q ( g ( x ) ) ⋅ g ( x ) − g ( a ) x − a . {\displaystyle Q(g(x))\cdot {\frac {g(x)-g(a)}{x-a}}.}
g ( x )が g ( a ) と等しくない 場合は、 g ( x ) − g ( a ) の因数が 打ち消されるため、このことは明らかです。 g ( x )が g ( a ) と等しい場合、 f ( g ( x ))が f ( g ( a )) と等しい ため、 f ∘ g の差商はゼロになります。 また、上記の積は f ′( g ( a )) の ゼロ倍に等しいため、ゼロになります。つまり、上記の積は常に差商に等しく、 a における f ∘ gの導関数が存在し、その値を決定するには、上記の積の x が a に近づくときの極限が 存在し、その値を決定すれば よいだけです。
これを実行するには、積の極限は、その因数の極限が存在する場合にも存在することを思い出してください。この場合、これら2つの因数の積の極限は、因数の極限の積に等しくなります。2つの因数は、 Q ( g ( x )) と ( g ( x ) − g ( a )) / ( x − a ) です。後者は a における g の差の商であり、仮定により g は a で微分可能であるため、 x が a に近づく につれて極限が 存在し、 g ′( a ) に等しくなります。
Q ( g ( x )) については 、 Q は f が どこにあっても定義されることに注意してください 。さらに、 仮定により fは g ( a ) で微分可能であるため、微分の定義により Qは g ( a ) で連続です 。 関数 gは a で微分可能であるため a で連続であり、したがって Q ∘ g はa で連続です 。したがって、 x が a に近づくにつれて Q ( g ( a )) の極限が存在し、これは Q ( g ( a )) に等しく、 f ′( g ( a )) です。
これは、両因子に極限が存在し、それぞれ f ′( g ( a )) と g ′( a )に等しいことを示しています。したがって、 a における f ∘ g の微分は存在し、 f ′( g ( a )) g ′( a ) に等しくなります 。
第二校正 連鎖律を証明する別の方法は、導関数によって決定される線形近似の誤差を測定することです。この証明は、複数の変数に一般化できるという利点があります。これは、ある点における微分可能性の次の等価な定義に基づいています。関数 gが a で微分可能で あるとは、実数 g ′( a ) と、 h が ゼロに近づくにつれてゼロに近づく 関数 ε ( h ) が存在し、さらに、 で あることを意味します。ここで、左辺は a と a + h における g の値の真の差を表し、右辺は導関数によって決定される近似値に誤差項を加えたものを表します。 g ( a + h ) − g ( a ) = g ′ ( a ) h + ε ( h ) h . {\displaystyle g(a+h)-g(a)=g'(a)h+\varepsilon (h)h.}
連鎖律の状況では、 g が a で微分可能であると仮定される ため、 そのような関数 εが存在する。また、仮定により、 g ( a )における f にも同様の関数が存在する 。この関数を η と呼ぶと、次の式が得られる
。 上記の定義は、 k がゼロに近づくにつれて η ( k ) がゼロに近づくと 仮定しているにもかかわらず、 η (0) に何の制約も課さない。η ( 0) = 0 と設定すれば 、 η は 0 で連続となる。 f ( g ( a ) + k ) − f ( g ( a ) ) = f ′ ( g ( a ) ) k + η ( k ) k . {\displaystyle f(g(a)+k)-f(g(a))=f'(g(a))k+\eta (k)k.}
定理を証明するには、 h が 0 に近づくにつれて、 差 f ( g ( a + h )) − f ( g ( a )) を調べる必要があります。最初のステップは、 a における g の微分可能性の定義を使用して、 g ( a + h ) を代入することです。 次のステップは、 g ( a )における f の微分可能性の定義を使用することです。これには、ある kに対して、 f ( g ( a ) + k ) という形式の項が必要です 。上記の式では、正しい k は h によって異なります 。 k h = g ′( a ) h + ε ( h ) h と設定すると、右側の辺は f ( g ( a ) + k h ) − f ( g ( a )) になります。導関数の定義を適用すると、次のようになります。 h が 0 に近づく
につれてこの式がどのように動作するかを調べるには 、 k h を展開します。項を整理すると、右辺は次のようになります。h が0に近づくにつれて ε ( h ) と η ( k h )も0に近づく ため 、括弧で囲まれた最初の2つの項も hが 0に近づくにつれて0に近づきます。最初の証明と同じ極限積の定理を適用すると、括弧で囲まれた3番目の項も0に近づきます。上記の式は差 f ( g ( a + h )) − f ( g ( a )) に等しいため、導関数の定義により、 f ∘ g はa で微分可能であり 、その導関数は f ′( g ( a )) g ′( a ) です。 f ( g ( a + h ) ) − f ( g ( a ) ) = f ( g ( a ) + g ′ ( a ) h + ε ( h ) h ) − f ( g ( a ) ) . {\displaystyle f(g(a+h))-f(g(a))=f(g(a)+g'(a)h+\varepsilon (h)h)-f(g(a)).} f ( g ( a ) + k h ) − f ( g ( a ) ) = f ′ ( g ( a ) ) k h + η ( k h ) k h . {\displaystyle f(g(a)+k_{h})-f(g(a))=f'(g(a))k_{h}+\eta (k_{h})k_{h}.} f ′ ( g ( a ) ) g ′ ( a ) h + [ f ′ ( g ( a ) ) ε ( h ) + η ( k h ) g ′ ( a ) + η ( k h ) ε ( h ) ] h . {\displaystyle f'(g(a))g'(a)h+[f'(g(a))\varepsilon (h)+\eta (k_{h})g'(a)+\eta (k_{h})\varepsilon (h)]h.}
最初の証明における Q の役割は、この証明では η が担っています。これらは次の式で結びついています。g ( a ) における Q を定義する必要性は、ゼロにおける η を定義する必要性に似ています 。 Q ( y ) = f ′ ( g ( a ) ) + η ( y − g ( a ) ) . {\displaystyle Q(y)=f'(g(a))+\eta (y-g(a)).}
第三の証明 コンスタンティン・カラテオドリ による関数の微分可能性の代替定義は、連鎖律のエレガントな証明を与えるために使用することができる。 [7]
この定義によれば、関数 f が点 aで微分可能であるためには、関数 q が存在し、 それが a で連続であり、 f ( x ) − f ( a ) = q ( x )( x − a ) が成り立つことが必要である。そのような関数は最大で1つ存在し、 f が a で微分可能である 場合、 f ′( a ) = q ( a ) が成り立つ。
連鎖律の仮定と、微分可能関数および連続関数の合成が連続であるという事実から、 g ( a ) で連続な関数 q と a で連続な関数 r が存在し、かつ、かつとなる
ことが分かる。 したがって、 しかし
、 h ( x ) = q ( g ( x )) r ( x ) で与えられる関数は a で連続であり、この a に対して、となる。 同様のアプローチは、連続的に微分可能な(ベクトル)関数(多変数)に対しても適用できる。この因数分解の方法は、導関数がリプシッツ 連続 、 ヘルダー連続 などであることが求められる場合、より強い微分可能性形式に対する統一的なアプローチも可能にする。微分自体は、適切な関数のクラスに一般化された 多項式剰余定理 (小 ベズー 定理、または因数定理)と見なすことができる。 [ 要出典 ] f ( g ( x ) ) − f ( g ( a ) ) = q ( g ( x ) ) ( g ( x ) − g ( a ) ) {\displaystyle f(g(x))-f(g(a))=q(g(x))(g(x)-g(a))} g ( x ) − g ( a ) = r ( x ) ( x − a ) . {\displaystyle g(x)-g(a)=r(x)(x-a).} f ( g ( x ) ) − f ( g ( a ) ) = q ( g ( x ) ) r ( x ) ( x − a ) , {\displaystyle f(g(x))-f(g(a))=q(g(x))r(x)(x-a),} ( f ( g ( a ) ) ) ′ = q ( g ( a ) ) r ( a ) = f ′ ( g ( a ) ) g ′ ( a ) . {\displaystyle (f(g(a)))'=q(g(a))r(a)=f'(g(a))g'(a).}
多変数の場合 連鎖律を 多変数関数 ( など)に完全に一般化するのはやや専門的である。しかし、 、 各 に対して となる 形の関数の場合は 、次の ように書く方が簡単である。 f : R m → R n {\displaystyle f\colon \mathbb {R} ^{m}\to \mathbb {R} ^{n}} f ( g 1 ( x ) , … , g k ( x ) ) , {\displaystyle f(g_{1}(x),\dots ,g_{k}(x)),} f : R k → R {\displaystyle f\colon \mathbb {R} ^{k}\to \mathbb {R} } g i : R → R {\displaystyle g_{i}\colon \mathbb {R} \to \mathbb {R} } i = 1 , 2 , … , k . {\displaystyle i=1,2,\dots ,k.}
このケースは単一変数の関数の研究では頻繁に発生するため、個別に説明する価値があります。
スカラー値多変数関数の場合 とし 、 各 についてとします 。関数の合成に関する連鎖律を書くには、
関数 f の k 番目の引数に関する 偏微分
が必要です 。偏微分の通常の表記では、関数の引数に名前が付けられます。上記の式ではこれらの引数に名前が付けられていないため、 D 表記 を 使用し、
関数 fの i 番目の引数に関する偏微分を で表し 、
この微分の z における値を で表す方が単純かつ明確です 。 f : R k → R {\displaystyle f\colon \mathbb {R} ^{k}\to \mathbb {R} } g i : R → R {\displaystyle g_{i}\colon \mathbb {R} \to \mathbb {R} } i = 1 , 2 , … , k . {\displaystyle i=1,2,\dots ,k.} x ↦ f ( g 1 ( x ) , … , g k ( x ) ) , {\displaystyle x\mapsto f(g_{1}(x),\dots ,g_{k}(x)),} D i f {\displaystyle D_{i}f} D i f ( z ) {\displaystyle D_{i}f(z)}
この表記法を用いると、連鎖律は d d x f ( g 1 ( x ) , … , g k ( x ) ) = ∑ i = 1 k ( d d x g i ( x ) ) D i f ( g 1 ( x ) , … , g k ( x ) ) . {\displaystyle {\frac {d}{dx}}f(g_{1}(x),\dots ,g_{k}(x))=\sum _{i=1}^{k}\left({\frac {d}{dx}}{g_{i}}(x)\right)D_{i}f(g_{1}(x),\dots ,g_{k}(x)).}
例: 算術演算 関数 f が加法関数、 つまりならば となり、 となる 。したがって連鎖律によれば f ( u , v ) = u + v , {\displaystyle f(u,v)=u+v,} D 1 f = ∂ f ∂ u = 1 {\textstyle D_{1}f={\frac {\partial f}{\partial u}}=1} D 2 f = ∂ f ∂ v = 1 {\textstyle D_{2}f={\frac {\partial f}{\partial v}}=1} d d x ( g ( x ) + h ( x ) ) = ( d d x g ( x ) ) D 1 f + ( d d x h ( x ) ) D 2 f = d d x g ( x ) + d d x h ( x ) . {\displaystyle {\frac {d}{dx}}(g(x)+h(x))=\left({\frac {d}{dx}}g(x)\right)D_{1}f+\left({\frac {d}{dx}}h(x)\right)D_{2}f={\frac {d}{dx}}g(x)+{\frac {d}{dx}}h(x).}
乗算の場合、 部分項は とです 。したがって、 f ( u , v ) = u v , {\displaystyle f(u,v)=uv,} D 1 f = v {\displaystyle D_{1}f=v} D 2 f = u {\displaystyle D_{2}f=u} d d x ( g ( x ) h ( x ) ) = h ( x ) d d x g ( x ) + g ( x ) d d x h ( x ) . {\displaystyle {\frac {d}{dx}}(g(x)h(x))=h(x){\frac {d}{dx}}g(x)+g(x){\frac {d}{dx}}h(x).}
指数の場合は 少し複雑で、 次の ようになります。 f ( u , v ) = u v {\displaystyle f(u,v)=u^{v}} D 1 f = v u v − 1 , {\displaystyle D_{1}f=vu^{v-1},} u v = e v ln u , {\displaystyle u^{v}=e^{v\ln u},} D 2 f = u v ln u . {\displaystyle D_{2}f=u^{v}\ln u.} d d x ( g ( x ) h ( x ) ) = h ( x ) g ( x ) h ( x ) − 1 d d x g ( x ) + g ( x ) h ( x ) ln g ( x ) d d x h ( x ) . {\displaystyle {\frac {d}{dx}}\left(g(x)^{h(x)}\right)=h(x)g(x)^{h(x)-1}{\frac {d}{dx}}g(x)+g(x)^{h(x)}\ln g(x)\,{\frac {d}{dx}}h(x).}
一般的なルール: ベクトル値多変数関数 一般的なケースで連鎖律を記述する最も簡単な方法は、 全微分 を使うことです。これは、すべての 方向微分を 1 つの式で 表す線型変換です。微分可能関数 f : R m → R k と g : R n → R m 、およびR n 内の 点 a を考えます。D a g を a における g の全微分 、 D g ( a ) f を g ( a ) における f の全微分とします 。これらの 2 つの微分は、それぞれ線型変換 R n → R m と R m → R k であるため、合成できます。全微分に関する連鎖律は、それらの合成値が a における f ∘ g の全微分: または略して となること
です。 高次元の連鎖律は、上記の 2 番目の証明と同様の手法を使用して証明できます。 [8] D a ( f ∘ g ) = D g ( a ) f ∘ D a g , {\displaystyle D_{\mathbf {a} }(f\circ g)=D_{g(\mathbf {a} )}f\circ D_{\mathbf {a} }g,} D ( f ∘ g ) = D f ∘ D g . {\displaystyle D(f\circ g)=Df\circ Dg.}
全微分は線型変換であるため、式に現れる関数は行列として書き直すことができます。全微分に対応する行列は ヤコビ行列 と呼ばれ、2つの微分の合成はそれらのヤコビ行列の積に対応します。この観点から、連鎖律は次のように表されます。 あるいは、簡単に言えば、 J f ∘ g ( a ) = J f ( g ( a ) ) J g ( a ) , {\displaystyle J_{f\circ g}(\mathbf {a} )=J_{f}(g(\mathbf {a} ))J_{g}(\mathbf {a} ),} J f ∘ g = ( J f ∘ g ) J g . {\displaystyle J_{f\circ g}=(J_{f}\circ g)J_{g}.}
つまり、合成関数のヤコビアンは、合成関数のヤコビアンの積です (適切なポイントで評価されます)。
高次元連鎖律は、1次元連鎖律の一般化です。 k 、 m 、 n が1 で、 f : R → R かつ g : R → Rとなる場合、 f と g のヤコビ行列は 1 × 1 になります 。具体的には、 f ∘ g のヤコビアンはこれらの 1 × 1 行列 の積なので、1次元連鎖律から予想されるように、 f ′( g ( a ))⋅ g ′( a ) となります。線形変換の言語では、 D a ( g )はベクトルを g ′( a ) 倍する関数であり 、 D g ( a ) ( f )はベクトルを f ′( g ( a )) 倍する関数です 。連鎖律によれば、これら2つの線形変換の合成は線形変換 D a ( f ∘ g )であり、したがってそれはベクトルを f ′( g ( a ))⋅ g ′( a ) でスケーリングする関数です 。 J g ( a ) = ( g ′ ( a ) ) , J f ( g ( a ) ) = ( f ′ ( g ( a ) ) ) . {\displaystyle {\begin{aligned}J_{g}(a)&={\begin{pmatrix}g'(a)\end{pmatrix}},\\J_{f}(g(a))&={\begin{pmatrix}f'(g(a))\end{pmatrix}}.\end{aligned}}}
連鎖律の別の書き方は、 f と gが その成分を用いて y = f ( u ) = ( f 1 ( u ), …, f k ( u )) 、 u = g ( x ) = ( g 1 ( x ), …, g m ( x )) と表されるときに用いられます。この場合、ヤコビ行列の上記の規則は通常、次のように表されます。 ∂ ( y 1 , … , y k ) ∂ ( x 1 , … , x n ) = ∂ ( y 1 , … , y k ) ∂ ( u 1 , … , u m ) ∂ ( u 1 , … , u m ) ∂ ( x 1 , … , x n ) . {\displaystyle {\frac {\partial (y_{1},\ldots ,y_{k})}{\partial (x_{1},\ldots ,x_{n})}}={\frac {\partial (y_{1},\ldots ,y_{k})}{\partial (u_{1},\ldots ,u_{m})}}{\frac {\partial (u_{1},\ldots ,u_{m})}{\partial (x_{1},\ldots ,x_{n})}}.}
全微分に関する連鎖律は、偏微分に関する連鎖律を暗示しています。全微分が存在する場合、 i 番目の座標方向の偏微分は、ヤコビ行列に i 番目の基底ベクトルを乗じることで求められることを思い出してください。上記の式にこれを当てはめると、次の式が得られます。 ヤコビ行列の各要素は偏微分であるため、上記の式を簡略化すると次の式が得られます。より概念的に言えば
、この規則は、 x i 方向の変化によってg 1 から g m まですべてが変化する可能性があり 、これらの変化のいずれかが f に影響を与える可能性がある
という事実を表しています 。 ∂ ( y 1 , … , y k ) ∂ x i = ∂ ( y 1 , … , y k ) ∂ ( u 1 , … , u m ) ∂ ( u 1 , … , u m ) ∂ x i . {\displaystyle {\frac {\partial (y_{1},\ldots ,y_{k})}{\partial x_{i}}}={\frac {\partial (y_{1},\ldots ,y_{k})}{\partial (u_{1},\ldots ,u_{m})}}{\frac {\partial (u_{1},\ldots ,u_{m})}{\partial x_{i}}}.} ∂ ( y 1 , … , y k ) ∂ x i = ∑ ℓ = 1 m ∂ ( y 1 , … , y k ) ∂ u ℓ ∂ u ℓ ∂ x i . {\displaystyle {\frac {\partial (y_{1},\ldots ,y_{k})}{\partial x_{i}}}=\sum _{\ell =1}^{m}{\frac {\partial (y_{1},\ldots ,y_{k})}{\partial u_{\ell }}}{\frac {\partial u_{\ell }}{\partial x_{i}}}.}
k = 1 の 特殊なケース 、つまり f が実数値関数となる場合、この式はさらに簡略化されます。
これは ドット積 として書き直すことができます 。u = ( g 1 , …, g m ) を 思い出すと、偏微分 ∂ u / ∂ x i もベクトルであり、連鎖律によれば次のようになります。 ∂ y ∂ x i = ∑ ℓ = 1 m ∂ y ∂ u ℓ ∂ u ℓ ∂ x i . {\displaystyle {\frac {\partial y}{\partial x_{i}}}=\sum _{\ell =1}^{m}{\frac {\partial y}{\partial u_{\ell }}}{\frac {\partial u_{\ell }}{\partial x_{i}}}.} ∂ y ∂ x i = ∇ y ⋅ ∂ u ∂ x i . {\displaystyle {\frac {\partial y}{\partial x_{i}}}=\nabla y\cdot {\frac {\partial \mathbf {u} }{\partial x_{i}}}.}
例 u ( x , y ) = x 2 + 2 y ( x ( r , t ) = r sin( t ) 、 y ( r , t ) = sin 2 ( t ) ) が与えられた とき、連鎖律を用いて ∂ u / ∂ r と ∂ u / ∂ t の値を決定します 。 [ 引用が必要 ] および ∂ u ∂ r = ∂ u ∂ x ∂ x ∂ r + ∂ u ∂ y ∂ y ∂ r = ( 2 x ) ( sin ( t ) ) + ( 2 ) ( 0 ) = 2 r sin 2 ( t ) , {\displaystyle {\frac {\partial u}{\partial r}}={\frac {\partial u}{\partial x}}{\frac {\partial x}{\partial r}}+{\frac {\partial u}{\partial y}}{\frac {\partial y}{\partial r}}=(2x)(\sin(t))+(2)(0)=2r\sin ^{2}(t),} ∂ u ∂ t = ∂ u ∂ x ∂ x ∂ t + ∂ u ∂ y ∂ y ∂ t = ( 2 x ) ( r cos ( t ) ) + ( 2 ) ( 2 sin ( t ) cos ( t ) ) = ( 2 r sin ( t ) ) ( r cos ( t ) ) + 4 sin ( t ) cos ( t ) = 2 ( r 2 + 2 ) sin ( t ) cos ( t ) = ( r 2 + 2 ) sin ( 2 t ) . {\displaystyle {\begin{aligned}{\frac {\partial u}{\partial t}}&={\frac {\partial u}{\partial x}}{\frac {\partial x}{\partial t}}+{\frac {\partial u}{\partial y}}{\frac {\partial y}{\partial t}}\\&=(2x)(r\cos(t))+(2)(2\sin(t)\cos(t))\\&=(2r\sin(t))(r\cos(t))+4\sin(t)\cos(t)\\&=2(r^{2}+2)\sin(t)\cos(t)\\&=(r^{2}+2)\sin(2t).\end{aligned}}}
多変数関数の高次導関数 ファア・ディ・ブルーノの単変数関数の高階微分公式は、多変数の場合にも一般化されます。y = f ( u ) が上記のように u = g ( x ) の関数である場合、 f ∘ g の二階微分は次のように なります。 ∂ 2 y ∂ x i ∂ x j = ∑ k ( ∂ y ∂ u k ∂ 2 u k ∂ x i ∂ x j ) + ∑ k , ℓ ( ∂ 2 y ∂ u k ∂ u ℓ ∂ u k ∂ x i ∂ u ℓ ∂ x j ) . {\displaystyle {\frac {\partial ^{2}y}{\partial x_{i}\partial x_{j}}}=\sum _{k}\left({\frac {\partial y}{\partial u_{k}}}{\frac {\partial ^{2}u_{k}}{\partial x_{i}\partial x_{j}}}\right)+\sum _{k,\ell }\left({\frac {\partial ^{2}y}{\partial u_{k}\partial u_{\ell }}}{\frac {\partial u_{k}}{\partial x_{i}}}{\frac {\partial u_{\ell }}{\partial x_{j}}}\right).}
さらなる一般化 微積分の拡張にはすべて連鎖律があります。これらのほとんどにおいて、式の意味は大きく異なるものの、式自体は同じままです。
一般化の一つは 多様体 への適用です。この場合、連鎖律は f ∘ gの微分が f の微分と g の微分との合成であるという事実を表します 。この定理は、上記に示した高次元の連鎖律から直接導かれるものであり、全く同じ式を持ちます。
連鎖律は バナッハ空間 における フレシェ微分 にも成り立つ。前述と同じ式が成り立つ。 [9]この場合と前の場合を同時に バナッハ多様体 にも一般化できる 。
微分代数 において、導関数は ケーラー微分加 群の射として解釈される 。 可換環 f : R → S の環 準同型は、ケーラー微分 Df : Ω R → Ω S の射を決定し、これは f ( r ) の外微分 d ( f ( r )) に 元 dr を写す。この文脈においても、 式 D ( f ∘ g ) = Df ∘ Dgが成立する。
これらの例に共通する特徴は、導関数が関数 の一部であるという考え方を表現していることです 。関数とは、空間とそれらの間の関数に対する操作です。関数は、各空間に新しい空間を関連付け、2 つの空間間の各関数に、対応する新しい空間間の新しい関数を関連付けます。上記の各ケースにおいて、関数は各空間をその 接束 に送り、各関数をその導関数に送ります。たとえば、多様体の場合、導関数は C r 多様体をC r −1 多様体 (その接束) に送り、 C r 関数をその全導関数に送ります。これが関数であるための要件が 1 つあります。つまり、合成物の導関数は、導関数の合成物でなければなりません。これは、式 D ( f ∘ g ) = Df ∘ Dg とまったく同じです。
確率計算 には連鎖律も存在する 。その 1 つである 伊藤の補題は 、伊藤過程(より一般的には 半マルチンゲール ) dX t と 2 回微分可能な関数 f の合成を表現する。伊藤の補題では、合成関数の導関数は dX t とf の導関数だけでなく、 f の 2 次導関数にも依存する 。2 次導関数への依存は、確率過程の非ゼロの二次 変化 の結果であり、大まかに言えば、この過程が非常に大まかに上下に変動する可能性があることを意味する。この連鎖律の変形は、合成される 2 つの関数が異なる型であるため、関数の例ではない。
参照
参考文献 ^ George F. Simmons 、 「微積分と解析幾何学」 (1985年)、93ページ。 ^ シモンズ, ジョージ・F. (1996). 微積分学と解析幾何学 . マグロウヒル. p. 115. ISBN 9780070575295. インターネットアーカイブ ^ チャイルド, JM (1917). 「ライブニツの微分積分発見に関する手稿。第2部(続)」 . モニスト . 27 (3): 411– 454. doi :10.5840/monist191727324. ISSN 0026-9662. JSTOR 27900650. ^ ab ロドリゲス、オマール・エルナンデス;ロペス・フェルナンデス、ホルヘ・M. (2010)。 「連鎖規則の教訓に関する記号論的考察」。 数学愛好家 。 7 (2): 321–332 。 土井 : 10.54870/1551-3440.1191 。 S2CID 29739148 。 2019年8月4日 に取得 。 ^ アポストル、トム (1974). 数学解析 (第2版). アディソン・ウェスレー. 定理5.5. ^ Goodfellow, Ian ; Bengio, Yoshua ; Courville, Aaron (2016), ディープラーニング , MIT 、pp=197–217。 ^ クーン、スティーブン (1991). 「カラテオドリー流微分法」. アメリカ数学月刊誌 . 98 (1): 40– 44. doi :10.2307/2324035. JSTOR 2324035. ^ スピヴァック、マイケル (1965). 多様体上の微積分 . ボストン: アディソン・ウェスレー. pp. 19– 20. ISBN 0-8053-9021-9 。 ^ チェイニー、ウォード (2001). 「連鎖律と平均値定理」. 応用数学のための解析学 . ニューヨーク: シュプリンガー. pp. 121– 125. ISBN 0-387-95279-9 。
さらに読む Abou-Hayt, Imad; Dahl, Bettina (2025-03-29). 「現実的な文脈を用いて工学部の学生にチェーンルールを動機付け、教える」. 教育科学 . 15 (4): 433. doi : 10.3390/educsci15040433 . ISSN 2227-7102.
外部リンク