チェーンルール

微積分学において連鎖律とは、 2つの微分可能関数fgの合成導関数を、 fgの導関数を用いて表す公式である。より正確には、が任意のxに対してとなる関数である場合、連鎖律はラグランジュ記法で となる。あるいは、それと同値で、

連鎖律はライプニッツ記法で表すこともできます。変数z が変数yに依存し、変数 y が変数xに依存する場合(つまり、yzが従属変数である場合)、z は中間変数yを介してxも依存します。この場合、連鎖律は と表されどの点で導関数を評価する必要があるかを示します。

積分において、連鎖律に対応するのは置換律です。

直感的な説明

直感的に言えば、連鎖律は、yに対するzの瞬間変化率とxに対するyの瞬間変化率を知ることで、2 つの変化率の積としてxに対するzの瞬間変化率を計算できることを示しています。

ジョージ・F・シモンズ氏は次のように述べています。「車が自転車の2倍の速さで走り、自転車が歩行者の4倍の速さで走っている場合、車は歩行者の2×4=8倍の速さで走ることになります。」[1] [2]

この例と連鎖律の関係は以下のとおりです。z yxをそれぞれ車、自転車、歩行者の(可変の)位置とします。車と自転車の相対的な位置の変化率は、同様に、車と歩行者の相対的な位置の変化率は、

位置の変化率は速度の比であり、速度は時間に対する位置の微分です。つまり、または、同等に、これも連鎖律の応用です。

歴史

連鎖律は、ゴットフリート・ヴィルヘルム・ライプニッツが初めて使用したと思われる。彼は、平方根関数と関数の合成としての導関数を計算するためにそれを使用した。彼が初めてそれについて言及したのは 1676 年の回想録である(計算に符号エラーあり)。[3]連鎖律の一般的な表記法は、ライプニッツによるものである。[4]ギヨーム・ド・ロピタルは、彼の著書「小無限大の分析」で連鎖律を暗黙的に使用した。連鎖律は、ライプニッツの発見から 100 年以上も後に書かれたレオンハルト・オイラーの解析学の本にはどこにも登場しない。 [要出典]連鎖律の最初の「現代」版は、ラグランジュの 1797 年の著書「解析関数理論」に登場すると考えられている。これは、コーシーの 1823 年の『Résumé des Leçons données a L'École Royale Polytechnique sur Le Calcul Infinitesimal』にも登場します。[4]

声明

連鎖律の最も単純な形は、実数値関数に対して成り立つこれは、gが点cで微分可能な関数(すなわち導関数g ′( c )が存在する)であり、fがg ( c )で微分可能な関数である場合、合成関数はcで微分可能であり、導関数は[5]となることを述べている 。この規則は次のように略されることもある。

y = f ( u )かつu = g ( x )の場合、この省略形はライプニッツ記法で次のように表されます。

導関数が評価されるポイントも明示的に指定できます。

同じ推論をさらに進めると、合成関数を持つn個の関数が与えられ、各関数がその直接の入力で微分可能であれば、連鎖律を繰り返し適用することで合成関数も微分可能になります。ここで、導関数は(ライプニッツの記法では)次のようになります。

アプリケーション

2つ以上の関数の合成における連鎖律

2つ以上の関数の合成

連鎖律は、2つ以上の関数の合成にも適用できます。2つ以上の関数の合成の微分を求める場合、fgh(この順序)の合成は、 fghの合成であることに留意してください。連鎖律によれば、fghの微分を計算するには、 fの微分とghの微分を計算すれば十分です。 fの微分は直接計算でき、 ghの微分は連鎖律を再度適用することで計算できます。[要出典]

具体的には、関数を考えます。これは、3 つの関数の合成として分解できます。つまり、 となります

それらの派生語は次のとおりです。

連鎖律によれば、点x = aにおけるそれらの合成値の導関数は次のようになります。

ライプニッツの記法では、これは次のようになります 。または、簡単に言うと、したがって、微分関数は次のようになります。

この導関数を計算する別の方法は、合成関数fghをfghの合成関数と見なすことです。このように連鎖律を適用すると、以下の式が得られます。

これは上で計算したものと同じです。( fg ) ∘ h = f ∘ ( gh )なので、これは予想通りの結果です。

場合によっては、任意の長さの の合成を微分する必要がある。この場合、 がいつどこで成立するかを定義する。そうすると、連鎖律は の形をとる。ラグランジュ記法では、

商の法則

連鎖律は、いくつかのよく知られた微分法則を導くために用いることができます。例えば、商則は連鎖律と積則の帰結です。これを確認するには、関数f ( x )/ g ( x )を積f ( x ) · 1/ g ( x )と書きます。まず積則を適用します。

1/ g ( x )の導関数を計算するには、 gと逆関数、つまりx を1/ x送る関数との合成であることに注意してください。逆関数の導関数は です。連鎖律を適用すると、最後の式は となります。これは商則の一般的な公式です。

逆関数の微分

y = g ( x )が逆関数を持つと仮定します。その逆関数をfと呼び、 x = f ( y )とします。 fの微分はgの微分によって表されます。これを確認するには、fg が次の式を満たすこと に注目してください。

そして、関数xは等しいので、それらの導関数も等しくなければなりません。xの導関数値が1の定数関数であり、の導関数は連鎖律によって決定されます。したがって、次の式が成り立ちます。

f' を独立変数yの関数として表すには、 xが現れる箇所にxを代入します。そうすればf'を解くことができます。

例えば、関数g ( x ) = e xを考えてみましょう。この関数の逆関数f ( y ) = ln yがあります。g ( x ) = e xなので、上記の式は

この式は、gが微分可能で、その逆関数fも微分可能な場合は常に成立します。これらの条件のいずれかが成立しない場合、この式は成立しません。たとえば、g ( x ) = x 3を考えます。その逆関数はf ( y ) = y 1/3ですが、これは 0 で微分できません。上記の式を使用してfの 0 での導関数を計算しようとすると、 1/ g ′( f (0))を評価する必要がありますf (0) = 0かつg ′(0) = 0であるため、 1/0 を評価する必要がありますが、これは未定義です。したがって、この場合、式は成立しません。 fは 0 で微分不可能であるため、これは驚くことではありません。

バックプロパゲーション

連鎖律はバックプロパゲーションアルゴリズムの基礎であり、ディープラーニング人工知能)におけるニューラルネットワーク勾配降下法で使用されている。[6]

高階微分

ファア・ディ・ブルーノの公式は、連鎖律を高次の微分に一般化したものである。y = f ( u )u = g ( x )と仮定すると、最初のいくつかの微分は次のようになる。

証明

最初の証明

連鎖律の証明の一つは、合成関数fgの導関数を定義することから始まります。ここで、 x がaに近づくにつれてfg差商極限をとります

今のところ、が の近傍の任意の に対して等しくないと仮定します。そうすると、前の式は2つの因数の積に等しくなります。

がa付近で振動する場合、 aにどれだけ近づいても、さらに近いxが存在し、 g ( x ) = g ( a )となることがあります。たとえば、 x = 0のときは g ( x ) = 0 で、それ以外のときはg ( x ) = x 2 sin(1/ x )定義れる連続関数g場合、 a = 0 付近でこの現象が発生します。このような場合、ゼロ除算が含まれるため、上記の式は定義されていません。この問題を回避するには、次のような関数を導入します。 f gの差商が常に次の値に等しい ことを示します

g ( x )がg ( a )と等しくない場合は、 g ( x ) − g ( a )の因数が打ち消されるため、このことは明らかです。g ( x )がg ( a )と等しい場合、 f ( g ( x ))がf ( g ( a ))と等しいため、 fgの差商はゼロになります。また、上記の積はf ′( g ( a )) のゼロ倍に等しいため、ゼロになります。つまり、上記の積は常に差商に等しく、aにおけるfgの導関数が存在し、その値を決定するには、上記の積のx がaに近づくときの極限が存在し、その値を決定すればよいだけです。

これを実行するには、積の極限は、その因数の極限が存在する場合にも存在することを思い出してください。この場合、これら2つの因数の積の極限は、因数の極限の積に等しくなります。2つの因数は、Q ( g ( x ))( g ( x ) − g ( a )) / ( xa )です。後者はaにおけるgの差の商であり、仮定によりg はaで微分可能であるため、 x がaに近づくにつれて極限が存在し、g ′( a )に等しくなります。

Q ( g ( x ))についてはQ はf がどこにあっても定義されることに注意してください。さらに、仮定によりfはg ( a )で微分可能であるため、微分の定義によりQはg ( a )で連続です関数gはaで微分可能であるためaで連続であり、したがってQgはaで連続です。したがって、x がaに近づくにつれて Q ( g ( a )) の極限が存在し、これはQ ( g ( a ))に等しく、 f ′( g ( a ))です。

これは、両因子に極限が存在し、それぞれf ′( g ( a ))g ′( a )に等しいことを示しています。したがって、 aにおけるfgの微分は存在し、 f ′( g ( a )) g ′( a )に等しくなります

第二校正

連鎖律を証明する別の方法は、導関数によって決定される線形近似の誤差を測定することです。この証明は、複数の変数に一般化できるという利点があります。これは、ある点における微分可能性の次の等価な定義に基づいています。関数gがaで微分可能であるとは、実数g ′( a ) と、 h がゼロに近づくにつれてゼロに近づく関数ε ( h ) が存在し、さらに、 であることを意味します。ここで、左辺はaa + hにおけるgの値の真の差を表し、右辺は導関数によって決定される近似値に誤差項を加えたものを表します。

連鎖律の状況では、 g がaで微分可能であると仮定されるため、そのような関数εが存在する。また、仮定により、 g ( a )におけるfにも同様の関数が存在する。この関数をηと呼ぶと、次の式が得られる 。上記の定義は、 k がゼロに近づくにつれてη ( k ) がゼロに近づくと仮定しているにもかかわらず、 η (0) に何の制約も課さない。η ( 0) = 0と設定すればη は0 で連続となる。

定理を証明するには、 hが 0 に近づくにつれて、f ( g ( a + h )) − f ( g ( a ))を調べる必要があります。最初のステップは、aにおけるgの微分可能性の定義を使用して、g ( a + h )を代入することです。次のステップは、g ( a )におけるfの微分可能性の定義を使用することです。これには、あるkに対して、 f ( g ( a ) + k )という形式の項が必要です。上記の式では、正しいk はhによって異なりますk h = g ′( a ) h + ε ( h ) hと設定すると、右側の辺はf ( g ( a ) + k h ) − f ( g ( a ))になります。導関数の定義を適用すると、次のようになります。 h が0 に近づく につれてこの式がどのように動作するかを調べるにはk hを展開します。項を整理すると、右辺は次のようになります。hが0に近づくにつれてε ( h ) とη ( k h )も0に近づくため、括弧で囲まれた最初の2つの項もhが0に近づくにつれて0に近づきます。最初の証明と同じ極限積の定理を適用すると、括弧で囲まれた3番目の項も0に近づきます。上記の式は差f ( g ( a + h )) − f ( g ( a ))に等しいため、導関数の定義により、fgはaで微分可能であり、その導関数はf ′( g ( a )) g ′( a ) です。

最初の証明におけるQの役割は、この証明ではηが担っています。これらは次の式で結びついています。g ( a )におけるQを定義する必要性は、ゼロにおけるηを定義する必要性に似ています

第三の証明

コンスタンティン・カラテオドリによる関数の微分可能性の代替定義は、連鎖律のエレガントな証明を与えるために使用することができる。[7]

この定義によれば、関数fが点aで微分可能であるためには、関数qが存在し、それがaで連続であり、 f ( x ) − f ( a ) = q ( x )( xa )が成り立つことが必要である。そのような関数は最大で1つ存在し、f がaで微分可能である場合、 f ′( a ) = q ( a )が成り立つ。

連鎖律の仮定と、微分可能関数および連続関数の合成が連続であるという事実から、g ( a )で連続な関数qaで連続な関数rが存在し、かつ、かつとなる ことが分かる。したがって、しかし 、 h ( x ) = q ( g ( x )) r ( x )で与えられる関数はaで連続であり、このaに対して、となる。同様のアプローチは、連続的に微分可能な(ベクトル)関数(多変数)に対しても適用できる。この因数分解の方法は、導関数がリプシッツ連続ヘルダー連続などであることが求められる場合、より強い微分可能性形式に対する統一的なアプローチも可能にする。微分自体は、適切な関数のクラスに一般化された多項式剰余定理(小ベズー定理、または因数定理)と見なすことができる。[要出典]

多変数の場合

連鎖律を多変数関数( など)に完全に一般化するのはやや専門的である。しかし、 、各 に対して となる形の関数の場合は 、次のように書く方が簡単である。

このケースは単一変数の関数の研究では頻繁に発生するため、個別に説明する価値があります。

スカラー値多変数関数の場合

とし各 についてとします。関数の合成に関する連鎖律を書くには、 関数fk番目の引数に関する偏微分 が必要です。偏微分の通常の表記では、関数の引数に名前が付けられます。上記の式ではこれらの引数に名前が付けられていないため、D表記 を使用し、 関数fのi番目の引数に関する偏微分を で表し、 この微分のzにおける値を で表す方が単純かつ明確です

この表記法を用いると、連鎖律は

例: 算術演算

関数fが加法関数、 つまりならば となり、となる。したがって連鎖律によれば

乗算の場合、部分項はとです。したがって、

指数の場合は少し複雑で、 次の ようになります。

一般的なルール: ベクトル値多変数関数

一般的なケースで連鎖律を記述する最も簡単な方法は、全微分 を使うことです。これは、すべての方向微分を1 つの式で表す線型変換です。微分可能関数f  : R mR kg  : R nR m 、およびR n内のaを考えます。D a gaにおけるgの全微分D g ( a ) f をg ( a )におけるfの全微分とします。これらの 2 つの微分は、それぞれ線型変換R nR mR mR kであるため、合成できます。全微分に関する連鎖律は、それらの合成値がaにおけるfgの全微分:または略して となること です。高次元の連鎖律は、上記の 2 番目の証明と同様の手法を使用して証明できます。[8]

全微分は線型変換であるため、式に現れる関数は行列として書き直すことができます。全微分に対応する行列はヤコビ行列と呼ばれ、2つの微分の合成はそれらのヤコビ行列の積に対応します。この観点から、連鎖律は次のように表されます。あるいは、簡単に言えば、

つまり、合成関数のヤコビアンは、合成関数のヤコビアンの積です (適切なポイントで評価されます)。

高次元連鎖律は、1次元連鎖律の一般化です。kmnが1 で、f  : RRかつg  : RRとなる場合、 fgのヤコビ行列は1 × 1になります。具体的には、 fgのヤコビアンはこれらの1 × 1行列の積なので、1次元連鎖律から予想されるように、 f ′( g ( a ))⋅ g ′( a )となります。線形変換の言語では、D a ( g )はベクトルをg ′( a )倍する関数でありD g ( a ) ( f )はベクトルをf ′( g ( a ))倍する関数です。連鎖律によれば、これら2つの線形変換の合成は線形変換D a ( fg )であり、したがってそれはベクトルをf ′( g ( a ))⋅ g ′( a )でスケーリングする関数です

連鎖律の別の書き方は、fgがその成分を用いてy = f ( u ) = ( f 1 ( u ), …, f k ( u ))u = g ( x ) = ( g 1 ( x ), …, g m ( x ))と表されるときに用いられます。この場合、ヤコビ行列の上記の規則は通常、次のように表されます。

全微分に関する連鎖律は、偏微分に関する連鎖律を暗示しています。全微分が存在する場合、i番目の座標方向の偏微分は、ヤコビ行列にi番目の基底ベクトルを乗じることで求められることを思い出してください。上記の式にこれを当てはめると、次の式が得られます。ヤコビ行列の各要素は偏微分であるため、上記の式を簡略化すると次の式が得られます。より概念的に言えば 、この規則は、 x i方向の変化によってg 1からg mまですべてが変化する可能性があり、これらの変化のいずれかがfに影響を与える可能性がある という事実を表しています

k = 1 の特殊なケース、つまりfが実数値関数となる場合、この式はさらに簡略化されます。 これはドット積として書き直すことができます。u = ( g 1 , …, g m )思い出すと、偏微分u / ∂ x iもベクトルであり、連鎖律によれば次のようになります。

u ( x , y ) = x 2 + 2 y ( x ( r , t ) = r sin( t )y ( r , t ) = sin 2 ( t ) )が与えられたとき、連鎖律を用いてu / ∂ ru / ∂ tの値を決定します[引用が必要]および

多変数関数の高次導関数

ファア・ディ・ブルーノの単変数関数の高階微分公式は、多変数の場合にも一般化されます。y = f ( u )が上記のようにu = g ( x )の関数である場合、 fgの二階微分は次のようになります。

さらなる一般化

微積分の拡張にはすべて連鎖律があります。これらのほとんどにおいて、式の意味は大きく異なるものの、式自体は同じままです。

一般化の一つは多様体への適用です。この場合、連鎖律はfgの微分がfの微分とgの微分との合成であるという事実を表します。この定理は、上記に示した高次元の連鎖律から直接導かれるものであり、全く同じ式を持ちます。

連鎖律はバナッハ空間におけるフレシェ微分にも成り立つ。前述と同じ式が成り立つ。[9]この場合と前の場合を同時にバナッハ多様体にも一般化できる

微分代数において、導関数はケーラー微分加群の射として解釈される可換環f  : RSの環準同型は、ケーラー微分Df  : Ω R → Ω Sの射を決定し、これはf ( r )の外微分d ( f ( r ))drを写す。この文脈においても、D ( fg ) = DfDgが成立する。

これらの例に共通する特徴は、導関数が関数の一部であるという考え方を表現していることです。関数とは、空間とそれらの間の関数に対する操作です。関数は、各空間に新しい空間を関連付け、2 つの空間間の各関数に、対応する新しい空間間の新しい関数を関連付けます。上記の各ケースにおいて、関数は各空間をその接束に送り、各関数をその導関数に送ります。たとえば、多様体の場合、導関数はC r多様体をC r −1多様体 (その接束)に送り、 C r関数をその全導関数に送ります。これが関数であるための要件が​​ 1 つあります。つまり、合成物の導関数は、導関数の合成物でなければなりません。これは、式D ( fg ) = DfDgとまったく同じです。

確率計算には連鎖律も存在する。その 1 つである伊藤の補題は、伊藤過程(より一般的には半マルチンゲールdX tと 2 回微分可能な関数fの合成を表現する。伊藤の補題では、合成関数の導関数はdX tとfの導関数だけでなく、 fの 2 次導関数にも依存する。2 次導関数への依存は、確率過程の非ゼロの二次変化の結果であり、大まかに言えば、この過程が非常に大まかに上下に変動する可能性があることを意味する。この連鎖律の変形は、合成される 2 つの関数が異なる型であるため、関数の例ではない。

参照

参考文献

  1. ^ George F. Simmons「微積分と解析幾何学」(1985年)、93ページ。
  2. ^ シモンズ, ジョージ・F. (1996).微積分学と解析幾何学. マグロウヒル. p. 115. ISBN 9780070575295. インターネットアーカイブ
  3. ^ チャイルド, JM (1917). 「ライブニツの微分積分発見に関する手稿。第2部(続)」 .モニスト. 27 (3): 411– 454. doi :10.5840/monist191727324. ISSN  0026-9662. JSTOR  27900650.
  4. ^ ab ロドリゲス、オマール・エルナンデス;ロペス・フェルナンデス、ホルヘ・M. (2010)。 「連鎖規則の教訓に関する記号論的考察」。数学愛好家7 (2): 321–332土井: 10.54870/1551-3440.1191S2CID  29739148 2019年8月4日に取得
  5. ^ アポストル、トム(1974).数学解析(第2版). アディソン・ウェスレー. 定理5.5.
  6. ^ Goodfellow, Ian ; Bengio, Yoshua ; Courville, Aaron (2016),ディープラーニング, MIT、pp=197–217。
  7. ^ クーン、スティーブン (1991). 「カラテオドリー流微分法」.アメリカ数学月刊誌. 98 (1): 40– 44. doi :10.2307/2324035. JSTOR  2324035.
  8. ^ スピヴァック、マイケル(1965).多様体上の微積分. ボストン: アディソン・ウェスレー. pp.  19– 20. ISBN 0-8053-9021-9
  9. ^ チェイニー、ウォード(2001). 「連鎖律と平均値定理」.応用数学のための解析学. ニューヨーク: シュプリンガー. pp.  121– 125. ISBN 0-387-95279-9

さらに読む

  • Abou-Hayt, Imad; Dahl, Bettina (2025-03-29). 「現実的な文脈を用いて工学部の学生にチェーンルールを動機付け、教える」.教育科学. 15 (4): 433. doi : 10.3390/educsci15040433 . ISSN  2227-7102.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Chain_rule&oldid=1319257777"