ゼロから作るDeep Learning 5.6.1アフィン変換の微分

経理と機械学習

偏微分

「5.6.1 Affineレイヤ」にアフィン変換の微分がでてきます。姿は見せますが、説明はされません。ゼロから作ってきましたが、この仕組みがわからないと理解度はゼロのままで終わってしまう気がします。

そもそも文系経理には偏微分がわかりません。

微分が分からん!と思い、数Ⅱの微分の復習から始まり、初めてみる数Ⅲの微分まで
「坂田アキラの数Ⅱの微分積分が面白いほどわかる本」
「坂田アキラの数Ⅲの微分積分が面白いほどわかる本」
で勉強しましたが、最後まで偏微分がでてこない!

理系でも高校では習わないようです。ネットで見てなんとか頭に詰め込みます。

火焔土器
火焔土器

\(\partial \)の書き方はなんだろう?デルタの小文字か。

ということは\(δ\)だな。

結構、長い間、\(δ\)と書いていました(笑)
ラウンドディー(丸いd\(=\partial \))なんですね。筆記でも活字のように丸くするようです。知らないって怖い。

アフィン変換の微分をイメージしてみる

偏微分の基本はなんとかわかってきたところでアフィン変換の微分です。

\( \frac{\partial L}{\partial X}=\frac{\partial L}{\partial Y}W^T \)

\( \frac{\partial L}{\partial W}=X^T\frac{\partial L}{\partial Y} \)

イメージしてみます。

アフィン変換

\( Y=XW+B \)

\( X=(x_{1},x_{2}) \)

\( W=
\left[\begin{array}{ccc}
w_{11} & w_{12} & w_{13} \\
w_{21} & w_{22} & w_{23} \\
\end{array}\right] \)

\(B=(b_1,b_2,b_3) \)   

とすると

\( Y=(x_{1},x_{2})
\left[\begin{array}{ccc}
w_{11} & w_{12} & w_{13} \\
w_{21} & w_{22} & w_{23} \\
\end{array}\right] + (b_{1},b_{2},b_{3}) \)
\( =(x_{1}w_{11}+x_{2}w_{21}+b_{1},\) \(x_{1}w_{12}+x_{2}w_{22}+b_{2},\) \(x_{1}w_{13}+x_{2}w_{23}+b_{3}) \)
\( =(y_{1},y_{2},y_{3}) \)

(偏微分の例)
\(\frac{\partial y_{1}}{\partial x_{1}}=w_{11},\)
  \(\frac{\partial y_{1}}{\partial w_{11}}=x_1\)

Xの微分

\( \frac{\partial L}{\partial X}=\frac{\partial L}{\partial Y}W^T \) をイメージする。

\(\frac{\partial L}{\partial X}=(\frac{\partial L}{\partial x_{1}},\frac{\partial L}{\partial x_{2}})
=(\frac{\partial L}{\partial Y}\frac{\partial Y}{\partial x_{1}},\frac{\partial L}{\partial Y}\frac{\partial Y}{\partial x_{2}})\)

ここで

\(\frac{\partial L}{\partial Y}・\frac{\partial Y}{\partial x_{1}}=(\frac{\partial L}{\partial y_{1}},
\frac{\partial L}{\partial y_{2}},\frac{\partial L}{\partial y_{3}})
\left[\begin{array}{ccc}
\frac{\partial y_{1}}{\partial x_{1}} \\
\frac{\partial y_{2}}{\partial x_{1}} \\
\frac{\partial y_{3}}{\partial x_{1}} \\
\end{array}\right]\)

なので

\(\frac{\partial L}{\partial X}
=(\frac{\partial L}{\partial y_{1}}\frac{\partial y_{1}}{\partial x_{1}}
+\frac{\partial L}{\partial y_{2}}\frac{\partial y_{2}}{\partial x_{1}}
+\frac{\partial L}{\partial y_{3}}\frac{\partial y_{3}}{\partial x_{1}},\) \(\frac{\partial L}{\partial y_{1}}\frac{\partial y_{1}}{\partial x_{2}}
+\frac{\partial L}{\partial y_{2}}\frac{\partial y_{2}}{\partial x_{2}}
+\frac{\partial L}{\partial y_{3}}\frac{\partial y_{3}}{\partial x_{2}})\)


  \(=(\frac{\partial L}{\partial y_{1}}w_{11}
+\frac{\partial L}{\partial y_{2}}w_{12}
+\frac{\partial L}{\partial y_{3}}w_{13},\) \(\frac{\partial L}{\partial y_{1}}w_{21}
+\frac{\partial L}{\partial y_{2}}w_{22}
+\frac{\partial L}{\partial y_{3}}w_{23})\)


*各要素まで分解

\(\frac{\partial L}{\partial X}\)とは行列\(L\)の各成分の\(x_{i}\)の変化率の和になる。

\(\frac{\partial L}{\partial X}\)は(1,2)の形で、\(\frac{\partial L}{\partial Y}\)は(1,3)の形なので、

\(\frac{\partial L}{\partial X}\)を\(\frac{\partial L}{\partial Y}\)と何かの積の形で表すには、(1,2)=(1,3)(3,2)となる。

\(\frac{\partial L}{\partial X}(1,2)=\frac{\partial L}{\partial Y}(1,3)・?(3,2)\)

\(\frac{\partial L}{\partial X}=(\frac{\partial L}{\partial y_{1}},\frac{\partial L}{\partial y_{2}},\frac{\partial L}{\partial y_{3}})
\left[\begin{array}{ccc}
w_{11} & w_{21} \\
w_{12} & w_{22} \\
w_{13} & w_{23} \\
\end{array}\right]=\frac{\partial L}{\partial Y}W^T\)

Wの微分

\(\frac{\partial L}{\partial W}=X^T\frac{\partial L}{\partial Y}\)をイメージする。

\(\frac{\partial L}{\partial W}=
\left[\begin{array}{ccc}
\frac{\partial L}{\partial w_{11}} & \frac{\partial L}{\partial w_{12}} & \frac{\partial L}{\partial w_{13}}\\
\frac{\partial L}{\partial w_{21}} & \frac{\partial L}{\partial w_{22}} & \frac{\partial L}{\partial w_{23}}\\
\end{array}\right]\)


  \(=\left[\begin{array}{ccc}
\frac{\partial L}{\partial y_{1}}\frac{\partial y_{1}}{\partial w_{11}} &
\frac{\partial L}{\partial y_{2}}\frac{\partial y_{2}}{\partial w_{12}} &
\frac{\partial L}{\partial y_{3}}\frac{\partial y_{3}}{\partial w_{13}} \\
\frac{\partial L}{\partial y_{1}}\frac{\partial y_{1}}{\partial w_{21}} &
\frac{\partial L}{\partial y_{2}}\frac{\partial y_{2}}{\partial w_{22}} &
\frac{\partial L}{\partial y_{3}}\frac{\partial y_{3}}{\partial w_{23}} \\
\end{array}\right]\)


  \(=\left[\begin{array}{ccc}
\frac{\partial L}{\partial y_{1}}x_{1} &
\frac{\partial L}{\partial y_{2}}x_{1} &
\frac{\partial L}{\partial y_{3}}x_{1} \\
\frac{\partial L}{\partial y_{1}}x_{2} &
\frac{\partial L}{\partial y_{2}}x_{2} &
\frac{\partial L}{\partial y_{3}}x_{2} \\
\end{array}\right]\) 


*各要素まで分解

\(\frac{\partial L}{\partial W}\)とは行列\(L\)の各成分の\(w_{ij}\)の変化率の和になる。

\(\frac{\partial L}{\partial W}\)は(2,3)の形で、\(\frac{\partial L}{\partial Y}\)は(1,3)の形なので、

\(\frac{\partial L}{\partial W}\)を\(\frac{\partial L}{\partial Y}\)と何かの積の形で表すには、(2,3)=(2,1)(1,3)となる。

\(\frac{\partial L}{\partial W}(2,3)=?(2,1)・\frac{\partial L}{\partial Y}(1,3)\)

\(\frac{\partial L}{\partial W}= \left[\begin{array}{ccc}
x_{1} \\
x_{2} \\
\end{array}\right]
(\frac{\partial L}{\partial y_{1}},\frac{\partial L}{\partial y_{1}},\frac{\partial L}{\partial y_{1}})
=X^T\frac{\partial L}{\partial Y}\)

タイトルとURLをコピーしました