본문 바로가기
AI · 인공지능/딥러닝 Tutorial

[딥러닝 입문 - 4] 선형 대수의 기초(8/9)

by 두우우부 2020. 7. 26.
반응형

4.4 벡터 값 함수의 미분

벡터 값 함수의 미분을 하려면 각 성분마다 스칼라 값 함수와 같은 방법으로 미분합니다. 예를 들어 앞 절의 f의 미분은

 

 

입니다.

 

 

 

출력이 벡터인 것에 대응하여 미분도 벡터라는 것에 주의하십시오. 적은 양을 나타내는 d를 이용하여

라고 써도 상관없습니다.

 

입출력이 모두 다변수인 함수를 미분하는 경우에도, 출력의 성분마다 미분합니다. 다만, 이번엔 입력도 다변수이기 때문에 입력의 성분에 대해 편미분을 해야 합니다. 예를 들어, 앞절의 g를 미분하면, ​​전에 설명한 성분 표시를 사용하여

 

가 됩니다. M개의 입력 변수와 N개의 출력 변수의 조합을 고려할 필요가 있기 때문에, 미분은 사이즈 (N, M)의 매트릭스가 된다는 것에 주의하십시오. 이 모든 편미분 조합을 정리해 만든 행렬을 야코비 행렬(Jacobian matrix)이라고 합니다.

 

4.5. 합성 함수의 미분 (다변량 버전)

전에 1변수 입력, 1변수 출력의 합성 함수의 미분(연쇄 법칙:chain rule)을 설명했습니다만, 유사한 정리가 다변수 입력, 다변수 출력의 경우에도 성립합니다. 여기서는 다변량 버전 합성 함수의 미분 공식을 소개합니다.

 

g를 M변수 입력, N변수 출력, f를 N변수 입력, L변수 출력의 함수로 합니다. 이 함수의 합성 h=f(g(x))은 M변수 입력, L변수 출력 함수인 점에 유의하십시오. 이를 x로 미분합니다. 다음의 식이 다변수 함수 버전 합성 함수의 미분 공식입니다.

여기에서 u=g(x)입니다.

 

1변수 입력, 1변수 출력인 합성 함수의 미분 공식과 비교하면 일반체였던 변수와 함수가 bold체가 되어 d였던 곳이 편미분을 나타내는 ∂로 대체하고 있습니다. 즉, 1변수의 경우와 가장 큰 차이점은

 

가 행렬인 것입니다. 행렬의 크기는 각각(L,M), (L,N), (N,M)입니다. 이에 따라 공식 우변의 곱셈은 행렬 곱입니다. 크기가(L,N) 과 (N,M)이므로, 행렬 곱이 잘 정의된다는 점에 유의하십시오. 또한 행렬 곱셈은 교환되지 않으며, 우변을 교환하여

 

 

로 하면 다른 의미가 되어 버림(애당초 정의가 불가할지도 모른다)에 유의하십시오.

 

M = N = L = 1로 하면, 위에 설명된 합성 함수의 미분과 똑같은 공식입니다. 그런 의미에서 다변수 함수의 합성 함수의 미분은 1변수인 경우를 일반화한 공식입니다. 반대로, 1변수의 공식은 다변량 공식의 특별한 케이스라고 할 수 있습니다.

 

 

[딥러닝 입문 - 4] 선형 대수의 기초(9/9)

4.5.1 계산 예 1 합성 함수의 미분을 사용하여 다변수 함수의 미분을 구체적으로 계산해 봅시다. 로 합니다. 즉, g는 2 입력 4 출력, f는 4 입력 3 출력입니다. 이들에 대하여 를 계산합니다. 편미분

doooob.tistory.com

반응형