2021.03.25 TIL
- 기초통계
행렬 미분
기존 미적분이 스칼라갑을 입력으로 스칼라값을 출력한다면 벡터나 행렬을 입력으로 벡터-행렬을 출력하는 함수도 존재하고 이를 행렬미분이라한다. (엄밀하게 미분이 아닌 편미분)
많이 사용하는 미분 법칙
스칼라를 벡터로 미분하는 경우
스칼라를 벡터 미분했을 때 결과를 열벡터로 표시하고 이를 그레디언트 벡터라 칭한다.
2차원 경우 그레디언트 벡터를 표시할때 등고선과 같은 컨투어 플롯으로 표시 가능하고 컨투어 플롯 위에 모든 그레디언트 벡터를 화살표로 나타낸 것을 ‘퀴버플롯’이라고 한다.
- 그레디언트 벡터 크기는 기울기를 의미한다. 크기가 클수록 함수 곡면의 기울기가 커진다.
- 그레디언트 벡터 방향은 기울기가 가장 큰 방향이며 등고선 방향(등고선 = 높이가 같은 층)과 직교한다.
벡터를 스칼라로 미분.
결과값을 헷갈리지 않도록 하기 위해 행벡터로 표시한다.
벡터를 벡터로 미분.
미분의 결과로 나온 도함수는 2차원 배열, 행렬이 된다.
행력과 벡터 곱은 벡터. 벡터를 벡터로 미분하면 행렬이 된다.
미분된 도함수가 행렬 형태가 되는 경우, 이런 도함수 행렬을 ‘자코비안 행렬’이라 부른다.
자코비안 행렬은 벡터함수를 벡터변수로 미분해서 생기는 행렬의 전치행렬. (행과 열의 방향이 다르다.)
헤시안 행렬은 2차 도함수 즉 스칼라를 벡터로 미분(=그레디언트 벡터)한 결과를 한 번더 미분한 결과를 뜻한다.
벡터를 벡터로 미분했기에 결과값은 행렬로 나타나며 아래처럼 (자코비안 행렬을 통해)표기하기도 한다.
함수가 연속이고 미분가능한 함수라면 ‘슈와르츠 정리’에 의해서 헤시안 행렬은 대칭행렬이 된다.
스칼라를 행렬로 미분
스칼라를 행렬로 미분하면 결과값은 행렬로 나온다.
양의 정부호인 경우에만 사용 (log에는 양의 값만 들어갈 수 있으므로)