2021.03.20 TIL
- 기초통계
직선의 방정식
직선의 방정식의 경우 ‘분류’문제에서 사용된다. 좌표의 여러곳에 분산되어 있는 데이터들을 효율적으로 나눌 수 있는 직선의 방정식을 구함을 통해 데이터들을 잘 분류해낼 수 있는 모델을 만드는 것이 최종 목적이라 할 수 있다.
벡터 ‘w’가 있을 때 1.원점에서 출발한 벡터 ‘w’가 가리키는 점을 지나면서 2. 벡터 ‘w’에 수직인 방정식.
위 두 조건을 만족하는 직선 상의 임의의 점을 가리키는 벡터를 ‘x’라고 하면, 벡터 ‘x’가 가리키는 점과 벡터 ‘w’가 가리키는 점을 이은 벡터 ‘x−w’는 조건에 따라 벡터 ‘w’와 직교해야 한다.
wT(x−w)=0 식이 성립. 원점과 직선 사이의 거리는 ∥w∥으로 표현할 수 있다.
직선과 점의 거리
원점과의 거리가 아닌 직선과 직선 위에 있지 않은 점 x’ 사이의 거리는?
데이터를 분류할때 가장 잘 분류할 수 있는 직선을 구하기 위해 데이터의 좌표와 직선사이의 거리가 적절한 것을 구해야 한다. 그러기 위해 직선과 직선밖의 점 사이의 거리를 구하여야 한다.
(원점을 지나는)벡터 ‘w’에 대한 벡터 x′′의 투영성분 x′∥w 를 구한후 원점에서 직선과의 거리를 빼면 벡터 x’와 직선과의 거리를 구할 수 있다.
선형독립 선형종속
벡터가 모인 행렬에서 벡터간 종속(벡터들의 모양이 서로 관계가 있을때 ) 독립(종속과 반대)의 문제를 선형독립, 선형종속이라 명명하는데 설명과 마찬가지로 이는 연립방정식이 풀리냐 풀리지 않느냐의 문제랑 같다고 볼 수 있다. 이는 곧 ‘회귀분석’이 가능하냐 그렇지 않느냐는 문제와 같다. 종속의 경우 역행렬이 존재하지 않아 연립방정식을 풀 수 없고 따라서 회귀분석이 불가능해진다.
선형종속의 대표적인 3가지 경우
벡터의 개수가 벡터의 차원보다 클때(변수의 개수가 데이터의 개수보다 많을 때)
값이 같은 벡터가 있으면 선형종속이다.
어떤 벡터가 다른 벡터의 선형조합인 경우 (다른 벡터가 기존벡터의 합계, 평균을 나타날때 주로 발생)
기타 증명 및 정리
정방행렬이 풀랭크이면 역행렬이 존재한다. (역도 성립)
N개의 N차원 벡터가 선형 독립이면 이를 선형 조합하여 모든 N차원 벡터를 만들 수 있다.
곧 풀랭크인 정방행렬로 해당 차원의 어떤 것이든 만들 수 있음.
벡터 공간 투영
벡터 자체가 아닌 벡터들이 모여있는 벡터 공간 투영 벡터공간 밖의 벡터가 벡터공간으로 투영될때 가장 짧은 거리는 내적-수직하는 거리.
고유값-분해, 특이값-분해, PCA
고유값을 찾고 분해를 하는 과정은 데이터의 차원을 줄이는 과정에 필수적이다. 데이터의 차원을 줄임으로써 데이터를 효율적으로 분류할 수 있다.
데이터가 좌표에 존재하고 다차원일 수록 분류하는 모델이 복잡해지고 그만큼 데이터도 많이 필요로 하게 된다. 고유값을 찾고 분해를 하는 과정을 통해 기존의 데이터 행렬을 저차원으로 줄이게되고 분류-분석에 있어서 효율적으로 진행할 수 있게 된다.
- 해당 행렬의 행렬식 값은 고유값의 곱과 같다.
- Trace- 행렬식의 대각합은 고유값의 합과 같다.
고유값이 하나라도 0이 있다면 행렬식의 값은 0이 되고 행렬식이 0이라면 역행렬이 존재하지 않는다. 즉 고유값에 0이 하나라도 있다면 역행렬이 존재하지 않게된다. (역도 성립)
N차원이면 고유값과 고유벡터가 N개인것이 일반적이지만 2차원 경우 고유값이 하나인 종복고유값이 존재하며 고유값이 하나라고 고유벡터 역시 하나인것만은 아니다.(ex. 항등행렬)
- 넘파이(numpy)패키지로 계산 가능
대각화
AV = λV 라고 했지만 동시에 AV = VΛ 도 가능하다. 여기서의 Λ는 고유값을 행렬화 한 것.
최종적으로 아래 식이 성립. (대각화 - 고유벡터가 역행렬이 존재한다는 가정하에, 고유벡터들이 선형독립)
이런식으로 행렬을 단순화하여 벡터 또는 스칼라의 곱으로 표현한것을 분해라고 한다. (ex. 12=2x2x3 )
정방행렬, 대칭행렬, 공분산행렬마다 정의와 특징이 달라짐.
대칭행렬의 경우 아래와 같은 식이 성립. (고유벡터들이 서로 직교)
또한 대칭행렬의 경우 랭크-1의 합으로 표시가 가능하다. (중요!)
열행렬 행행렬의 곱으로 나누어질 수 있고 (랭크1) 하나의 식으로 표현가능하다.
[정리] 대칭행렬이 양의 정부호이면 고유값은 모두 양수이다. (역도 성립한다.) (중요!)
대칭행렬이 양의 준정부호이면 고유값은 0이거나 양수이다. (역도 성립한다.)
분산행렬은 양의 준정부호이고 고유값이 0보다 크거나 같다. 행렬 X가 풀랭크이면 분산행렬 XTX의 역행렬이 존재한다. 고유값은 0이 아니다. (0 초과)
특이값-분해
PCA
차원축소
데이터 간 규칙으로 발견, 일정한 상관관계를 가진 데이터를 하나의 특징을 가진 데이터로 축소하는 것.