2021.04.07 TIL
- 선형회귀 복습.
선형회귀 분석
기본
레버리지 & 아웃라이어
개별적인 데이터 표본 하나가 의미가 있는지 판별하는 것.
레버리지 : 실제 종속(타겟)변수 y가 예측치 y-hat에 미치는 영향을 나타낸 값
완벽한 예측인 경우 hii*yi 를 제외하고 전부 0이 되어야 한다. (사실상 불가능)
레버리지란 hii를 의미한다. (실제 결과값 yi가 예측값 y(hat)i에 미치는 영향)
레버리지의 성질
1) 레버리지는 0과 1 사이의 양수값
2) 레버리지를 모두 더한 값(=영향도행렬의 대각합)은 K(모수의 개수, 변수의 개수)
ex) Boston 집값 data의 경우 K가 14, 레버리지의 개수는 500. 즉, 500개의 레버리지 합이 14가 되어야 한다.
데이터가 무리지어 있지 않고 단독으로 존재할 수록 레버리지가 커짐.
레버리지가 크더라도 오차가 작은 데이터는 포함되거나 배제되어도 모형이 별로 달라지지 않는다.
아웃라이어 : 데이터의 법칙에서 거리가 있는 Data, 잔차가 큰 Data
표준화 잔차(잔차를 잔차의 표준편차를 통해 나눈 값)를 통해 오차가 큰지 작은지 (즉 아웃라이어인지 그렇지 않은지) 비교가 가능하다.
레버리지가 적다면 아웃라이어로 데이터 값을 배제할 수 있지만 레버리지가 크다면 잘 살펴볼 필요가 있다.
결정계수
잔차제곱합으로 모형의 성능을 따지는데 스케일이 달라지면 잔차제곱합도 달라지기 때문에 잔차제곱합 만으로는 모형 성능을 따질 수 없고 다른 모델과의 비교 역시 어렵다.
기준값을 이용하여 정규화, 성능평가와 비교가 가능한 상태로 만들어주는 과정이 바로 분산분석. 잔차제곱합은 분산분석을 통해 결정계수로 나타난다.
조정결정계수
독립변수를 추가하게 되면 결정계수 값은 항상 증가한다.(전혀 유의성이 없는 변수라할지라도)
따라서 변수가 많아지면 많아질수록 Penalty를 줘야할 필요성이 생긴다. 그렇게 등장한 것이 결정계수에서 발전된 조정결정계수이다.
summary에선 R-squared를 개선한 Adj. R-squared와 Log-Likelihood를 개선한 AIC, BIC가 있다.
F검정 이용
F 검정을 통해 각 독립변수의 중요도를 비교
statsmodel의 anova명령을 통해 모델끼리의 비교가 가능하고 typ=2 인수를 통해 각 변수의 유의도를 비교할 수 있다.
잔차정규성
실무적인 부분으로 잔차정규성을 통해 잔차를 검증하여 data 선형인지 비선형인지 검증한다. 비선형 상관관계의 잔차도 정규분포로 나올 수 있기때문에 이때는 잔차 plot으로 판별한다.
비선형 데이터를 다루는 여러가지 방법이 있을 수 있는데 해당 변수가 비선형적인 상관관계를 가진다고 가정할때 해당모형을 분석할때 제곱을하거나 로그를 씌워주거나 (비선형성이 심하다면) 범주화(카테고리화-더미변수)를 해주어 분석을 진행한다던가의 방법이 있다. 종속변수(y1, y2, y3)간 상관관계가 발견된다면 ‘시계열 모형’을 사용해야 한다.
EX)