2021.03.16 TIL
p - value (p값)
해당값이 보이는 차이가 해당값이 속한 데이터군에서 얼마나 유의미한지 판단하는 지표. 0에 가까울 수록 실현 불가능할 만큼 큰 차이를 보인다는 것을 의미하고 1에 가까울수록 충분히 우연하게 일어날 수 있는 차이를 의미한다.
유의 수준
p값이 어느정도 되어야 유의미한지 판단하는 기준 (일반적으로 0.5, 즉 5%를 기준으로 삼는다.) 유의수준을 통해서 유의미성을 판단하는 과정을 유의성검정이라고 한다.
여러가지 분포들.
데이터의 개수, 변수의 구성, 데이터들이 가진 차이, 데이터 간 차이로 보이고자 하는 특징들이 다르기 때문에 매번 p값을 구하는 과정은 쉽지 않다. 이런 다른 상황과 데이터의 구성에 따라 확률을 계산할 수 있는 일종의 ‘틀’을 분포라고 할 수 있다. 직접 데이터군에서 표본을 일일히 뽑아 비교대조할 필요 없이 분포를 활용하여 쉽게 p값을 구할 수 있다. 하지만 어떤 상황에 어떤 분포를 사용해야 하냐는, 해결해야하는 문제가 있다.
모수
분포의 특징을 결정하는 값. 정규분포에서는 평균과 표준편차와 같은 값. 분포에 따라서 관측치 수 , 범주형 변수의 개수등 분포마다 사용하는 모수가 다르다.
t 분포 (+ t값)
관측치가 적은 데이터를 설명할때 사용하는 분포.
표본평균과 표본평균의 표준편차를 사용하며 모수로 자유도를 사용한다. (관측치 -1) ‘표본평균의 표준편차’를 구하는 것이 관건. 표본평균의 분산은 표본의 분산 1/n 배이다. 하나의 값의 분산보다 n개 값 평균인 표본평균의 분산이 덜 흔들릴테고 따라서 분산이 작다. 결국 ‘표본평균의 표준편차’는 표본의 표준편차의 1/루트n 이다.
- t값 : 표본평균-기준값 / 표본평균의 표준편차
- t 검정 : t분포에서 t값이 어디에 위치해 있는지 파악하고 데이터가 가진 차이의 의미를 밝히는 과정
카이제곱 분포
오차 제곱합에 대한 확률분포 두 개의 범주형 변수끼리의 비교에 사용된다. 두 개의 범주형 변수가 독립인지 아니면 상관관계가 있는지 비교. 카이제곱값이 커지면 변수끼리의 상관관계가 밀접. t분포와 마찬가지로 자유도를 모수로 사용한다. 카이제곱값으로 검정하는 과정을 ‘독립성 검정’이라고 한다.
F 분포
그룹에 따라 연속형 변수에 얼마나 큰 차이가 있는지 범주형 변수가 연속형 변수의 차이를 얼마나 많이 설명하는지
- F값 범주형 변수로 설명할 수 있는 부분의 평균제곱합 / 범주형 변수로 설명할 수 없는 부분의 평균제곱합