Oh-Seung-Rok

안녕하세요. 정량적인 분석을 통해 제품-서비스를 개선하고 소비자들의 욕구를 먼저 파악하는 분석가가 되고 싶은 오승록입니다. 포트폴리오 [https://seungrok0317.com]

TIL 210331

31 Mar 2021 » TIL

2021.03.31 TIL

  • 기초통계

추정과 검정

최대가능도 추정법

최대가능도 추정법에서는 ‘가능도 함수’란 개념이 필수적이다. 확률밀도함수의 경우 모수 θ가 알고 있는 상수계수고, x가 변수가 된다. 하지만 ‘모수 추정’문제의 경우 상황이 정반대가 된다. x란 data들이 있을때 모수 θ이 어떤 값일 때 해당 x(data)들이 나오게 되는지 θ의 범위를 가리키는 것이 가능도 함수이다.

1

위의 자료처럼 가능도가 최대가 되는 θ값을 찾는 과정이기에 ‘최적화’과정이 필요하다. 식을 미분하는 과정을 통해 최대값을 찾는 것인데 주로 로그 가능도 함수를 사용한다. 이유는 로그함수의 경우 곱셈이 덧셈이 되어 계산이 단순해지고 로그변환을 한다고 해서 최대값의 위치가 변하지는 않기 때문이다.

베이즈 추정법

모수값이 가질 수 있는 ‘모든 가능성의 분포’를 계산하는 작업.

베이즈 정리를 통해 ‘모수’를 추정한다.

2

이렇게 다른 확률분포를 사용하여 모수의 분포를 추정하는 것이 모수적 방법. 모수 자체가 아닌 모수의 분포(확률로 제시)를 보여주는 것이 베이즈 추정의 다른 특징이다.

모수의 분포를 표현하는 ‘확률분포함수’의 모수를 찾는 과정인데 이를 하이퍼 모수라 하며 결국 모수적 방법은 이러한 하이퍼 모수를 찾는 방법이다.

모수의 분포와 동일한 분포를 가지는 실제 표본집합을 히스토그램이나 최빈값등을 통해 제시하는 것이 비모수적 방법이다.

다른 추정 방법보다 불확실성이 낮고(불확실성도 표현하여 보여준다.) 순차적 계산이 가능하다. (data 계속 들어올 경우, 1차 2차로 나눈다고 했을때 1차의 사후확률이 2차의 사전확률이 된다. - 새롭게 계산을 하거나 계산량을 늘리지 않아도 된다.)

검정

scipy (sp)이용

이항검정

sp.stats.binom_test(x, n=none, p=0.5, alternative=’two-sided’)

x: 검정통계량 혹은 1이 나온 횟수

n: 총 시도 횟수

p: 귀무가설의 μ(뮤)값

alternative : 단측-양측검정 (단측인 경우 less, greater)

동전던지기 .

n= 10(던진 횟수) 이고 유의확률10%일때 한면이 몇번나와야 unfair하다고 할 수 있을까.

N1 = 10

pvalues1 = np.array([sp.stats.binom_test(n, N1) for n in range(N1 + 1)])

fair_range1, = np.where(pvalues1> 0.1)

fair_start1, fair_end1 = fair_range1[0], fair_range1[-1]

print(‘N={} 일 때 공정한 경우 : 앞면이 나온 횟수가 {}~{}일때’. format(N1, fair_start1, fair_end1))

카이제곱 검정

카테고리분포 모수에 대한 검정을 위해 사용.

sp.stats.chisquare(f_obs, f_exp=None)

f_obs : 데이터 행렬

f_exp : 기대값 행렬

3

카이제곱 독립검정

범주형 변수 X, Y가 있을때 서로 상관관계가 있는지 검증할때 사용할 수 있다.

대체로 boxplot 이용하여 조건을 바꿔가며 직접확인하는 경우가 대부분.

sp.stats.chi2_contingency(obs)

상관관계가 없음이 귀무가설.

4

단일표본 t 검정

정규분포의 표본에 대해 기대값 조사하는 검정방법.

sp.stats.ttest_1samp(a, popmean)

a : 표본 데이터 배열

popmean : 귀무가설의 기대값

5

독립표본 t 검정

두 개의 독립적인 정규분포에서 나온 N1, N2 각각의 데이터 셋을 사용하여 두 정규분포의 기대값이 동일한지 검사하는 검정방법.

귀무가설 = 두 정규분포의 기대값이 동일하다.

등분산 검정

독립표본 t 검정과 비슷하지만 기대값이 아닌 두 분산값이 동일한지 검정하는 방법.

sp.stats.(bartlett, fligner, levene)(x1, x2) 세 가지 모두 사용 가능

정규성 검정

기존검정이 모수검정이었다면 정규성 검정의 경우 확률분포가 정규분포인지 아닌지 검정하는 방법.

많이 사용.

6

추후 회귀분석 보고서의 경우 하단에 prob(omnibus), prob(JB) 와 같이 정규성 검정의 유의확률을 보여준다.

Related Posts