통계적 추론
목차
1.통계적 추론의 개요
2.가설검정
1. 통계적 추론의 개요
1.1 추론의 종류
- 귀납적 추론
귀납( 歸納, 돌아갈 귀, 들일 납) : 과거로 돌아가 그 경험이나 사례를 들인다.
즉, 귀납적 추론이란 반복된 경험이나 관찰을 통해서 특수한 사실이나 원리를 찾아내는 방법.
ex) 소크라테스는 죽었다. 플라톤도 죽었다. 우리 할아버지도 돌아가셨다. >> 그렇기 때문에 인간은 죽는다. - 연역적 추론
연역( 演繹, 펴다 연, 풀다 역) : 이미 있는 전제를 풀어서 추론
즉, 일반적인 사실이나 원리로부터 개별적이고 특수한 사실이나 원리를 찾아내는 추론방법
ex) 인간은 죽는다(대전제) + 나는 인간이다(소전제) >> 나는 결국 죽는다
1.2 통계적 추론
의미 :확률적 실험이나 관측을 통해서 얻은 결론을 유사한 실험에서도 동일한 결론으로 나타날 것이라고 추론. 이른바 귀납적 비약을 통해 이루어짐. => 귀납적 추론과 유사
모집단 vs 샘플
1.2.1 통계적 추론 2단계 과정
- 추정
추정은 점추정과 구간 추정으로 나뉨
점 추정은 모수를 1개의 수치로 추정 but 구간 추정은 모수를 구간으로 추정 - 검정
모수의 대한 2가지 가설(귀무가설, 대립가설)중에서 하나를 선택
1.2.2 점추정
1.2.3 구간추정
표본분포를 정규화하고 표준화 한뒤 해당 범위내 값을 표준분포표 참조하여 구함
정규화 : X바 ∽ N(μ,σ^2/n)
표준오차(SE(X바)) = 표준편차 = σ/root(n) , SE는 standard error의 준말
- 표준오차(표준편차) vs 표본오차
P[lX바 - μl < 1.96 *SE(X바) ] = 0.95
표준 오차 | 표본 오차 (신뢰 수준 95%일 때) |
SE(X바) = σ/root(n) | 1.96 *SE(X바) |
- μ(평균)에 대한 신뢰수준 구하기
표본 오차 식 lX바 - μl < 1.96 *SE(X바) 에서 절대 값을 풀어주고 μ에 대해 정리
P[X바 - 1.96* σ/root(n) < μ < X바 + 1.96*σ/root(n)] = 0.95
μ에 대한 신뢰수준 95% 신뢰 범위 = [ X바 - 1.96* σ/root(n) , X바 + 1.96*σ/root(n)]
1.3 모비율의 점추정과 구간 추청
평균의 점추정과 구간 추정과 비슷함
n이 충분히 클때 정규화 p^ ∽ N(p,root(p(1-p))/root(n)),
- 모비율 구간 추정
P[lp - p^l < 1.96* {root(p(1-p))/root(n)} ] = 0.95
P[p^ - 1.96* {root(p(1-p))/root(n)} < p < p^ + 1.96*{ root(p(1-p))/root(n)} ] = 0.95
p에 대한 신뢰수준 95% 신뢰 범위 = [ p^ - 1.96* {root(p(1-p))/root(n)} , p^ + 1.96*{ root(p(1-p))/root(n)}]
1.4 구간추정의 신뢰도 및 정밀도
- 표본의 크기(n)이 커질수록 표준오차값이 작아지기 때문에 정밀도는 증가
- 신뢰도(범위)가 커질수록 정밀도는 감소 ex) 100% 신뢰도구간은 -무한대 부터 +무한대까지임;
요약
- 1개의 모수에 대하여 구간은 [통계치(표본 추정치) +- 표준오차]로 추정
- 표본에 따라 달라지는 불확시성에 대해 모수를 확률적으로 진술가능
- 신뢰수준이 커질수록 정밀도 감소
- 표본의 크기가 커질수록 절밀도 증가
2. 가설검정
2.1 두개의 가설
- 귀무가설 H0 : 기존의 사실, 값
- 대립가설 H1 : 모집잔의 주장
2.2 단측 검정 vs 양측 검정
- 단측 검정은 대립가설이 방향이 있을 때 사용 ex) 부등호 >, < 사용시
만약 유의 수준이 5%라면 t0.5활용 - 양측 검정은 대립가설이 방향성이 없을 때 사용 ex) !=(같지않음) 사용시
만약 유의 수준이 5%라면 t0.25사용
2.3 유의 수준
의미 : 제 1종의 오류를 범할 확률, 즉 H0이 맞지만 H1을 채택 할 확률
보통 5% 즉, α = 0.05
2.4 P-value(유의 확률)
의미 : 어떤 값이 실제관측값보다 더 극단값이 나올 확률 , 값이 작을수록 더 극단값으로 가기때문에 H0가 기각될 확률이 높아짐
ex) 모평균이 5이고 표본 평균이 10 나왔다면 10이상의 값이 나올 확률을 말함.
2.5 t분포를 쓰는 경우 >> n의 값이 작아 표준정규분포표를 사용할수 없을 때
2.5 검정에서 기각역
- 유의 수준초과의 범위
- 따라서 어떤 값이 기각역에 해당하면 H0는 기각
2.5 가설 검정 단계
STEP1. 가설 설정
STEP2. P-value 계산
표본결과 : X바 >> 검정통계치 Z(t) = (X바- μ )/(σ/root(n))
P-value = Pr(lTl > t )
STEP3. 검정규칙
P-value < α H0 기각
P-value >= α H0 유지, H1 기각
2.6 가설검정의 유용성
- 통계적 가설검정은 쓸모 없는 토론에 종지부를 찍어준다.
- 법정에서 판결(무죄 대 유죄)을 내릴 때에도 적용된다.
- 빅데이터에 대한 자동화된 가설 검정의 결론은 인공지능의 의사결정에 중요한 역할을 한다.
- 가설이 여러 개인 경우로 확장하여 적용 가능