스카이버드 2023. 10. 17. 00:35

목차

1.통계적 추론의 개요

2.가설검정

 

1. 통계적 추론의 개요

 1.1 추론의 종류

  • 귀납적 추론 
    귀납( 歸納, 돌아갈 귀, 들일 납) : 과거로 돌아가 그 경험이나 사례를 들인다.
    즉, 귀납적 추론이란 반복된 경험이나 관찰을 통해서 특수한 사실이나 원리를 찾아내는 방법.
    ex) 소크라테스는 죽었다. 플라톤도 죽었다. 우리 할아버지도 돌아가셨다. >> 그렇기 때문에 인간은 죽는다.
  • 연역적 추론
    연역( 繹, 펴다 연, 풀다 역) : 이미 있는 전제를 풀어서 추론
    즉, 일반적인 사실이나 원리로부터 개별적이고 특수한 사실이나 원리를 찾아내는 추론방법
    ex) 인간은 죽는다(대전제) + 나는 인간이다(소전제) >> 나는 결국 죽는다

 1.2 통계적 추론

 의미 :확률적 실험이나 관측을 통해서 얻은 결론을 유사한 실험에서도 동일한 결론으로 나타날 것이라고 추론. 이른바 귀납적 비약을 통해 이루어짐. => 귀납적 추론과 유사

모집단 vs 샘플

 

 1.2.1 통계적 추론 2단계 과정

  • 추정 
    추정은 점추정과 구간 추정으로 나뉨
    점 추정은 모수를 1개의 수치로 추정 but 구간 추정은 모수를 구간으로 추정
  • 검정
    모수의 대한 2가지 가설(귀무가설, 대립가설)중에서 하나를 선택

 1.2.2 점추정

 1.2.3 구간추정

  표본분포를 정규화하고 표준화 한뒤 해당 범위내 값을 표준분포표 참조하여 구함

  정규화 : X바 ∽ N(μ,σ^2/n)

  표준오차(SE(X바)) = 표준편차 = σ/root(n) , SE는 standard error의 준말

  • 표준오차(표준편차) vs 표본오차
    P[lX바 - μl < 1.96 *SE(X바) ] = 0.95
표준 오차 표본 오차 (신뢰 수준 95%일 때)
SE(X바) =  σ/root(n) 1.96 *SE(X바)
  • μ(평균)에 대한 신뢰수준 구하기
    표본 오차 식 lX바 - μl < 1.96 *SE(X바) 에서 절대 값을 풀어주고 μ에 대해 정리
    P[X바 - 1.96* σ/root(n) < μ < X바 + 1.96*σ/root(n)] = 0.95
    μ에 대한 신뢰수준 95% 신뢰 범위 = [ X바 - 1.96* σ/root(n) ,  X바 + 1.96*σ/root(n)]

 1.3 모비율의 점추정과 구간 추청

  평균의 점추정과 구간 추정과 비슷함

  n이 충분히 클때 정규화   p^ ∽ N(p,root(p(1-p))/root(n)), 

  •  모비율 구간 추정
    P[lp - p^l < 1.96*  {root(p(1-p))/root(n)} ] = 0.95
    P[p^ - 1.96* {root(p(1-p))/root(n)}  < p < p^ + 1.96*{ root(p(1-p))/root(n)} ] = 0.95
    p에 대한 신뢰수준 95% 신뢰 범위 = [ p^ - 1.96* {root(p(1-p))/root(n)} , p^ + 1.96*{ root(p(1-p))/root(n)}]

 1.4 구간추정의 신뢰도 및 정밀도

  • 표본의 크기(n)이 커질수록 표준오차값이 작아지기 때문에 정밀도는 증가
  • 신뢰도(범위)가 커질수록 정밀도는 감소 ex) 100% 신뢰도구간은 -무한대 부터 +무한대까지임;

요약

  • 1개의 모수에 대하여 구간은 [통계치(표본 추정치) +- 표준오차]로 추정
  • 표본에 따라 달라지는 불확시성에 대해 모수를 확률적으로 진술가능
  • 신뢰수준이 커질수록 정밀도 감소
  • 표본의 크기가 커질수록 절밀도 증가

2. 가설검정

  2.1 두개의 가설

  • 귀무가설 H0 : 기존의 사실, 값
  • 대립가설 H1 : 모집잔의 주장

 2.2 단측 검정 vs 양측 검정

  • 단측 검정은 대립가설이 방향이 있을 때 사용 ex) 부등호 >, < 사용시
    만약 유의 수준이 5%라면 t0.5활용
  • 양측 검정은 대립가설이 방향성이 없을 때 사용 ex) !=(같지않음) 사용시
    만약 유의 수준이 5%라면 t0.25사용

2.3 유의 수준

의미 : 제 1종의 오류를 범할 확률, 즉  H0이 맞지만 H1을 채택 할 확률

보통 5% 즉, α = 0.05

 

2.4 P-value(유의 확률)

의미 : 어떤 값이 실제관측값보다 더 극단값이 나올 확률 , 값이 작을수록 더 극단값으로 가기때문에 H0가 기각될 확률이 높아짐

ex) 모평균이 5이고 표본 평균이 10 나왔다면 10이상의 값이 나올 확률을 말함. 

 

2.5 t분포를 쓰는 경우 >> n의 값이 작아 표준정규분포표를 사용할수 없을 때

 

2.5 검정에서 기각역

  • 유의 수준초과의 범위
  • 따라서 어떤 값이 기각역에 해당하면 H0는 기각

2.5 가설 검정 단계

 STEP1. 가설 설정

 STEP2. P-value 계산

  표본결과 : X바 >> 검정통계치 Z(t) = (X바- μ )/(σ/root(n))

  P-value = Pr(lTl > t )

 STEP3. 검정규칙

  P-value < α      H0 기각

  P-value >= α    H0 유지, H1 기각

 

2.6 가설검정의 유용성

  • 통계적 가설검정은 쓸모 없는 토론에 종지부를 찍어준다.
  • 법정에서 판결(무죄 대 유죄)을 내릴 때에도 적용된다.
  • 빅데이터에 대한 자동화된 가설 검정의 결론은 인공지능의 의사결정에 중요한 역할을 한다.
  • 가설이 여러 개인 경우로 확장하여 적용 가능