본문 바로가기
빅데이터분석기사

추정과 가설검정

by 아마도개발자 2025. 5. 19.

 

1. 추정의 개요

 

가. 확률 표본

  • 확률분포는 분포를 결정하는 평균, 분산 등의 모수를 가지고 있음
  • 특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것
  • 각 관측값들은 서로 독립적이며 동일한 분포를 가짐

나. 추정

  • 표본으로부터 미지의 모수를 추측하는 것
  • 점추정
    • '모수가 특정한 값'이라고 추정하는 것
    • 표본의 평균, 중위수, 최빈값 등을 사용
      • 불편성: 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 편의가 없다
      • 효율성: 추정량의 분산이 작을수록 좋다
      • 일치성: 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다.
      • 충족성: 추정량은 모수에 대하여 모든 정보를 제공
      • 표본평균: 모집단의 평균을 추정하기 위한 추정량. 확률표본의 평균값
      • 표본분산: 모집단의 분산을 추정하기 위한 추정량
  • 구간추정
    • 모수가 특정한 구간에 있을 것이라고 선언하는 것
    • 추정량의 분포에 대한 전제가 주어져야함. 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준)이 주어져야 함

 

2. 가설검정

 

가. 정의

  • 모집단에 대한 어떤 가설을 설정한 뒤 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법
  • 표본 관찰 혹은 실험을 통해 귀무가설과 대립가설 중 하나를 선택하는 과정
  • 귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후, 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택여부 결정
    • 귀무가설: '비교하는 값과 차이가 없다. 동일하다'를 기본개념으로 하는 가설
    • 대립가설: 뚜렷한 증거가 있을 때 주장하는 가설
    • 검정통계량: 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준
    • 유의수준: 귀무가설을 기각하게 되는 확률의 크기로 '귀무가설이 옳은데도 이를 기각하는 확률의 크기'
    • 기각역: 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준인 부분
    • 가설검정 단계
      1. 목적에 따라 귀무가설과 대립가설 설정
      2. 검정통계량을 구하고 그 분포를 구함
      3. 유의수준을 결정하고 검정통계량의 분포에서 대립가설의 형태에 따라 유의수준에 해당하는 기각역 설정
      4. 귀무가설이 옳다는 전제 하에 표본관찰에 의한 검정통계량의 값을 구함
      5. 검정통계량의 값이 기각역에 속하는가를 판단하여 기각역에 속하면 귀무가설을 기각, 기각역에 속하지 않으면 귀무가설 채택
    • 제 1종 오류: 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류
    • 제 2종 오류: 귀무가설이 옳지 않은데도 귀무가설을 채택하게 되는 오류
    • 검정력: 대립가설이 사실일 때, 이를 사실로 결정한 옳은 결정의 확률1. 추정의 개요
가설검정
평균검정 분산검정
t-검정 분산분석(모집단 2개 이상) 카이제곱 검정(모집단 1개) F-검정(모짐단 2개)
- 단일표본 t-검정(모집단 1개): 하나의 모집단에 대한 가설검정
- 독립표본 t-검정(모집단 2개): 두 집단이 독립일 때 두 집단간 평균차이 검정
- 대응표본 t-검정(모집단 전후): 동일 모집단에 변수를 노출시키기 전과 후의 평균값 비교검정