본문 바로가기
빅데이터분석기사

[빅데이터분석기사 필기] 2-3 통계기법의 이해

by 아마도개발자 2024. 8. 11.

 

1. 표본 표출

가. 표본조사

  • 개요
    • 어떤 대상집단에 대한 조사방법은 그 집단의 구성원 모두를 조사하는 전수조사와 대상집단의 일부를 표본으로 하는 표본조사가 있다.
    • 장점
      • 전수조사에 비해 시간과 비용을 절약
      • 전수조사가 불가능한 경우에 적용 가능
      • 비표본 오차를 줄여 전수조사보다 정확한 자료를 획득할 수 있음
      • 자료의 수집, 집계 및 분석과정을 신속하게 처리
    • 단점
      • 표본설계가 복잡한 경우 시간과 비용이 낭비될 수 있음
      • 표본의 대표성 문제가 제기되면 일반화의 가능성이 낮아짐
      • 모집단의 크기가 작을 경우에는 표집 자체가 무의미
  • 용어
    • 모집단: 조사하고자 하는 대상집단 전체
    • 원소: 모집단을 구성하는 개체
    • 표본: 조사하기 위해 뽑은 모집단의 일부 원소들
    • 모수: 표본관측에 의해 구하고자 하는 정보
    • 표집틀: 표본추출시 필요한 모집단의 구성요소와 표본추출 단계별로 표본추출단위가 수록된 목록
  • 표본추출과정
    1. 모집단 결정
    2. 표집틀 선정
    3. 표본추출방법 결정
    4. 표본크기 결정

나. 표본추출 방법

  • 표본조사의 중요한 점은 모집단을 대표할 수 있는 표본 추출이므로 표본추출 방법에 따라 분석결과의 해석은 큰차이가 발생
  • 표본추출은 모집단에 속한 모든 원소들이 표본으로 뽑힐 가능성 여부에 따라 확률 표본추출과 비확률 표본추출로 구분
  • 확률 표본추출은 표집틀에서 연구자의 인위적인 개입을 가급적 배제하면서 무작위 표본추출 방법을 적용해 동일 확률로 모집단의 모든 원소들을 표본으로 뽑을 수 있는 반면 비확률 표본추출은 그렇지 않음
기준 확률표본추출 비확률표본추출
연구대상의 표본으로 추출될 확률 동등함, 알려져 있을 때 동등하지 않음, 알려져 있지 않음
표본 추출 무작위적 표집 인위적 표집
표본의 통계치로 모수 추정 편의가 없음 편의가 있음
모수 추정 가능성 추정가능 추정 불가능
오차 측정 가능성 측정 가능 측정 불가능
시간과 비용 많이 소요됨 적게 소요됨
모집단의 규모와 성격 명확히 규정 불명확 또는 불가능

 

 

  • 확률 표본추출법
    • 표집틀을 이용해 모집단으로부터 동일한 확률로 표본의 원소들을 추출하는 방법
    • 빅확률 표본추출에 비해 시간과 비용이 많이 든다
    • 단순랜덤추출법, 계통추출법, 집락추출법, 층화추출법이 있음
      • 단순랜덤 추출법: N개의 원소로 구성된 모집단에서 n의 표본을 추출하고자 할 때, n 개의 표본이 추출된 가능성을 동일하게 해주는 표본추출 방법
      • 계통추출법: 단순랜덤추출법의 변형된 방식으로 표본추출의 과정이 단순하고 편리해 널리 사용되는 추출방법
      • 집락추출법: 모집단이 몇 개의 집단이 결합된 형태로 구성되어 있고, 각 집단 내부에서는 원소들에게 일련번호를 부여할 수 있는 경우에 이용되는 표본추출 방법
      • 층화추출법: 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법
  층화추출 집락추출
공통점 - 확률표본추출법
- 모집단을 몇 개의 하위 집단으로 나눔
차이점 표본추출단위 하위집단의 구성요소 하위집단 전체 혹은 일부
집단 내 동질적 이질적
집단 간 이질적 동질적

 

  • 비확률 표본추출법
    • `비무작위표본추출`이라고도 하며, 모집단으로부터 원소들을 추출하는 과정에서 랜덤하게 추출하지 않는 방법을 포괄적으로 의미
    • 작위적 표본추출로 모집단의 원소들을 대표할 수 있는 표본의 추출이 어렵고 추출된 표본의 객관성을 담보하기가 어려워 분석 결과의 일반화에는 제약
    • 비용이 상대적으로 적게 들고 실행하기가 수비다는 장점이 있고, 표집틀을 구할 수 없는 상황에서는 이 방법을 사용할 수 밖에 없음
    • 편의 표본추출, 유의 표본추출, 지원자 표본추출, 할당 표본추출, 눈덩이 표본추출이 있음
      • 편의 표본추출: 정해진 크기의 표본을 선정할 때까지 조사자 임의대로 원소들을 표집하는 방법
      • 유의 표본표출: `의도적 표본추출`, `목적적 표본추출`이라고 하며 연구자의 의도 또는 판단에 따라 전형적인대상을 표본으로 추출하는 방법
      • 지원자 표본추출: 메일이나 광고지 등을 통해 연구를 광고한 뒤 참가 희망자를 대상으로 표본을 추출하는 방법
      • 할당 표본추출: 인구통계학적 특성이나 거주지와 같은 모집단의 속성을 미리 파악할 수 있을 때 각 속성의 구성 비율을 고려해 표본을 추출하는 방식
      • 눈덩이 표본추출: 소수 참여 대상자로부터 또 다른 여러 명의 참여 대상자를 계속적으로 소개받는 식으로 표본을 누적해가는 방법으로 네트워크 표본추출로도 불린다.

2. 데이터 자료의 숫자 요약

가. 숫자 요약

  • 관측된 자료의 분포를 이해하기 위해 중심경향도, 산포도, 비대칭도 등의 세 가지 특성을 나타내는 기술통계 방법
  • 변수: 일반적으로 x,y,z와 같은 영문자를 이용해 자료를 표현하는 방법
  • 모수: 자료가 수집된 모집단의 특성을 나타내는 값
  • 통계량: 표본으로부터 얻은 자료의 대푯값으로 통계량 중에서 모수를 추정하는 값을 추정량이라 한다.
  • 자료의 중심 경향도는 평균, 중앙값, 최빈값을 이용
  • 자료의 산포도는 분산, 범위, 표준오차, 변동계수를 이용
  • 자료 분포의 비대칭도는 왜도, 첨도를 이용

나. 자료의 측정과 형태

  • 통계분석에서 자료의 수집은 표본으로 추출된 원소들로부터 주어진 목적에 적합하도록 관측하는 것, 이때 자료를 얻는방법이 측정이다.
  • 측정은 대상들을 일정한 기준에 의하여 명목척도, 순서척도, 구간척도, 비율척도로 구분하고, 측정방법에 따라 자료의 형태가 다르다.
자료 이산형자료
(질적 자료)
명목척도 측정대상이 어느 집단에 속하는지 분류하는 경우 사용.
ex)성별, 출생지, 직업
순서척도 측정대상이 특성의 서열관계를 관측하는 척도로 선택사항이 일정한 수서로 되어 있음.
ex)선호도, 학력, 연령대
연속형자료
(양적 자료)
구간척도 측정대상이 갖고 있는 속성의 양을 측정하며 결과가 숫자로 표현됨.
ex)온도, 지수
비율척도 구간척도가 갖는 특성에 더해 절대적인 원점이 존재하며, 두 측정값의 비율이 의미가 있음
ex)무게, 나이, 시간, 거리

 

3. 확률분포

가. 확률

  • 확률의 개념
    • 확률은 어떤 실험을 할 때 나타나는 결과의 가능성을 측정하는 척도로 0과 1사이의 값을 가짐
    • 표본공간은 실험을 반복 실시할 때 각 실험에 의해 나타날 수 있는 가능한 모든 결과의 집합
    • 원소는 실험으로 나타날 수 있는 개개의 결과
    • 사건은 표본공간의 원소들 중에서 일부분으로 이루어진 표본공간의 부분집합
  • 확률 계산
    • 덧셈법칙
    • 곱셈법칙
    • 조건부 확률과 독립성
    • 베이즈 정리
    • 복원추출과 비복원추출
    • 순열
    • 조합

나. 확률변수

  • 확률변수의 개념
    • 확률변수란 정의역이 표본공간이고 치역이 실수값인 함수
  • 이산형 확률변수
    • 이산점에서 0이 아닌 확률값을 가지는 확률변수
    • 각 이산점에 있어서 확률의 크기를 표현하는 함수를 확률질량함수라 한다.
  • 연속형 확률변수
    • 특정 실수 구간에서 0이 아닌 확률을 갖는 확률변수
    • 연속형 확률변수 x의 확률함수를f(x)라고 할 때, f(x)는 확률밀도함수라고 부른다.
  • 누적 분포 함수
  • 확률변수의 기댓값(평균)과 분산
    • 기댓값: 확률분포에서 분포의 무게중심을 말하며, 확률값을 가중치로 하는 확률변수의 가능한 값에 대한 가중평균, 두 확률변수의 합의 기댓값은 각 합률변수의 기댓값의 합과 같음
    • 분산: 확률분포의 산포도를 측정하는 것, 평균이 같은 경우에도 분산의 크기에 따라서 분포의 모양이 달라진다

다. 확률분포

  • 이산형 확률분포
    • 베르누이 확률분포: 실험의 결과가 성공과 실패의 두 가지 상호 배반적 사건으로 나누어지는 분포
    • 이항분포: 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
    • 기하분포: 성공확률이 p인 베르누이 시행에서 처음 성공이 일어날때 까지 반복한 시행횟수를 X라고 할때, X는 성공확률이 P인 기하분포를 따른다고 하고, 기호로 X~Geo(p)와 같이 나타낸다.
    • 음이항분포: 기하분포를 확장한 것으로, 성공확률이 p인 베르누이 시행에서 r번 성공할 때까지 반복한 시행횟수 또는 실패횟수에 대한 확률
    • 포아송분포: 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포
    • 초기하분포: N개의 유한모집단에서 표본을 비복원추출할 때, k번 성공할 확률
    • 다항분포: 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률분포
  • 연속형 확률분포
    • 균일분포: 확률변수가 정의되는 구간에서 확률밀도함수의 값이 모두 동일한 확률분포로 정의되는 분포
    • 정규분포: 평균이 u이고 표준편차가 a인 x의 확률밀도함수로 좌우대칭의 종 모양으로 생긴 분포이며, 가우스 분포로도 불림
    • 감마분포: 지수분포를 일반화한 분포로 두 개이상의 지수분포가 합쳐져 어떤 사건이 k번 발생할 때까지 경과시간에 대한 분포이다.
    • t-분포: 신뢰구간과 가설검정에 사용되는 분포
    • x제곱 분포: 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포, 두 집단 간의 동질성 검정에 활용
    • f-분포: 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포

4. 표본분포

가. 확률표본

  • 확률변수 X가 특정 확률분포를 따른다고 할 때, 이 확률분포로 부터 각각 독립적으로 관측된 N개의 표본을 확률표본이라 한다.
  • 확률표본의 각 원소는 확률변수이므로, 이 확률변수들의 함수를 정의된 통계량도 또한 확률변수이다.

나. 표본분표

  • 한 모집단에서 같은 크기로 뽑을 수 있는 모든 표본에서 통계량을 계산할 때 이 통계량이 이루는 확률분포를 표본분포라 한다

5. 추론통계

  • 추론통계는 표본에서 얻은 통계량을 기초로해서 모집단의 특성을 추측하는 것
  • 모집단의 특성 즉, 모수가 무엇일까를 추측하는 추정과 모수에 대한 가설을 설정한 후에 그 가설이 옳은지 그른지를 판단하여 가설의 채택여부를 결정하는 가설 검정등이 있다

가. 점추정

  • 확률표본의 정보를 이용하여 모수에 대한 특정값을 지정하는 것, '모수가 특정한 값일 것이다'라고 선언하는 것

나. 구간추정

  • '모수가 특정한 값일 것이다'라고 선언하는 점추정은 사실상 추정이 얼마나 정확한가를 판단하기가 불가능. 이러한 점추정의 정확성을 보완하는 방법이 구간추정이다.
  • '확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것'이라고 선언하는 것

 

6. 최대 우도 추정법

  • 개념
    • 최대 우도 추정법은 모수가 미지의 세타인 확률분포에서 뽑은 표본 x들을 바탕으로 세타를 추정하는 기법
    • 욷롼 이미 주어진 표본x들에 비추어 봤을 때 모집단의 모수 세타에 대한 추정이 그럴듯한 정도

7. 가설검정

  • 개념
    • 모집단의 모수에 대해 추정을 한 후에는 모집단에 대해 어떤 가설을 설정한 후 그 가설의 타당성 여부를 검정하는 것
  • 기본개념
    • 가설설정: 일반적으로 통계분석에서는 모집단의 모수에 대하여 관이 있으므로 가설은 모수에 대하여 설정
      • 귀무가설: '비교하는 값과 차이가 없다. 동일하다'를 기본개념으로 하는 가설
      • 대립가설: '뚜렷한 증거가 있을 때 주장하는 가설'이란 의미에서 연구가설이라고도 한다.

 

8. 일원배치 분산분석

가. 분산분석의 개념

  • 분산분석은 두 개 이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 통계분석 방법
  • 즉, 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검증하는 방법

나. 일원배치 분산분석의 개념

  • 분산분석에서 반응값에 대한 하나의 범주형 변수의 영향을 알아보기 위해 사용되는 증 방법
  • 모집단의 수에는 제한이 없으며, 각 표본의 수는 같지 않아도 된다
  • F-검정 통계량 이용

다. 일원배치 분산분석의 가정

  • 각 집단의 측정치는 서로 독립적이며, 정규분포를 따른다.
  • 각 집단 측정치의 분산은 같다

라. 가설 검정

  • 귀무가설: k개의 집단 간 모평균에는 차이가 없다.
  • 대립가설: k개의 집단 간 모평균이 모두 같다고 할 수 없다.

바. 사후 검정

  • 사후검정이란 분산분석의 결과 귀무가설이 기각되어 적어도 한 집단에서 평균의 차이가 있음이 통계적으로 증명되었을 경우, 어떤 집단들에 대해서 평균의 차이가 존재하는지를 알아보기 위해 실시하는 분석이다

9. 이원배치 분산분석

가. 이원배치 분산분석의 개념

  • 분산분석에서 반응값에 대해 두 개의 범주형 변수 A,B의 영향을 알아보기 위해 사용되는 검증방법

나. 이원배치 분산분석의 가정

  • 각 집단 측정치의 분포는 정규분포이어야 한다(정규성)
  • 집단 간 측정치의 분산은 같다(등분산성)

다. 주효과와 교호작용효과

  • 이원배치 분산분석에서는 두 개의 독립변수값에 따르는 데이터의 주효과와 교호작용효과에 대한 검정을 수행
  • 주효과란 각각의 독립변수가 종속변수에 미치는 효과를 의미. 이를 검정하는 것을 주효과 검정이라 함
  • 교호작용효과는 여러 독립변수들의 조합이 종속변수에 주는 영향을 의미. 즉 교호작용효과 검정은 한 독립변수가 종속변수에 미치는 영향이 다른 독립변수의 수준에 따라 달라지ㅡㄴㄴ지를 분석하는 것