1. 표본 표출
가. 표본조사
- 개요
- 어떤 대상집단에 대한 조사방법은 그 집단의 구성원 모두를 조사하는 전수조사와 대상집단의 일부를 표본으로 하는 표본조사가 있다.
- 장점
- 전수조사에 비해 시간과 비용을 절약
- 전수조사가 불가능한 경우에 적용 가능
- 비표본 오차를 줄여 전수조사보다 정확한 자료를 획득할 수 있음
- 자료의 수집, 집계 및 분석과정을 신속하게 처리
- 단점
- 표본설계가 복잡한 경우 시간과 비용이 낭비될 수 있음
- 표본의 대표성 문제가 제기되면 일반화의 가능성이 낮아짐
- 모집단의 크기가 작을 경우에는 표집 자체가 무의미
- 용어
- 모집단: 조사하고자 하는 대상집단 전체
- 원소: 모집단을 구성하는 개체
- 표본: 조사하기 위해 뽑은 모집단의 일부 원소들
- 모수: 표본관측에 의해 구하고자 하는 정보
- 표집틀: 표본추출시 필요한 모집단의 구성요소와 표본추출 단계별로 표본추출단위가 수록된 목록
- 표본추출과정
- 모집단 결정
- 표집틀 선정
- 표본추출방법 결정
- 표본크기 결정
나. 표본추출 방법
- 표본조사의 중요한 점은 모집단을 대표할 수 있는 표본 추출이므로 표본추출 방법에 따라 분석결과의 해석은 큰차이가 발생
- 표본추출은 모집단에 속한 모든 원소들이 표본으로 뽑힐 가능성 여부에 따라 확률 표본추출과 비확률 표본추출로 구분
- 확률 표본추출은 표집틀에서 연구자의 인위적인 개입을 가급적 배제하면서 무작위 표본추출 방법을 적용해 동일 확률로 모집단의 모든 원소들을 표본으로 뽑을 수 있는 반면 비확률 표본추출은 그렇지 않음
기준 | 확률표본추출 | 비확률표본추출 |
연구대상의 표본으로 추출될 확률 | 동등함, 알려져 있을 때 | 동등하지 않음, 알려져 있지 않음 |
표본 추출 | 무작위적 표집 | 인위적 표집 |
표본의 통계치로 모수 추정 | 편의가 없음 | 편의가 있음 |
모수 추정 가능성 | 추정가능 | 추정 불가능 |
오차 측정 가능성 | 측정 가능 | 측정 불가능 |
시간과 비용 | 많이 소요됨 | 적게 소요됨 |
모집단의 규모와 성격 | 명확히 규정 | 불명확 또는 불가능 |
- 확률 표본추출법
- 표집틀을 이용해 모집단으로부터 동일한 확률로 표본의 원소들을 추출하는 방법
- 빅확률 표본추출에 비해 시간과 비용이 많이 든다
- 단순랜덤추출법, 계통추출법, 집락추출법, 층화추출법이 있음
- 단순랜덤 추출법: N개의 원소로 구성된 모집단에서 n의 표본을 추출하고자 할 때, n 개의 표본이 추출된 가능성을 동일하게 해주는 표본추출 방법
- 계통추출법: 단순랜덤추출법의 변형된 방식으로 표본추출의 과정이 단순하고 편리해 널리 사용되는 추출방법
- 집락추출법: 모집단이 몇 개의 집단이 결합된 형태로 구성되어 있고, 각 집단 내부에서는 원소들에게 일련번호를 부여할 수 있는 경우에 이용되는 표본추출 방법
- 층화추출법: 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법
층화추출 | 집락추출 | ||
공통점 | - 확률표본추출법 - 모집단을 몇 개의 하위 집단으로 나눔 |
||
차이점 | 표본추출단위 | 하위집단의 구성요소 | 하위집단 전체 혹은 일부 |
집단 내 | 동질적 | 이질적 | |
집단 간 | 이질적 | 동질적 |
- 비확률 표본추출법
- `비무작위표본추출`이라고도 하며, 모집단으로부터 원소들을 추출하는 과정에서 랜덤하게 추출하지 않는 방법을 포괄적으로 의미
- 작위적 표본추출로 모집단의 원소들을 대표할 수 있는 표본의 추출이 어렵고 추출된 표본의 객관성을 담보하기가 어려워 분석 결과의 일반화에는 제약
- 비용이 상대적으로 적게 들고 실행하기가 수비다는 장점이 있고, 표집틀을 구할 수 없는 상황에서는 이 방법을 사용할 수 밖에 없음
- 편의 표본추출, 유의 표본추출, 지원자 표본추출, 할당 표본추출, 눈덩이 표본추출이 있음
- 편의 표본추출: 정해진 크기의 표본을 선정할 때까지 조사자 임의대로 원소들을 표집하는 방법
- 유의 표본표출: `의도적 표본추출`, `목적적 표본추출`이라고 하며 연구자의 의도 또는 판단에 따라 전형적인대상을 표본으로 추출하는 방법
- 지원자 표본추출: 메일이나 광고지 등을 통해 연구를 광고한 뒤 참가 희망자를 대상으로 표본을 추출하는 방법
- 할당 표본추출: 인구통계학적 특성이나 거주지와 같은 모집단의 속성을 미리 파악할 수 있을 때 각 속성의 구성 비율을 고려해 표본을 추출하는 방식
- 눈덩이 표본추출: 소수 참여 대상자로부터 또 다른 여러 명의 참여 대상자를 계속적으로 소개받는 식으로 표본을 누적해가는 방법으로 네트워크 표본추출로도 불린다.
2. 데이터 자료의 숫자 요약
가. 숫자 요약
- 관측된 자료의 분포를 이해하기 위해 중심경향도, 산포도, 비대칭도 등의 세 가지 특성을 나타내는 기술통계 방법
- 변수: 일반적으로 x,y,z와 같은 영문자를 이용해 자료를 표현하는 방법
- 모수: 자료가 수집된 모집단의 특성을 나타내는 값
- 통계량: 표본으로부터 얻은 자료의 대푯값으로 통계량 중에서 모수를 추정하는 값을 추정량이라 한다.
- 자료의 중심 경향도는 평균, 중앙값, 최빈값을 이용
- 자료의 산포도는 분산, 범위, 표준오차, 변동계수를 이용
- 자료 분포의 비대칭도는 왜도, 첨도를 이용
나. 자료의 측정과 형태
- 통계분석에서 자료의 수집은 표본으로 추출된 원소들로부터 주어진 목적에 적합하도록 관측하는 것, 이때 자료를 얻는방법이 측정이다.
- 측정은 대상들을 일정한 기준에 의하여 명목척도, 순서척도, 구간척도, 비율척도로 구분하고, 측정방법에 따라 자료의 형태가 다르다.
자료 | 이산형자료 (질적 자료) |
명목척도 | 측정대상이 어느 집단에 속하는지 분류하는 경우 사용. ex)성별, 출생지, 직업 |
순서척도 | 측정대상이 특성의 서열관계를 관측하는 척도로 선택사항이 일정한 수서로 되어 있음. ex)선호도, 학력, 연령대 |
||
연속형자료 (양적 자료) |
구간척도 | 측정대상이 갖고 있는 속성의 양을 측정하며 결과가 숫자로 표현됨. ex)온도, 지수 |
|
비율척도 | 구간척도가 갖는 특성에 더해 절대적인 원점이 존재하며, 두 측정값의 비율이 의미가 있음 ex)무게, 나이, 시간, 거리 |
3. 확률분포
가. 확률
- 확률의 개념
- 확률은 어떤 실험을 할 때 나타나는 결과의 가능성을 측정하는 척도로 0과 1사이의 값을 가짐
- 표본공간은 실험을 반복 실시할 때 각 실험에 의해 나타날 수 있는 가능한 모든 결과의 집합
- 원소는 실험으로 나타날 수 있는 개개의 결과
- 사건은 표본공간의 원소들 중에서 일부분으로 이루어진 표본공간의 부분집합
- 확률 계산
- 덧셈법칙
- 곱셈법칙
- 조건부 확률과 독립성
- 베이즈 정리
- 복원추출과 비복원추출
- 순열
- 조합
나. 확률변수
- 확률변수의 개념
- 확률변수란 정의역이 표본공간이고 치역이 실수값인 함수
- 이산형 확률변수
- 이산점에서 0이 아닌 확률값을 가지는 확률변수
- 각 이산점에 있어서 확률의 크기를 표현하는 함수를 확률질량함수라 한다.
- 연속형 확률변수
- 특정 실수 구간에서 0이 아닌 확률을 갖는 확률변수
- 연속형 확률변수 x의 확률함수를f(x)라고 할 때, f(x)는 확률밀도함수라고 부른다.
- 누적 분포 함수
- 확률변수의 기댓값(평균)과 분산
- 기댓값: 확률분포에서 분포의 무게중심을 말하며, 확률값을 가중치로 하는 확률변수의 가능한 값에 대한 가중평균, 두 확률변수의 합의 기댓값은 각 합률변수의 기댓값의 합과 같음
- 분산: 확률분포의 산포도를 측정하는 것, 평균이 같은 경우에도 분산의 크기에 따라서 분포의 모양이 달라진다
다. 확률분포
- 이산형 확률분포
- 베르누이 확률분포: 실험의 결과가 성공과 실패의 두 가지 상호 배반적 사건으로 나누어지는 분포
- 이항분포: 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
- 기하분포: 성공확률이 p인 베르누이 시행에서 처음 성공이 일어날때 까지 반복한 시행횟수를 X라고 할때, X는 성공확률이 P인 기하분포를 따른다고 하고, 기호로 X~Geo(p)와 같이 나타낸다.
- 음이항분포: 기하분포를 확장한 것으로, 성공확률이 p인 베르누이 시행에서 r번 성공할 때까지 반복한 시행횟수 또는 실패횟수에 대한 확률
- 포아송분포: 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포
- 초기하분포: N개의 유한모집단에서 표본을 비복원추출할 때, k번 성공할 확률
- 다항분포: 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률분포
- 연속형 확률분포
- 균일분포: 확률변수가 정의되는 구간에서 확률밀도함수의 값이 모두 동일한 확률분포로 정의되는 분포
- 정규분포: 평균이 u이고 표준편차가 a인 x의 확률밀도함수로 좌우대칭의 종 모양으로 생긴 분포이며, 가우스 분포로도 불림
- 감마분포: 지수분포를 일반화한 분포로 두 개이상의 지수분포가 합쳐져 어떤 사건이 k번 발생할 때까지 경과시간에 대한 분포이다.
- t-분포: 신뢰구간과 가설검정에 사용되는 분포
- x제곱 분포: 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포, 두 집단 간의 동질성 검정에 활용
- f-분포: 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포
4. 표본분포
가. 확률표본
- 확률변수 X가 특정 확률분포를 따른다고 할 때, 이 확률분포로 부터 각각 독립적으로 관측된 N개의 표본을 확률표본이라 한다.
- 확률표본의 각 원소는 확률변수이므로, 이 확률변수들의 함수를 정의된 통계량도 또한 확률변수이다.
나. 표본분표
- 한 모집단에서 같은 크기로 뽑을 수 있는 모든 표본에서 통계량을 계산할 때 이 통계량이 이루는 확률분포를 표본분포라 한다
5. 추론통계
- 추론통계는 표본에서 얻은 통계량을 기초로해서 모집단의 특성을 추측하는 것
- 모집단의 특성 즉, 모수가 무엇일까를 추측하는 추정과 모수에 대한 가설을 설정한 후에 그 가설이 옳은지 그른지를 판단하여 가설의 채택여부를 결정하는 가설 검정등이 있다
가. 점추정
- 확률표본의 정보를 이용하여 모수에 대한 특정값을 지정하는 것, '모수가 특정한 값일 것이다'라고 선언하는 것
나. 구간추정
- '모수가 특정한 값일 것이다'라고 선언하는 점추정은 사실상 추정이 얼마나 정확한가를 판단하기가 불가능. 이러한 점추정의 정확성을 보완하는 방법이 구간추정이다.
- '확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것'이라고 선언하는 것
6. 최대 우도 추정법
- 개념
- 최대 우도 추정법은 모수가 미지의 세타인 확률분포에서 뽑은 표본 x들을 바탕으로 세타를 추정하는 기법
- 욷롼 이미 주어진 표본x들에 비추어 봤을 때 모집단의 모수 세타에 대한 추정이 그럴듯한 정도
7. 가설검정
- 개념
- 모집단의 모수에 대해 추정을 한 후에는 모집단에 대해 어떤 가설을 설정한 후 그 가설의 타당성 여부를 검정하는 것
- 기본개념
- 가설설정: 일반적으로 통계분석에서는 모집단의 모수에 대하여 관이 있으므로 가설은 모수에 대하여 설정
- 귀무가설: '비교하는 값과 차이가 없다. 동일하다'를 기본개념으로 하는 가설
- 대립가설: '뚜렷한 증거가 있을 때 주장하는 가설'이란 의미에서 연구가설이라고도 한다.
- 가설설정: 일반적으로 통계분석에서는 모집단의 모수에 대하여 관이 있으므로 가설은 모수에 대하여 설정
8. 일원배치 분산분석
가. 분산분석의 개념
- 분산분석은 두 개 이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 통계분석 방법
- 즉, 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검증하는 방법
나. 일원배치 분산분석의 개념
- 분산분석에서 반응값에 대한 하나의 범주형 변수의 영향을 알아보기 위해 사용되는 증 방법
- 모집단의 수에는 제한이 없으며, 각 표본의 수는 같지 않아도 된다
- F-검정 통계량 이용
다. 일원배치 분산분석의 가정
- 각 집단의 측정치는 서로 독립적이며, 정규분포를 따른다.
- 각 집단 측정치의 분산은 같다
라. 가설 검정
- 귀무가설: k개의 집단 간 모평균에는 차이가 없다.
- 대립가설: k개의 집단 간 모평균이 모두 같다고 할 수 없다.
바. 사후 검정
- 사후검정이란 분산분석의 결과 귀무가설이 기각되어 적어도 한 집단에서 평균의 차이가 있음이 통계적으로 증명되었을 경우, 어떤 집단들에 대해서 평균의 차이가 존재하는지를 알아보기 위해 실시하는 분석이다
9. 이원배치 분산분석
가. 이원배치 분산분석의 개념
- 분산분석에서 반응값에 대해 두 개의 범주형 변수 A,B의 영향을 알아보기 위해 사용되는 검증방법
나. 이원배치 분산분석의 가정
- 각 집단 측정치의 분포는 정규분포이어야 한다(정규성)
- 집단 간 측정치의 분산은 같다(등분산성)
다. 주효과와 교호작용효과
- 이원배치 분산분석에서는 두 개의 독립변수값에 따르는 데이터의 주효과와 교호작용효과에 대한 검정을 수행
- 주효과란 각각의 독립변수가 종속변수에 미치는 효과를 의미. 이를 검정하는 것을 주효과 검정이라 함
- 교호작용효과는 여러 독립변수들의 조합이 종속변수에 주는 영향을 의미. 즉 교호작용효과 검정은 한 독립변수가 종속변수에 미치는 영향이 다른 독립변수의 수준에 따라 달라지ㅡㄴㄴ지를 분석하는 것
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 3-2 통계 분석기법 (0) | 2024.08.16 |
---|---|
[빅데이터분석기사 필기] 3-1 분석 모형 설계 (0) | 2024.08.15 |
[빅데이터분석기사 필기] 2-2 데이터 탐색 (0) | 2024.08.11 |
[빅데이터분석기사 필기] 2-1 데이터 전처리 (0) | 2024.08.10 |
[빅데이터분석기사 필기] 1-3 데이터 수집 및 저장 계획 (0) | 2024.08.07 |