본문 바로가기
빅데이터분석기사

[빅데이터분석기사 필기] 3-2 통계 분석기법

by 아마도개발자 2024. 8. 16.

 

 

1. 회귀분석의 개념

  • 하나 혹은 그 이상의 원인(독립변수)이 결과(종속변수)에 미치는 영향을 추정하여 식으로 표현할 수 있는 통계기법
  • 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심 있는 변수를 예측하거나 추론하기 위해 사용
  • 독립변수의 개수가 하나이면 단순선형회귀분석, 독립변수의 개수가 두 개 이상이면 다중선형회귀 분석 사용

가. 회귀분석에 적합한 데이터 형태

  • 회귀분석의 입력 데이터에서 종속변수와 입력변수는 계량형 자료이어야 한다. 하지만 독립변수의 경우, 명목척도로 측정된 범주형 자료가 사용될 수 있음. 이 때는 독립변수를 가변수로변환

나. 회귀분석의 변수

  • 영향을 주는 변수: 설명변수, 독립변수, 예측변수
  • 영향을 받는 변수: 반응변수, 종속변수, 결과변수

다. 선형회귀분석의 가정 

  • 독립변수와 종속변수 간의 선형성: 입력변수와 출력변수의 관계가 선형이어야 한다는 가정
  • 오차의 등분산성: 오차란 종속변수의 예측값과 실제 관측값 간의 차이를 의미. 오차의 등분산성이란 오차의 분산은 독립변수 값과 무관하게 일정해야 한다는 가정
  • 오차의 정규성: 오차의 분포가 정규분포를 만족해야 함을 의미
  • 오차의 독립성: 오차들은 서로 독립적이라는 가정. 즉 예측값의 변화에 따라 오차항이 특정한 패턴을 가져서는 안됨

라. 회귀분석의 종류에 따른 가정에 대한 검증

  • 단순선형 회귀분석: 입력변수와 출력변수 간의 선형성을 점검하기 위해 산점도 확인
  • 다중선형 회귀분석: 데이터가 선형회귀분석의 가정인 선형성, 등분산성, 정규성, 독립성을 모두 만족하는지 확인

2. 단순선형회귀

  • 하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법
  • 최소제곱법, 최소자승법으로 회귀계수 추정
  • F-검정, t-검정, 결정계수 확인

3. 다중선형회귀

  • 두 개 이상의 독립변수가 종속변수에 미치는 영향을 추정하는 통계기법
  • 데이터가 전제하는 가정을 만족하는지, 다중공산성 검토
  • F-검정, t-검정, 결정계수 확인

4. 정규화 선형회귀

  • 정규화 선형회귀는 선형 회귀 계수에 대한 제약 조건을 추가하여 모델이 과도하게 최적화되는 현상을 막는 방법

가. 릿지 회귀

  • 릿지 회귀모형은 가중치들이 젝보합을 최소화하는 것을 제약조건으로 추가하는 기법
  • 가중치의 모든 원소가 0에 가까워지는 것을 원하며, 이를 위해 회귀 모델에 사용하는 규제 방식을 L2규제 라고 한다.

나. 라쏘 회귀

  • 라쏘 회귀모형은 가중치 절대값의 합을 최소화하는 것을 제약조건으로 추가하는 기법.
  • 릿지 회귀는 가중치가 0에 가까워질 뿐 실제로 0이 되지는 않지만, 라쏘 회귀에서는 중요하지 않은 가중치는 0이 될 수 있다.
  • L1규제 사용

다. 엘라스틱넷

  • 릿지 회귀와 라쏘 회귀를 결합한 모델

5. 일반화 선형회귀(GLM)

  • 회귀분석은 연속형의 종속변수가 정규분포를 따른다는 정규성을 가정하지만 종속변수가 범주형 자료이거나 정규성을 만족하지 못한는 경우도 있음. 이러한 경우에 종속변수를 적절한 함수로 변화시켜 f(x)를 정의 후, 이 f(x)와 독립변수를 선형 결합으로 모형화하는 일반화 선형모형을 이용
  • 일반화 선형회귀는 선형회귀와 마찬가지로 독립변수가 종속변수에 미치는 영향의 정도를 회귀계수를 통해 설명하며, 독립변수들 간의 영향을 보정한 다변량 분석이 가능
  • 일반화 선형 모형을 정의하는 성분
랜덤성분 종속변수 y의 확률분포를 규정하는 성분
체계적 성분 y의 기댓값인 E(y)를 정의하는 설명변수들 간의 선형 결합(선형식)
연결함수 랜덤성분과 체계적 성분을 연결하는 함수

 

6. 회귀분석의 영향력 진단

  • 영향력 진단이란 적합된 회귀모형의 안전성을 평가하는 통계적인 방법
  • 선형회귀분석에서 회귀직선의 기울기에 영향을 크게 주는 점을 영향점이라고 한다.
  • 영향력 진단의 방법에는 Cook's Distance, DFBETAS, DFFITS, Leverage H등이 있다.
영향력 진단 방법 설명
Leverage H 레버리지는 Hat Matrix의 i 번째 대각원소로 관측치가 다른 관측치 집단으로부터 떨어진 정도를 의미, 2x(p+1)/n보다 크면 영향치이거나 이상치
Cook's Distance 쿡의 거리는 Full model에서 i번째 관측치를 포함하여 계산한 적합치와 i번째 관측치를 포함하지 않고 계산한 적합치 사이의 거리. 쿡의 거리가 기준값인 1보다 클 경우에 영향치로 간주
DFBEATS DFBETAS의 절대값이 커지면 i번째 관측치가 영향치 혹은 잉상치일 가능성이 높다. 기준값은 2나 2/n^(1/2)를 사용하며, DFBETAS값이 기준값보다 클 경우 영향치로 간주
DFFITS i번째 관측치 제외시 종속변수 예측치의 변화정도를 측정한 값. DFFITS의 절대값이 기준값인 2x(p+1)/n보다 클수록 영향치일 가능성이 높음

 

 

7. 범주형 자료 분석

가. 개요

  • 범주형 자료 분석은 분석에 사용되는 변수들이 범주형일 때 사용하는 분석 방법론
  • 설명변수와 반응변수에 따른 범주형 자료 분석 방법론
설명변수 반응변수 통계분석방법
범주형 자료 범주형 자료 - 분할표 분석
- 카이제곱 검정
연속형 자료 - T-검정
- 분산분석
연속형 자료 범주형 자료 - 로지스틱 회귀분석

 

 

8. 분할표 분석

가. 개요

  • 여러 개의 범주형 변수를 기준으로 빈도를 표 형태로 나타낸 것을 분할표라 한다.
  • 예시 ( 학년, 성적 등급 2개의 범주형 변수별 빈도를 분할표로 나타낸 것)
  A등급 B등급 C등급
1학년 3 10 7
2학년 4 11 5
3학년 5 10 5
4학년 7 11 2

 

나. 상대위험도

  • 상대위험도란 관심 집단의 위험률/비교 집단의 위험률을 의미, 여기서 위험률이란 특정 사건이 발생한 비율을 의미

다. 오즈비

  • 오즈란 성공확률/실패확률로 성공할 확률이 실패할 확률의 몇 배인지를 나타냄
  • 오즈비란 오즈의 각 범주별 비율로 정의
  • 예시
구분 16강 성공 확률 16강 실패 확률
Brazil 0.8 0.2
Korea 0.1 0.9

 

9. 교차 분석

가. 카이제곱 검정

  • 범주형 자료(명목/서열 수준)인 두 변수 간의 관계를 알아보기 위해 실시하는 분석 기법
  • 적합성 검정, 독립성 검정, 동질성 검정에 사용, 카이제곱 검정 통계량 이용

 

10. 적합성 검정

  • 실험에서 얻어진 관측값들이 예쌍한 이론과 일치하는지 아닌지를 검정하는 방법
  • 관측값들이 어떠한 이론적 분포를 따르고 있는지 확인 가능
  • 즉, 모집단 분포에 대한 가정이 옳게 됐는지를 관측 자료와 비교하여 검정하는 것
  • 가설 설정
    • n개의 표본 자료를 k개의 범주로 분류한 뒤, 각 범주의 관측도수와 주어진 확률 분포에 대해 각 범주에 속하는 기대도수들이 적합하는지의 여부를 검정하는 것 
    • 귀무가설: 실제 분포와 이론적 분포 간에는 차이가 없다(두 분포가 일치)
    • 대립가설: 실제 분포와 이론적 분포 간에는 차기아 있다(두 분포가 일치하지 않음)

11. 독립성 검정

가. 독립성 검정이란

  • 모집단이 두 개의 변수 A, B에 의해 범주화되었을 때, 이 두 변수들 사이의 관계가 독립적인지 아닌지를 검정하는 것을 의미
  • 검정 통계량 값을 계산할 때는 교차표를 활용

나. 가설 설정

  • 모집단을 범주화하는 기준이 되는 두 변수 A, B가 서로 독립적으로 관측값에 영향을 미치는지의 여부를 검정하는 것
  • 귀무가설: 두 변수 사이에는 연관이 없다(독립)
  • 대립가설: 두 변수 사이에는 연관이 있다(종속)

12. 동질성 검정

가. 동질성 검정이란

  • 모집단이 임의의 변수에 따라 R개의 속성으로 범주화되었을 때, R개의 부분 모집단에서 추출한 각 표본인 C개의 범주화된 집단의 분포가 서로 동일한지를 검정하는 것
  • 검정 통계량 값을 계산할 때는 교차표를 활용, 계산법과 검증법은 모두 독립성 검정과 같은 방법으로 진행

나. 가설 설정

  • 귀무가설: 모든 P는 동일
  • 대립가설: P중 다른 값이 하나 이상 존재

13. 다차원 척도법

  • 객체 간 근접성을 시각화하는 통계기법
  • 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후에 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 공간상에 점으로 표현하는 분석방법
  • 다차원 척도법의 목적
    • 데이터 속에 잠재해 있는 패턴, 구조를 찾아내고, 그 구조를 소수 차원의 공간에 기하학적으로 표현
    • 데이터 축소의 목적으로 다차원 척도법을 이용. 즉, 데이터에 포함되어 있는 정보를 발견하기 위한 탐색수단으로서 사용
  • 다차원 척도법 분석 방법
    • 개체들의 거리계산에는 유클리드 거리행렬 활용
    • 관측대상의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값으로 나타냄
  • 다차원 척도법의 종류
    • 계량적 MDS, 비계량적 MDS

 

14. 주성분분석

가. 주성분분석의 개념

  • 주성분분석이란 데이터에 여러 변수들이 있을 때 서로 상관성이 높은 변수들의 선형결합으로 이루어진 '주성분'이라는 새로운 변수를 만들어 변수들을 요약하고 축소하는 기법
  • 첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만듦.
  • 각 주성분은 서로 독립적인 것을 원칙으로 함

나. 주성분분석의 목적

  • 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하고 관리하기 쉽게 해줌
  • 다중공선성이 존재하는 경우, 상관성이 없는 주성분으로 변수들을 축소하여 모형 개발에 활용
  • 주성분분석을 통해 변수 차원을 축소한 후 군집분석을 수행하면 군집화 결과와 연산속도를 개선 가능

다. 주성분의 선택

  • 기여율
    • 주성분은 여러 변수들의 선형결합이므로, 각 변수에 내재되어 있는 중요한 정보의 손실이 있을 수도있다. 따라서 '주성분 기여율'을 사용하여 주성분이 데이터를 얼마나 잘 설명할 수 있는지 평가
    • 주성분 기여율은 원 변수의 총 변동분의 주성분 변수의 분산으로, 총 변동에 대해 주성분의 설명력을 의미
    • 기여율이 1에 가까울 수록 적절, 0에 가까울수록 데이터에 대한 설명력이 떨어진다고 판단
    • 첫 번째 주성분부터 차례대로 기여율을 합한 누가 기여율이 85%이상이 되면 해당 지점까지를 주성분의 수로 결정

15. 요인분석

가. 요인분석의 개념

  • 요인분석이란 여러 개의 변수들로 이루어진 데이터에서 변수들 간의 상관관계를 고려하여 서로 유사한 변수들을 묶어 새로운 잠재요인들을 추출해내는 분석방법, 변수를 축소하고 데이터를 요약하는데 사용

나. 주성분분석 VS 요인분석

  주성분분석 요인분석
공통점 - 원 데이터를 활용하여 몇 개의 새로운 변수를 생성
- 변수축소 및 데이터 요약에 사용됨
생성되는 변수의 수 통상적으로 2개(제1주성분, 제2주성분) 지정된 개수 없음
생성되는 변수의 이름 제1주성분, 제2주성분과 같이 표현됨 분석가가 변수의 이름을 지정
생성되는 변수들의 관계 제1주성분이 가장 중요, 그 다음으로 제2주성분이 중요하게 취급 대등한 관계
분석방법의 의미 목표변수를 잘 예측/분류하기 위해 기존 변수들의선형결합으로 이루어진 몇 개의 주성분을 탐색함  목표변수를 고려하지 않고 주어진 변수들을 비슷한 성격으로 묶어 새로운 변수 생성

 

다. 요인분석의 용어

  • 요인: 상관계수가 높은 변수들을 묶어 새롭게 생성한 변수집단
  • 요인 적재값: 변수와 해당 요인간의 상관계수
  • 요인행렬: 요인들에 대한 모든 변수의 요인 적재값을 모은행렬
  • 고유값: 각 요인에 대한 모든 변수드르의 요인 적재값 제곱의 합
  • 공통성: 여러 요인이 설명할 수 있는 한 변수의 분산의 양을 백분율로 나타낸 것

라. 요인추출 방법

  • 주성분분석: 변수들로부터 요인을 추출하는 방식, 가장 많이 사용되는 방식
  • 공통요인분석: 잠재요인으로부터 변수들이 산출된 것으로 보는 방식으로, 공통분산만을 토대로 요인을 추출

마. 요인의 수 결정

  • 고유값을 기준으로 할 때는, 고유값이 1이상에 해당하는 요인들을 추출
  • 요인분석의 절차
    • 데이터 입력 => 상관관계 산출 => 요인추출 => 요인 적재량 산출 => 요인회전 => 생성된 요인 해석 => 요인점수 산출

16. 판별분석

가. 판별분석의 개념

  • 판별분석은 분류기법 중 하나로 집단에 대한 정보로부터 집단을 구별할 수 있는 판별함수 혹은 판별규칙을 만들고, 새로운 개체가 어느 집단에 속하는지를 판별하여 분류하는 다변량 기법
  • 간격척도 혹은 비율척도로 측정된 독립변수를 이용해 종속변수는 명목척도 혹은 서열척도로 측정된 종속변수를 분류하는데 사용

나. 판별분석의 가정

  • 독립변수는 다변량 정규분포를 이룬다. 다중 정규성 가정을 충족하지 않는 데이터로 판별분석 수행 시 판별함수 추정에 문제 가능성이 생기며, 이 경우 다중 정규성 가정이 엄격하게 요구되지 않는 로지스틱 회귀분석을 사용
  • 종속변수에 의해 범주화되는 그룹들의 분산-공분산행렬이 동일해야 한다.

다. 판별함수에 포함될 독립변수의 선택방법

  • 동시입력방식, 단계입력방식

 

17. 시계열 자료

가. 개요

  • 시간의 흐름에 따라 관찰된 값들을 시계열 자료라 한다.

나. 시계열 자료의 종류

  • 비정상성 시계열: 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열자료가 해당
  • 정상성 시계열 자료: 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료

18. 정상성

  • 정상성이란 시계열의 확률적인 성질들이 시간의 흐름에 따라 변하지 않는다는 것을 의미. 시계열 분석을 하기 위해서는 정상성을 만족해야 함
  • 정상성의 조건
    • 평균이 일정한 경우 
      • 모든 시점에 대해 일정한 평균을 가진다
      • 평균이 일정치 않은 시계열은 차분을 통해 정상화할 수 있다
    • 분산이 일정한 경우
      • 분산도 시점에 의존하지 않고 일정해야 한다.
      • 분산이 일정하지 않을 경우 변환을 통해 정상화할 수 있다
    • 공분산도 단지 시차에만 의존, 특정 시점인 t,s에는 의존치 않음
  • 정상시계열의 특징
    • 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 가짐
    • 항상 그 평균값으로 회귀하려는 경향이 있으며, 그 평균값 주변에서의 변동은 대체로 일정한 폭을 가짐
    • 정상시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화 할 수 없다

19. 시계열자료 분석방법

가. 분석방법

  • 회귀분석 방법, Box-Jenkins 방법, 지수평활법, 시계열 분해법

나. 자료 형태에 따른 분석방법

  • 일변량 시계열분석: Box-Jenkins, 지수 평활법, 시계열 분해법, 시간을 설명변수로 한 회귀모형, 주가/소매물가지수하나의 변수에 관심을 갖는 경우의 시계열 분석
  • 다중 시계열분석: 계량경제 모형, 전이함수모형, 개입분석, 상태공간 분석, 다변량 ARIMA등이 해당하며 여러개의 시간에 따른 변수들을 활용하는 시계열 분석

다. 이동평균법

  • 이동평균법의 개념
    • 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균을 계산, 이들의 추세를 파악하여 다음 기간을 예측하는 방법
  • 이동평균법의 특징
    • 간단하고 쉽게 미래를 예측할 수 있음, 자료의 수가 많고 안정된 패턴을 보이는 경우 예측의 품질이 높음
    • 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치를 부여

라. 지수평활법

  • 지수평활법의 개념
    • 일정기간의 평균을 이용하는 이동평균법과 달리 모든 시계열 자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여해 미래를 예측하는 방법
  • 지수평활법의 특징
    • 단기간에 발생하는 불규칙변동을 평활
    • 자료의 수가 많고, 안정된 패턴을 보일수록 예측 품질 높음
    • 지수평활계수가 가중치의 역할
    • 지수평활계수는 예측오차를 비교하여 예측오차가 가장 적은 값을 선택하는 것이 바람직
    • 지수평활법은 불규칙변동의 영향을 제거하는 효과, 중기 예측 이상에 주로 사용

20. 시계열모형의 종류

  • AR모형, 이동평균 모형, 자기회귀누적이동평균 모형(ARIMA 모형), 분해 시계열

 

21. 비모수 통계

  • 개요
    • 통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분
    • 모수적 방법
      • 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정 하에서 검정통계량과 검정통계량의 분포를 유도해 검정
    • 비모수적 방법
      • 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검증을 실시하는 검정방법
      • 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우 이용
      • 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우 이용
    • 모수적 방법 VS 비모수적 검정
  모수적 검정 비모수 검정
가설 설정 가정된 분포의 모수에 대해 가설 설정 가정된 분포가 없으므로 가설은 '분포의 형태가 동일' 또는 ' 분포의 형태가 동일하지 않음'과 같이 분포의 형태에 대해 설정
검정 방법 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정 실시 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측 값 차이의 부호 등일 이용해 검정

 

22. 비모수 검정의 종류

  • Kolmogorov-Smirnov 검정(단일표본검정)
    • 관측치들이 정규분포, 포아송분포 등과 같은 특정한 분포를 따르는지에 대한 검정
    • 누적관측분포와 누적이론적 분포와의 가장 큰차이로부터 검정 통계량이 계산
  • 일표본 비모수 검정
    • 부호검정
      • 일표본 t-검정에서 정규성을 만족하지 못할 경우 사용, 평균이 아닌 위치모수에 대한 검정 방법
      • 관측값과 설정한 기준값의 차이를 통해 부호를 계싼하여 이를 바탕으로 검정통계량 계산
    • 윌콕슨의 부호 순위 검정 - 일표본
      • 관측값과 설정한 기준값의 차이에 대한 부호 뿐아니라 상대적 크기도 고려한 검정 방법
  • 이표본 비모수 검정
    • 윌콕순의 부호 순위 검정 - 대응 표본
      • 대응표본 t-검정에서 표본의 크기 n이 작고 정규성을 만족하지 못하는 경우 사용, 두 모집단의 중심위치 차이에 대한 검정
      • 단일 모집단으로부터의 랜덤 표본을 통해 가설 검정
    • 윌콕슨 순위합 검정
      • 독립표본 t-검정에서 표본의 크기 n이 작고 정규성을 만족하지 못하는 경우 사용, 두 모집단의 중심위치 차이에 대한 검정
      • 두 모집단으로부터의 서로 독립된 랜덤 표본을 통해 가설 검정
    • 만-휘트니 U 검정
      • 윌콕슨의 순위합 검정과 검정통계량은 다르지만 동일한 가설 진행
      • 최소한의 연속적 서열변인을 가정하여 두 표본을 혼합한 후 순서대로 나열한 집단별로 그 순위의 합을 계싼해 두 집단의 순위합 크기에 차이가 있는 지를 검정
  • 크루스칼-왈리스 H 검정
    • 만-휘트니 U 검정을 확장한 것으로, 세 집단 이상의 분포가 동일한지를 검정
    • 일원배치 분산분석에서 표본의 크기 n이 작고 정규성을 만족하지 못할 경우 사용하며 등분산여부와 상관없이 대신 사용
  • 런 검정
    • 개념
      • 일련의 연속적인 관측값들이 임의적으로 나타난 것인지를 검정하는 방법으로 우연섬 검정이라고도 함. 표본의 독립성 검정을 위해 관측값들이 얻어진 순서에 근거하는 비모수적 검정방법