1. 회귀분석의 개념
- 하나 혹은 그 이상의 원인(독립변수)이 결과(종속변수)에 미치는 영향을 추정하여 식으로 표현할 수 있는 통계기법
- 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심 있는 변수를 예측하거나 추론하기 위해 사용
- 독립변수의 개수가 하나이면 단순선형회귀분석, 독립변수의 개수가 두 개 이상이면 다중선형회귀 분석 사용
가. 회귀분석에 적합한 데이터 형태
- 회귀분석의 입력 데이터에서 종속변수와 입력변수는 계량형 자료이어야 한다. 하지만 독립변수의 경우, 명목척도로 측정된 범주형 자료가 사용될 수 있음. 이 때는 독립변수를 가변수로변환
나. 회귀분석의 변수
- 영향을 주는 변수: 설명변수, 독립변수, 예측변수
- 영향을 받는 변수: 반응변수, 종속변수, 결과변수
다. 선형회귀분석의 가정
- 독립변수와 종속변수 간의 선형성: 입력변수와 출력변수의 관계가 선형이어야 한다는 가정
- 오차의 등분산성: 오차란 종속변수의 예측값과 실제 관측값 간의 차이를 의미. 오차의 등분산성이란 오차의 분산은 독립변수 값과 무관하게 일정해야 한다는 가정
- 오차의 정규성: 오차의 분포가 정규분포를 만족해야 함을 의미
- 오차의 독립성: 오차들은 서로 독립적이라는 가정. 즉 예측값의 변화에 따라 오차항이 특정한 패턴을 가져서는 안됨
라. 회귀분석의 종류에 따른 가정에 대한 검증
- 단순선형 회귀분석: 입력변수와 출력변수 간의 선형성을 점검하기 위해 산점도 확인
- 다중선형 회귀분석: 데이터가 선형회귀분석의 가정인 선형성, 등분산성, 정규성, 독립성을 모두 만족하는지 확인
2. 단순선형회귀
- 하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법
- 최소제곱법, 최소자승법으로 회귀계수 추정
- F-검정, t-검정, 결정계수 확인
3. 다중선형회귀
- 두 개 이상의 독립변수가 종속변수에 미치는 영향을 추정하는 통계기법
- 데이터가 전제하는 가정을 만족하는지, 다중공산성 검토
- F-검정, t-검정, 결정계수 확인
4. 정규화 선형회귀
- 정규화 선형회귀는 선형 회귀 계수에 대한 제약 조건을 추가하여 모델이 과도하게 최적화되는 현상을 막는 방법
가. 릿지 회귀
- 릿지 회귀모형은 가중치들이 젝보합을 최소화하는 것을 제약조건으로 추가하는 기법
- 가중치의 모든 원소가 0에 가까워지는 것을 원하며, 이를 위해 회귀 모델에 사용하는 규제 방식을 L2규제 라고 한다.
나. 라쏘 회귀
- 라쏘 회귀모형은 가중치 절대값의 합을 최소화하는 것을 제약조건으로 추가하는 기법.
- 릿지 회귀는 가중치가 0에 가까워질 뿐 실제로 0이 되지는 않지만, 라쏘 회귀에서는 중요하지 않은 가중치는 0이 될 수 있다.
- L1규제 사용
다. 엘라스틱넷
- 릿지 회귀와 라쏘 회귀를 결합한 모델
5. 일반화 선형회귀(GLM)
- 회귀분석은 연속형의 종속변수가 정규분포를 따른다는 정규성을 가정하지만 종속변수가 범주형 자료이거나 정규성을 만족하지 못한는 경우도 있음. 이러한 경우에 종속변수를 적절한 함수로 변화시켜 f(x)를 정의 후, 이 f(x)와 독립변수를 선형 결합으로 모형화하는 일반화 선형모형을 이용
- 일반화 선형회귀는 선형회귀와 마찬가지로 독립변수가 종속변수에 미치는 영향의 정도를 회귀계수를 통해 설명하며, 독립변수들 간의 영향을 보정한 다변량 분석이 가능
- 일반화 선형 모형을 정의하는 성분
랜덤성분 | 종속변수 y의 확률분포를 규정하는 성분 |
체계적 성분 | y의 기댓값인 E(y)를 정의하는 설명변수들 간의 선형 결합(선형식) |
연결함수 | 랜덤성분과 체계적 성분을 연결하는 함수 |
6. 회귀분석의 영향력 진단
- 영향력 진단이란 적합된 회귀모형의 안전성을 평가하는 통계적인 방법
- 선형회귀분석에서 회귀직선의 기울기에 영향을 크게 주는 점을 영향점이라고 한다.
- 영향력 진단의 방법에는 Cook's Distance, DFBETAS, DFFITS, Leverage H등이 있다.
영향력 진단 방법 | 설명 |
Leverage H | 레버리지는 Hat Matrix의 i 번째 대각원소로 관측치가 다른 관측치 집단으로부터 떨어진 정도를 의미, 2x(p+1)/n보다 크면 영향치이거나 이상치 |
Cook's Distance | 쿡의 거리는 Full model에서 i번째 관측치를 포함하여 계산한 적합치와 i번째 관측치를 포함하지 않고 계산한 적합치 사이의 거리. 쿡의 거리가 기준값인 1보다 클 경우에 영향치로 간주 |
DFBEATS | DFBETAS의 절대값이 커지면 i번째 관측치가 영향치 혹은 잉상치일 가능성이 높다. 기준값은 2나 2/n^(1/2)를 사용하며, DFBETAS값이 기준값보다 클 경우 영향치로 간주 |
DFFITS | i번째 관측치 제외시 종속변수 예측치의 변화정도를 측정한 값. DFFITS의 절대값이 기준값인 2x(p+1)/n보다 클수록 영향치일 가능성이 높음 |
7. 범주형 자료 분석
가. 개요
- 범주형 자료 분석은 분석에 사용되는 변수들이 범주형일 때 사용하는 분석 방법론
- 설명변수와 반응변수에 따른 범주형 자료 분석 방법론
설명변수 | 반응변수 | 통계분석방법 |
범주형 자료 | 범주형 자료 | - 분할표 분석 - 카이제곱 검정 |
연속형 자료 | - T-검정 - 분산분석 |
|
연속형 자료 | 범주형 자료 | - 로지스틱 회귀분석 |
8. 분할표 분석
가. 개요
- 여러 개의 범주형 변수를 기준으로 빈도를 표 형태로 나타낸 것을 분할표라 한다.
- 예시 ( 학년, 성적 등급 2개의 범주형 변수별 빈도를 분할표로 나타낸 것)
A등급 | B등급 | C등급 | |
1학년 | 3 | 10 | 7 |
2학년 | 4 | 11 | 5 |
3학년 | 5 | 10 | 5 |
4학년 | 7 | 11 | 2 |
나. 상대위험도
- 상대위험도란 관심 집단의 위험률/비교 집단의 위험률을 의미, 여기서 위험률이란 특정 사건이 발생한 비율을 의미
다. 오즈비
- 오즈란 성공확률/실패확률로 성공할 확률이 실패할 확률의 몇 배인지를 나타냄
- 오즈비란 오즈의 각 범주별 비율로 정의
- 예시
구분 | 16강 성공 확률 | 16강 실패 확률 |
Brazil | 0.8 | 0.2 |
Korea | 0.1 | 0.9 |
9. 교차 분석
가. 카이제곱 검정
- 범주형 자료(명목/서열 수준)인 두 변수 간의 관계를 알아보기 위해 실시하는 분석 기법
- 적합성 검정, 독립성 검정, 동질성 검정에 사용, 카이제곱 검정 통계량 이용
10. 적합성 검정
- 실험에서 얻어진 관측값들이 예쌍한 이론과 일치하는지 아닌지를 검정하는 방법
- 관측값들이 어떠한 이론적 분포를 따르고 있는지 확인 가능
- 즉, 모집단 분포에 대한 가정이 옳게 됐는지를 관측 자료와 비교하여 검정하는 것
- 가설 설정
- n개의 표본 자료를 k개의 범주로 분류한 뒤, 각 범주의 관측도수와 주어진 확률 분포에 대해 각 범주에 속하는 기대도수들이 적합하는지의 여부를 검정하는 것
- 귀무가설: 실제 분포와 이론적 분포 간에는 차이가 없다(두 분포가 일치)
- 대립가설: 실제 분포와 이론적 분포 간에는 차기아 있다(두 분포가 일치하지 않음)
11. 독립성 검정
가. 독립성 검정이란
- 모집단이 두 개의 변수 A, B에 의해 범주화되었을 때, 이 두 변수들 사이의 관계가 독립적인지 아닌지를 검정하는 것을 의미
- 검정 통계량 값을 계산할 때는 교차표를 활용
나. 가설 설정
- 모집단을 범주화하는 기준이 되는 두 변수 A, B가 서로 독립적으로 관측값에 영향을 미치는지의 여부를 검정하는 것
- 귀무가설: 두 변수 사이에는 연관이 없다(독립)
- 대립가설: 두 변수 사이에는 연관이 있다(종속)
12. 동질성 검정
가. 동질성 검정이란
- 모집단이 임의의 변수에 따라 R개의 속성으로 범주화되었을 때, R개의 부분 모집단에서 추출한 각 표본인 C개의 범주화된 집단의 분포가 서로 동일한지를 검정하는 것
- 검정 통계량 값을 계산할 때는 교차표를 활용, 계산법과 검증법은 모두 독립성 검정과 같은 방법으로 진행
나. 가설 설정
- 귀무가설: 모든 P는 동일
- 대립가설: P중 다른 값이 하나 이상 존재
13. 다차원 척도법
- 객체 간 근접성을 시각화하는 통계기법
- 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후에 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 공간상에 점으로 표현하는 분석방법
- 다차원 척도법의 목적
- 데이터 속에 잠재해 있는 패턴, 구조를 찾아내고, 그 구조를 소수 차원의 공간에 기하학적으로 표현
- 데이터 축소의 목적으로 다차원 척도법을 이용. 즉, 데이터에 포함되어 있는 정보를 발견하기 위한 탐색수단으로서 사용
- 다차원 척도법 분석 방법
- 개체들의 거리계산에는 유클리드 거리행렬 활용
- 관측대상의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값으로 나타냄
- 다차원 척도법의 종류
- 계량적 MDS, 비계량적 MDS
14. 주성분분석
가. 주성분분석의 개념
- 주성분분석이란 데이터에 여러 변수들이 있을 때 서로 상관성이 높은 변수들의 선형결합으로 이루어진 '주성분'이라는 새로운 변수를 만들어 변수들을 요약하고 축소하는 기법
- 첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만듦.
- 각 주성분은 서로 독립적인 것을 원칙으로 함
나. 주성분분석의 목적
- 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하고 관리하기 쉽게 해줌
- 다중공선성이 존재하는 경우, 상관성이 없는 주성분으로 변수들을 축소하여 모형 개발에 활용
- 주성분분석을 통해 변수 차원을 축소한 후 군집분석을 수행하면 군집화 결과와 연산속도를 개선 가능
다. 주성분의 선택
- 기여율
- 주성분은 여러 변수들의 선형결합이므로, 각 변수에 내재되어 있는 중요한 정보의 손실이 있을 수도있다. 따라서 '주성분 기여율'을 사용하여 주성분이 데이터를 얼마나 잘 설명할 수 있는지 평가
- 주성분 기여율은 원 변수의 총 변동분의 주성분 변수의 분산으로, 총 변동에 대해 주성분의 설명력을 의미
- 기여율이 1에 가까울 수록 적절, 0에 가까울수록 데이터에 대한 설명력이 떨어진다고 판단
- 첫 번째 주성분부터 차례대로 기여율을 합한 누가 기여율이 85%이상이 되면 해당 지점까지를 주성분의 수로 결정
15. 요인분석
가. 요인분석의 개념
- 요인분석이란 여러 개의 변수들로 이루어진 데이터에서 변수들 간의 상관관계를 고려하여 서로 유사한 변수들을 묶어 새로운 잠재요인들을 추출해내는 분석방법, 변수를 축소하고 데이터를 요약하는데 사용
나. 주성분분석 VS 요인분석
주성분분석 | 요인분석 | |
공통점 | - 원 데이터를 활용하여 몇 개의 새로운 변수를 생성 - 변수축소 및 데이터 요약에 사용됨 |
|
생성되는 변수의 수 | 통상적으로 2개(제1주성분, 제2주성분) | 지정된 개수 없음 |
생성되는 변수의 이름 | 제1주성분, 제2주성분과 같이 표현됨 | 분석가가 변수의 이름을 지정 |
생성되는 변수들의 관계 | 제1주성분이 가장 중요, 그 다음으로 제2주성분이 중요하게 취급 | 대등한 관계 |
분석방법의 의미 | 목표변수를 잘 예측/분류하기 위해 기존 변수들의선형결합으로 이루어진 몇 개의 주성분을 탐색함 | 목표변수를 고려하지 않고 주어진 변수들을 비슷한 성격으로 묶어 새로운 변수 생성 |
다. 요인분석의 용어
- 요인: 상관계수가 높은 변수들을 묶어 새롭게 생성한 변수집단
- 요인 적재값: 변수와 해당 요인간의 상관계수
- 요인행렬: 요인들에 대한 모든 변수의 요인 적재값을 모은행렬
- 고유값: 각 요인에 대한 모든 변수드르의 요인 적재값 제곱의 합
- 공통성: 여러 요인이 설명할 수 있는 한 변수의 분산의 양을 백분율로 나타낸 것
라. 요인추출 방법
- 주성분분석: 변수들로부터 요인을 추출하는 방식, 가장 많이 사용되는 방식
- 공통요인분석: 잠재요인으로부터 변수들이 산출된 것으로 보는 방식으로, 공통분산만을 토대로 요인을 추출
마. 요인의 수 결정
- 고유값을 기준으로 할 때는, 고유값이 1이상에 해당하는 요인들을 추출
- 요인분석의 절차
- 데이터 입력 => 상관관계 산출 => 요인추출 => 요인 적재량 산출 => 요인회전 => 생성된 요인 해석 => 요인점수 산출
16. 판별분석
가. 판별분석의 개념
- 판별분석은 분류기법 중 하나로 집단에 대한 정보로부터 집단을 구별할 수 있는 판별함수 혹은 판별규칙을 만들고, 새로운 개체가 어느 집단에 속하는지를 판별하여 분류하는 다변량 기법
- 간격척도 혹은 비율척도로 측정된 독립변수를 이용해 종속변수는 명목척도 혹은 서열척도로 측정된 종속변수를 분류하는데 사용
나. 판별분석의 가정
- 독립변수는 다변량 정규분포를 이룬다. 다중 정규성 가정을 충족하지 않는 데이터로 판별분석 수행 시 판별함수 추정에 문제 가능성이 생기며, 이 경우 다중 정규성 가정이 엄격하게 요구되지 않는 로지스틱 회귀분석을 사용
- 종속변수에 의해 범주화되는 그룹들의 분산-공분산행렬이 동일해야 한다.
다. 판별함수에 포함될 독립변수의 선택방법
- 동시입력방식, 단계입력방식
17. 시계열 자료
가. 개요
- 시간의 흐름에 따라 관찰된 값들을 시계열 자료라 한다.
나. 시계열 자료의 종류
- 비정상성 시계열: 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열자료가 해당
- 정상성 시계열 자료: 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료
18. 정상성
- 정상성이란 시계열의 확률적인 성질들이 시간의 흐름에 따라 변하지 않는다는 것을 의미. 시계열 분석을 하기 위해서는 정상성을 만족해야 함
- 정상성의 조건
- 평균이 일정한 경우
- 모든 시점에 대해 일정한 평균을 가진다
- 평균이 일정치 않은 시계열은 차분을 통해 정상화할 수 있다
- 분산이 일정한 경우
- 분산도 시점에 의존하지 않고 일정해야 한다.
- 분산이 일정하지 않을 경우 변환을 통해 정상화할 수 있다
- 공분산도 단지 시차에만 의존, 특정 시점인 t,s에는 의존치 않음
- 평균이 일정한 경우
- 정상시계열의 특징
- 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 가짐
- 항상 그 평균값으로 회귀하려는 경향이 있으며, 그 평균값 주변에서의 변동은 대체로 일정한 폭을 가짐
- 정상시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화 할 수 없다
19. 시계열자료 분석방법
가. 분석방법
- 회귀분석 방법, Box-Jenkins 방법, 지수평활법, 시계열 분해법
나. 자료 형태에 따른 분석방법
- 일변량 시계열분석: Box-Jenkins, 지수 평활법, 시계열 분해법, 시간을 설명변수로 한 회귀모형, 주가/소매물가지수 등 하나의 변수에 관심을 갖는 경우의 시계열 분석
- 다중 시계열분석: 계량경제 모형, 전이함수모형, 개입분석, 상태공간 분석, 다변량 ARIMA등이 해당하며 여러개의 시간에 따른 변수들을 활용하는 시계열 분석
다. 이동평균법
- 이동평균법의 개념
- 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균을 계산, 이들의 추세를 파악하여 다음 기간을 예측하는 방법
- 이동평균법의 특징
- 간단하고 쉽게 미래를 예측할 수 있음, 자료의 수가 많고 안정된 패턴을 보이는 경우 예측의 품질이 높음
- 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치를 부여
라. 지수평활법
- 지수평활법의 개념
- 일정기간의 평균을 이용하는 이동평균법과 달리 모든 시계열 자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여해 미래를 예측하는 방법
- 지수평활법의 특징
- 단기간에 발생하는 불규칙변동을 평활
- 자료의 수가 많고, 안정된 패턴을 보일수록 예측 품질 높음
- 지수평활계수가 가중치의 역할
- 지수평활계수는 예측오차를 비교하여 예측오차가 가장 적은 값을 선택하는 것이 바람직
- 지수평활법은 불규칙변동의 영향을 제거하는 효과, 중기 예측 이상에 주로 사용
20. 시계열모형의 종류
- AR모형, 이동평균 모형, 자기회귀누적이동평균 모형(ARIMA 모형), 분해 시계열
21. 비모수 통계
- 개요
- 통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분
- 모수적 방법
- 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정 하에서 검정통계량과 검정통계량의 분포를 유도해 검정
- 비모수적 방법
- 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검증을 실시하는 검정방법
- 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우 이용
- 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우 이용
- 모수적 방법 VS 비모수적 검정
모수적 검정 | 비모수 검정 | |
가설 설정 | 가정된 분포의 모수에 대해 가설 설정 | 가정된 분포가 없으므로 가설은 '분포의 형태가 동일' 또는 ' 분포의 형태가 동일하지 않음'과 같이 분포의 형태에 대해 설정 |
검정 방법 | 관측된 자료를 이용해 구한 표본평균, 표본분산 등을 이용해 검정 실시 | 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측 값 차이의 부호 등일 이용해 검정 |
22. 비모수 검정의 종류
- Kolmogorov-Smirnov 검정(단일표본검정)
- 관측치들이 정규분포, 포아송분포 등과 같은 특정한 분포를 따르는지에 대한 검정
- 누적관측분포와 누적이론적 분포와의 가장 큰차이로부터 검정 통계량이 계산
- 일표본 비모수 검정
- 부호검정
- 일표본 t-검정에서 정규성을 만족하지 못할 경우 사용, 평균이 아닌 위치모수에 대한 검정 방법
- 관측값과 설정한 기준값의 차이를 통해 부호를 계싼하여 이를 바탕으로 검정통계량 계산
- 윌콕슨의 부호 순위 검정 - 일표본
- 관측값과 설정한 기준값의 차이에 대한 부호 뿐아니라 상대적 크기도 고려한 검정 방법
- 부호검정
- 이표본 비모수 검정
- 윌콕순의 부호 순위 검정 - 대응 표본
- 대응표본 t-검정에서 표본의 크기 n이 작고 정규성을 만족하지 못하는 경우 사용, 두 모집단의 중심위치 차이에 대한 검정
- 단일 모집단으로부터의 랜덤 표본을 통해 가설 검정
- 윌콕슨 순위합 검정
- 독립표본 t-검정에서 표본의 크기 n이 작고 정규성을 만족하지 못하는 경우 사용, 두 모집단의 중심위치 차이에 대한 검정
- 두 모집단으로부터의 서로 독립된 랜덤 표본을 통해 가설 검정
- 만-휘트니 U 검정
- 윌콕슨의 순위합 검정과 검정통계량은 다르지만 동일한 가설 진행
- 최소한의 연속적 서열변인을 가정하여 두 표본을 혼합한 후 순서대로 나열한 집단별로 그 순위의 합을 계싼해 두 집단의 순위합 크기에 차이가 있는 지를 검정
- 윌콕순의 부호 순위 검정 - 대응 표본
- 크루스칼-왈리스 H 검정
- 만-휘트니 U 검정을 확장한 것으로, 세 집단 이상의 분포가 동일한지를 검정
- 일원배치 분산분석에서 표본의 크기 n이 작고 정규성을 만족하지 못할 경우 사용하며 등분산여부와 상관없이 대신 사용
- 런 검정
- 개념
- 일련의 연속적인 관측값들이 임의적으로 나타난 것인지를 검정하는 방법으로 우연섬 검정이라고도 함. 표본의 독립성 검정을 위해 관측값들이 얻어진 순서에 근거하는 비모수적 검정방법
- 개념
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 3-4 딥러닝 (1) | 2024.08.17 |
---|---|
[빅데이터분석기사 필기] 3-3 정형 데이터 분석기법 (0) | 2024.08.16 |
[빅데이터분석기사 필기] 3-1 분석 모형 설계 (0) | 2024.08.15 |
[빅데이터분석기사 필기] 2-3 통계기법의 이해 (0) | 2024.08.11 |
[빅데이터분석기사 필기] 2-2 데이터 탐색 (0) | 2024.08.11 |