본문 바로가기
빅데이터분석기사

[빅데이터분석기사 필기] 3-3 정형 데이터 분석기법

by 아마도개발자 2024. 8. 16.

 

1. 로지스틱 회귀분석

  • 개념
    • 로지스틱 회귀분석은 반응변수(종속변수)가 범주형인 경우에 적용할 수 있는 회귀분석 모형
    • 데이터의 반응변수가 특정 범주에 속할 확률을 0~1로 예측하고, 예측된 확률에 따라 가능성이 더 높은 범주로 분류하는 지도학습 알고리즘
  • 로지스틱 회귀분석의 원리
    • 시그모이드 함수
  • 임계값
    • 로지스틱 회귀분석 결과로 나오는 분류 확률이 특정 수준보다 큰지 혹은 작은지를 기준으로 해당 데이터가 어떤 클래스에 속할지 분류할 수 있다. 이 때 기준이 되는 값을 임계값이라고 한다.
    • 일반적으로 분류를 위한 임계값은 0.5이며 성공확률이 0.5보다 크면 성공, 0.5보다 작으면 실패로 분류(변경 가능)

2. 의사결정 나무

가. 개념

  • 의사결정나무는 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법. 계산결과가 의사결정나무에 직접 나타나기 때문에 해석이 간편
  • 주어진 입력값에 대해 출력값을 예측하는 모형으로 분류나무와 회귀나무 모형이 있음

나. 의사결정나무의 분석 과정

  • 의사결정나무의 형성과정은 크게 성장, 가지치기, 타당성 평가, 해석 및 예측으로 이루어짐
  • 성장 단계
    • 각 마디에서 적절한 최적의 분리규칙을 찾아서 나무를 성장시키는 과정, 적절한 정지규칙을 만족하면 중단
    • 정지 규칙은 더 이상 분리가 일어나지 않고, 현재의 마디가 끝마디가 되도록 하는 규칙이며, 의사결정나무의 깊이를 지정하거나 끝 마디의 레코드 수의 최소 개수를 지정
    • 분리 규칙을 설정하는 분리 기준은 이산형 목표변수, 연속형 목표변수에 따라 나뉨
  • 가지치기 단계
    • 오차를 크게 할 윟머이 높거나 부적절한 추론규칙을 가지고 있는 가지 또는 불필요 가지를 제거
    • 나무의 크기를 모형의 복잡도로 볼 수 있으며, 최적 나무 크기는 자료로부터 추정
    • 마디에 속하는 자료가 일정수 이하일 때 분할을 정지하고 비용-복잡도 가지치기를 이용해 성장시킨 나무를 가지치기
  • 타당성 평가 단계
    • 이익도표, 위험도표 혹은 시험용 데이터를 이용해 의사결정나무를 평가
  • 해석 및 예측 단계
    • 구축된 나무모형을 해석하고 예측모형을 설정한 후, 예측에 적용하는 단계

다. 의사결정나무 알고리즘

  • CART: 가장 많이 사용되는 의사결정나무 알고리즘, 불순도의 측도를 출력 변수가 범주형일 경우 지니지수를 이용, 연속형인 경우 분산을 이용한 이진분리를 사용
  • C4.5와 C5.0: CART와 다른 점은 CART는 이진분리를 하지만 C4.5는 각 마디에서 다지분리가 가능. 연속변수에 대해서는 CART와 비슷한 방법을 사용하지만 범주형에서는 범주의 수만큼 분리가 일어남
  • CHAID: 가장 오래된 알고리즘으로 SPSS나 SAS통계 package에 가장 보편적인 프로그램. CART와 다르게 과대적합 하기 전에 나무 형성을 멈춤

라. 의사결정나무의 장단점

장점 단점
- 구조가 단순하여 직관적인 이해가 가능하며 해석이 용이
- 유용한 입력변수를 파악할 수 있으며, 예측변수 간의 상호작용 및 비선형을 고려하여 분석이 가능
- 선형성, 정규성, 등분산성 등 통계적 가정이 불필요한 비모수적 모형
- 계산 비용이 낮아 대규모의 데이터 셋에서도 비교적 빠른 연산
- 수치형 변수와 범주형 변수를 모두 사용 가능
- 분류 기준값의 경계선 부근 자료의 오차값이 큼
- 로지스틱 회귀와 같이 각 예측변수의 효과를 파악하기 어려움
- 새로운 자료에 대한 예측 불안정

 

3. 서포트 벡터 머신(SVM)

  • 서포트 벡터 머신은 패턴인식, 자료분석 등을 위한 지도학습 머신러닝 모델이며, 주로 회귀와 분류 문제 해결에 사용
  • 주어진 데이터 집합을 바탕으로 하여 새로운 데이터가 어떤 범주에 속할 것인지르 판단하는 비확률적 이진 선형 분류 모델을 생성
  • 기존 분류기가 오류율 최소화를 특징으로 한다면 SVM은 마진 최대화로 일반화 능력의 극대화를 추구

가. SVM의 원리

  • SVM 분류 모델은 데이터가 표현된 공간에서 분류를 위한 경계를 정의. 즉, 분류되지 않은 새로운 값이 입력되면 경계의 어느 쪽에 속하는지를 확인해 분류 과제를 수행

나. 적절한 마진의 선택

  • 자신의 클래스가 아닌 다른 클래스 쪽에 가깝게 위치한 데이터(이상치)가 존재할 경우 SVM은 cost라는 파라미터를 활용
  • cost는 데이터갇 ㅏ른 클래스에 놓이는 것을 허용할 정도를 결정, c값을 적게 설정하면 이상치가 존재할 가능성을 많이 허용하고, 반대이면 존재 가능성을 작게 허용하며 더욱 세심한 분류면을 가진다

다. 커널

  • SVM모형은 선형 분류뿐만 아니라 비선형 분류에도 사용된다. 비선형 데이터의 분류 문제는 입력자료를 다차원 공간으로 매핑하여 해결가능하며, 이 과정에서 커널 함수를 이용해 계싼량을 줄이는 기법인 커널 트릭이 사용됨
  • 비선형 데이터 분류 문제를 위해 사용가능한 커널 트릭의 종류는 선형 커널, 다항식 커널, 시그모이드 커널, 가우시안 KBF 커널 등이 있음.

라. SVM의 장단점

장점 단점
- 분류와 예측에 모두 사용 가능
- 신경망 기법에 비해 과적합 정도가 낮음
- 예측의 정확도가 높다
- 저차원과 고차원의 데이터에 대해 모두 잘 작동
- 비선형 분리 데이터를 커널트릭을 사용해 분류 모델링
- 데이터 전처리와 매개변수 설정에 따라 정확도가 달라짐
- 예측이 이루어지는지에 대한 이해와 모델 해석 어려움
- 대용량 데이터에 대한 모형 구축 시 속도가 느리며 메모리 할당량이 큼

 

4. K-최근접 이웃 알고리즘

  • 어떤 범주로 나누어져 있는 데이터 셋이 있을 때, 새로운 데이터가 추가된다면 이를 어떤 범주로 분류할 것인지를 결정할 때 사용할 수 있는 분류 알고리즘
  • K-NN알고리즘이라고도 하며, 지도학습의 한 종류

가. K-NN알고리즘의 원리

  • 새로운 데이터의 클래스를 해당 데이터와 가장 가까이 있는 k개의 데이터들의 클래스로 결정

나. k의 선택

  • k는 학습의 난이도와 데이터의 개수에 따라 결정될 수 있으며, 일반적으로는 훈련 데이터 개수의 제곱근으로 설정
  • k가 너무 클경우 과소적합, k가 너무 작을 경우 과대적합 발생

다. 이웃 간의 거리 계산 방법

  • K-NN 알고리즘에서 최근접 이웃 간의 거리를 계산할 때 유클리디안 거리, 맨하탄 거리, 민코우스키 거리 등을 사용할 수 있음

라. K-NN Classfication의 장단점

장점 단점
- 사용이 간단하다
- 범주를 나눈 기준을 알지 못해도 데이터를 분류할 수 있다
- 추가된 데이터의 처리가 용이
- k값의 결정이 어려움
- 수치형 데이터가 아닐 경우 유사도를 정의하기 어려움
- 데이터 내에 이상치가 존재하면 분류 성능에 큰 영향을 받음

 

 

5. 나이브 베이즈 분류

가. 개념

  • 나이브 베이즈 분류는 데이터에서 변수들에 대한 조건부 독립을 가정하는 알고리즘으로 클래스에 대한 사전 정보와 데이터로부터 추출된 정보를 결합하고, 베이즈 정리를 이용하여 어떤 데이터가 특정 클래스에 속하는지를 분류하는 알고리즘

나. 베이즈 정리

  • 나이브 베이즈 알고리즘의 기본이 되는 개념으로, 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리

 

6. 앙상블

  • 주어진 자료로부터 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측모형을 만드는 방법
  • 대표적인 방법으로 배깅부스팅이 있음. 랜덤포레스트는 배깅의 개념과 feature의 임의 선택을 결합한 앙상블 기법

가. 배깅

  • 주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법
  • 보팅은 여러 개의 모형으로부터 산출된 결과를 다수결에 의해 최종결과를 선정하는 과정

나. 부스팅

  • 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법으로 오류 데이터에 가중치를 부여

다. 랜덤포레스트

  • 개념
    • 랜덤포레스트는 의사결정나무의 특징인 분산이 크다는 점을 고려해 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성 후 이를 선형 결합하여 최종 학슴기를 만드는 방법
    • 지도학습 알고리즘으로 다수의 의사결정트리를 사용해 회귀의 경우에는 평균화를 하고 분류의 경우에는 투표를 통해 보다 정확한 결과를 예측
  • 랜덤포레스트의 장단점
장점 단점
- 간편하고 빠른 학습 및 테스트 알고리즘
- 다중 클래스 알고리즘의 특성을 가짐
- 노이즈에 민감하지 않음
- 분류 및 회귀 모두에 적용 가능
- 매개변수를 잘못 설정하면 과적합 발생
- 메모리 사용량 많음 
- 텍스트 데이터에 잘 작동하지 않음

 

7. 연관규칙

가. 연관규칙의 개념

  • 연관성 분석은 흔히 장바구니 분석 또는 서열분석이라고 불린다.
  • 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간 규칙을 발견하기 위해 적용

나. 연관규칙의 형태

  • 조건과 반응의 형태로 이루어져 있다.

다. 연관규칙의 측도

  • 산업의 특성에 따라 지지도, 신뢰도, 향상도 값을잘 보고 규칙을 선택

라. 연관규칙의 장단점

장점 단점
- 탐색적인 기법으로 조건 반응으로 표현되는 연관성 분석의 결과를 쉽게 이해
- 강력한 비목적성 분석기법으로 분석 방향이나 목적이 없는 경우, 목적변수가 없으므로 유용하게 활용
- 사용이 편리한 분석 데이터의 형태로 거래 내용에 대한 데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 자료구조를 가짐
- 분석을 위한 계산이 간단
- 품목수가 증가하면 분석에 필요한 계산이 기하급수적으로 증가
- 너무 세분화된 품목으로 연관성 규칙을 찾으면 의미 없는 분석이 될 수 있음
- 거래량이 적은 품목에서 규칙 발견 시 제외되기가 쉬움

 

8. 군집분석

  • 개요
    • 각 객체의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간 상이성을 규명하는 분석 방법
    • 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누며, 결과는 구체적인 군집 분석 방법에 따라 차이가 남
    • 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도
  • 특징
    • 요인분석과 차이점: 요인분석은 유사한 변수를 함께 묶어주는 것이 목적
    • 판별분석과 차이점: 판별분석은 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 기존의 집단에 할당하는 것이 목적
  • 거리
    • 군집분석에서는 관측 데이터 간 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단

가. 연속형 변수의 경우

  • 유클리디안 거리
  • 표준화 거리
  • 마할라노비스 거리
  • 체비셰프 거리
  • 맨하탄 거리
  • 캔버라 거리
  • 민코우스키 거리

나. 범주형 변수의 경우

  • 자카드 거리
  • 자카드 유사도
  • 코사인 유사도
  • 코사인 거리

 

9. 계층적 군집분석

  • 계층적 군집방법은 n개의 군집으로 시작해 점차 군집의 개수를 줄여 나가는 방법
  • 계층적 군집을 형성하는 방법에는 합병형 방법과 분리형 방법이 있음
  • 계층적 군집분석 종류
    • 최단연결법: n*n 거리행렬에서 거리가 가장 가까운 데이터를 묶어서 군집 형성
    • 최장연결법: 군집과 군집 또는 데이터와의 거리를 계산할 때 최장거리를 거리로 계산하여 거리행렬 수정
    • 평균연결법: 군집과 군집 또는 데이터와의 거리를 계산할 때 평균을 거리로 계산하여 거리행렬 수정
    • 와드연결법: 군집내 편차들의 제곱합을 고려한 방법, 군집 간 정보의 손실을 최소화하기 위해 군집화 진행
    • 군집화: 거리행렬을 통해 가장 가까운 거리의 객체들 간 관계를 규명하고 덴드로그램을 그림

10. 비계층적 군집분석

  • n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화 군집을 형성하는 것

가. K-평균 군집분석

  • 개념
    • 주어진 데이터를 k개의 클러스터로 묶는 알고리즘, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작
  • 과정
    • 원하는 군집의 개수와 초기 값들을 정해 seed 중심으로 군집 형성
  • K-평균 군집분석에서 최적의 k 찾기
  • elbow방법, 실루엣 기법
  • 특징
    • 거리 계산을 통해 군집화가 이루어지므로 연속형 변수에 활용 가능
    • 알고리즘이 단순하며, 빠르게 수행되어 분석 방법 적용이 용이, 계층적 군집분석에 비해 많은 데이터를 다룰 수있음
    • 군집의 수, 가중치와 거리 정의가 어려움
    • 사전에 주어진 목적이 없으므로 결과 해석이 어려움

 

나. 혼합 분포 군집

  • 개요
    • 모형 기반의 군집 방법이며, 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 모수와 함께 가중치를 자료로부터 추정하는 방법 사용
  • 특징
    • k-평균군집의 절차와 유사하지만 확률분포를 도입하여 군집을 수행
    • 군집을 몇 개의 모수로 표현할 수 있으며, 서로 다른 크기나 모양의 군집을 찾을 수 있음

다. SOM

  • 개요
    • 자가조직화지도 알고리즘은 코호넨에 의해 제시, 개발됨
  • 구성
    • SOM모델은 입력층과 경쟁층으로 구성되어 있따.
    • 입력층: 입력 변수의 개수와 동일하게 뉴런 수가 존재, 입력층의 자료는 학습을 통하여 경쟁층에 정렬되고 이를 MAP이라 부름
    • 경쟁층: 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층
  • 특징
    • 고차원의 데이터를 저차원의 지도 형태로 형상화 하기 때문에 시각적으로 이해하기 쉬움
    • 입력 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현됨
  • SOM과 신경망 모형의 차이점
구분 신경망모형 SOM
학습 방법 오차역전파법 경쟁학습방법
구성 입력층, 은닉층, 출력층 입력층, 2차원 격자 형태의 경쟁층
기계 학습 방법의 문류 지도 학습 비지도 학슴