본문 바로가기
빅데이터분석기사

[빅데이터분석기사 필기] 3-1 분석 모형 설계

by 아마도개발자 2024. 8. 15.

 

1. 데이터 모델 구축 기법

  • 빅데이터 분석에서는 분석하고자 하는 데이터를 활용해 목적과 형태에 맞는 분석모형을 선정한다.
  • 데이터 마이닝 및 머신러닝을 이용한 데이터 모델링은 분석 데이터를 활용해 분류, 예측, 군집 등의 분석모형을 선정하여 개발할 수 있다.

가. 통계분석

  • 통계학에서 오랫동안 사용되어 온 전형적인 데이터 모델 구축 기법에는 회귀분석, 로지스틱 회귀분석, 판별분석, 주성분 분석이 있다.
회귀분석 로지스틱 회귀분석 판별분석  주성분 분석
종속변수에 대한 독립변수의 선형 함수 관계로부터 새로운 값에 대해서 종속변수의 값을 예측 설명변수값이 주어졌을 때 목표변수값이 특정부류에 속할 확률이 로지스틱 함수 형태를 따르는 것을 이용하여 개별 관측치들이 어느 집단에 분류되는지 예측한다 종속변인이 둘 혹은 그 이상의 집단으로 구성되어 있을 때 여러 개의 독립변인으로 집단 관측치를 판별 혹은 예측한다 데이터에 여러 변수들이 있을 때, 서로 상관관계가 높은 변수들의 선형결합으로 만들어진 주성분이라는 새로운 변수를 만들어 변수들을 요약하고 축소한다

 

나. 데이터 마이닝

  • 방대한 데이터를 다양한 관점에서 분석하여 숨어 있던 패턴과 상관성을 통계적 기법으로 식별해내 가치를 부여, 숫자가 아닌 데이터도 처리한다는 점에서 통계분석과 차이
  • 일반적으로 분류, 예측, 연관, 군집화를 위해 활용
  분류 예측 연관 군집화
개념 다수의 속성을 가지는 개체를 사전에 정의된 그룹이나 범주 중의 하나로 분류하기 위해 사용 미래에 예상되는 결과를 예측하기 위해 사용되는 모형으로, 입력 데이터의 성격에 따라 방법론을 결정 일련의 거래 또는 사건들 간의 규칙을 발견해 조건과 반응의 형태로 분석 결과의 연관성을 파악 주어진 데이터들의 특성을 고려해 비슷한 특성을 가진 데이터들을 소그룹으로 묶는 방법

 

 

  분류 예측 연관 군집화
기법과 알고리즘 로지스틱 회귀
의사결정 나무
서포트 벡터 머신
나이브 베이즈
K-최근접 이웃
인공신경망
회귀분석
장바구니분석
시계열 분석
의사결정나무
인공신경망
K-최근접 이웃
연관성 분석
순차패턴 분석
군집분석
K-means 클러스터링
기대최대화

 

다. 머신러닝

  • 인공지능 분야에서 인간의 학습을 모델링한 것으로 빅데이터 분석을 포함한 패턴 인식 등 다양한 분야에서 기본적으로 많이 활용되는 기법
  • 데이터 마이닝과는 데이터의 패턴을 발견하는 핵심 알고리즘에서는 동일하나 데이터 마이닝과는 기계가 데이터 모델의 매개 변수를 자동으로 학습한다는 점에서 차이가 있음
  • 데이터를 모델링하는 알고리즘은 여러 가지가 있으며 대부분 지도학습, 비지도학습, 강화학습 세 가지로 분류
  • 지도학습
    • 입력 데이터와원하는 출력값을 모두 제공하면서 기계를 훈련
    • 분류와 예측 모델을 만드는데 주로 이용
  • 비지도학습
    • 데이터에 표식이 붙어 있지 않은 경우로 학습 데이터 없이 입력 데이터만을 이용하여 학습을 하는 형태
    • 정확한 답이 없어도 기계가 자체적으로 데이터 속의 패턴을 찾아내고 의미를 추론해야함
    • 군집화, 차원축소, 연관성 분석으로 나뉘어짐
  • 강화학습
    • 주어진 입력값에 대한 출력값의 정답이 주어지지 않은 상태에서 일련의 행동의 결과에 대한 보상이 주어지게 되며, 시스템은 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하며 학습을 진행, 경험과 시행착오를 통해 얻어진 데이터를 기반으로 알고리즘이 모델을 지속적으로 개선하는 방식

라. 비정형 데이터 분석 

  • 인공지능 분야에서 인간의 학습을 모델링한 것으로 빅데이터 분석을 포함한 패턴 인식 등 다양한 분야에서 기본적으로 많이 활용되는 기법
  • 빅데이터에서 처리하는 데이터는 정형 데이터, 반정형 데이터, 비정형 데이터로 분류
  • 비정형 데이터
    • 텍스트 마이닝
    • 오피니언 마이닝
    • 소셜 네트워크 분석

2. 분석모형 선정

가. 분석모형 선정 기준

  • 목적을 명확히 규명
  • 종속 변수의 존재 파악
  • 종속 변수의 종류 파악

나. 데이터 활용 목적에 따른 모델

목적 작업유형 설명 사용기법 알고리즘 학습기법
예측 분류규칙 가장 많이 활용되는 작업, 과거 데이터로부터 분류모형을 만들어 이를 토대로 새로운 레코드의 결과값을 예측하는 것 판별분석
의사결정나무
신경망
로지스틱회귀
의사결정나무
신경망
K-최근접이웃
서포트 벡터 머신
나이브 베이즈
지도학습
회귀분석 독립변수를 이용해 종속변수와의 선형 함수식을 세우고 새로운 값에 대해서 예측하는 형태의 문제를 적용   선형회귀
인공신경망
SVM
K-NN
지도학습
시계열분석 통계숫자를 시간의 흐름에 따라 일정한 간격마다 기록한 시계열 데이터에 바탕을 둔 분석 방법   자기상관법
ARIMA
지도학습
서술 연관규칙 방대한 데이터셋에서 객체나 아이템 사이의 연관관계를 찾아 내는 것 연관성분석 아프리오리
빈출패턴 성장
비지도학습
연속규칙 연관 규칙에 시간 관련 정보가 포함된 데이터의 이력속성이 반드시 필요 순차패턴분석 아프리오리
FP-Growth
비지도학습
데이터 군집화 데이터를 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업으로 작업의 특성이 분류규칙과 유사하나 분석대상 데이터에 결과값이 없음   K-Means클러스터링
기대최대화
비지도학습
차원축소 주어진 변수 셋을 효과적으로 설명 가능한 더 적은 수의 대표적인 변수들로 요약   주성분분석
커널PCA
비지도학습

 

3. 분석모형 정의

  • 빅데이터 분석에서 모형을 정의하기 위해서는 목적에 맞는 분석기법을 선택하고 모형 개발에 적합한 데이터를 선정해야 한다.
  • 일반적으로 훈련 데이터셋과 검증 데이터셋, 평가 데이터 셋으로 나누어 모형을 정의한다.

4. 분석모형 구축 절차

  • 빅데이터 분석 모형 구축은 분석 데이터 수집 및 처리, 분석 알고리즘 수행, 분석결과 평가 및 모형 선정의 순서로 이루어짐

가. 분석 데이터 수집/처리

  • 분석 데이터 마트 구성
    • 빅데이터 분석 데이터 마트를 구성하기 위해서는 분석 목적에 대한 이해와 어떤 데이터가 목적에 적합한 결과를 도출할 수 있는지를 사전에 검토한 후 데이터 항목 정의를 하고 해당 항목에 대한 데이터를 수집
    • 필요한 데이터는 분석가의 판단과 함께 기존에 수행한 분석 사례를 확인하여 유사한 모델이 있는지 검토(해당 모델에서 사용한 데이터 포함)
  • 분석 데이터 현황 분석
    • 빅데이터 모형 구축에 사용될 데이터가 선정되었으면 해당 데이터에 어떤 변수가 있는지, 형태는 어떤지 모델링에 앞서 탐색을 실시
    • 데이터 충실도, 데이터 이상값, 데이터 분포도, 데이터 오류율 등을 파악

나. 분석 알고리즘 수행

  • 분석 목적
    • 데이터 마이닝과 머신러닝의 핵심 알고리즘은 거의 동일. 분석의 목적이 미래의 결과예측인가 혹은 현상을 이해하기 위함이냐에 따라 수행하는 알고리즘을 다르게 적용
    • 지도학습 알고맂므은 미래 사건의 결과를 예측하는 모델을 만드는데 활용, 비지도 학습방식은 반응변수에 대한 사전 정보 없이 학습을 진행하므로 유용한 정보와 패턴을 탐색적으로 발견하고자 할때 활용
  • 데이터 유형
    • RDBMS의 정형 데이터를 비롯해 소셜데이터, 센서데이터 등 다양한 유형의 빅데이터를 분석
데이터 유형 고려 알고리즘
정형화된 컬럼데이터 데이터 마이닝 알고리즘
(지도 학습, 비지도 학습)
텍스트 데이터 텍스트 마이닝 알고리즘
(자연어 처리, 형태소 분석)
링크드 데이터 그래프 기반 분석 알고리즘
(네트워크 분석, 밀도 분석 알고리즘)
이미지 데이터
(영상, 그림 파일 등)
딥러닝 알고리즘 등
(DNN, CNN, RNN)

 

  • 분석 알고리즘 수행 절차: 데이터 셋 준비 => 파라미터 설정 및 조정 => 분석 결과 기록 => 분석 결과 평가 및 모델 선정
  • 분석 모형 구축 절차: 요건 정의 => 모델링 => 검증 및 테스트 => 적용

 

5. 데이터 분할

  • 분석 모델의 과합과 일반화를 위해 분석 데이터셋을 모델 개발을 위한 훈련데이터와 모델의 검증력을 평가하기 위한 평가 데이터로 나누는 것을 말한다.
  • 데이터 분류
    • 훈련 데이터셋, 평가용 데이터셋, 검증 데이터셋으로 분류
    • 훈련 데이터셋
      • 가장 큰 데이터셋, 구축용 데이터라고도 불리며 빅데이터 분석모형을 구축하기 위해 사용
      • 전체 분석 데이터의 50%를 훈련 데이터로 분할
    • 평가 데이터셋
      • 훈련 데이터셋의 성과를 평가하기 위해 사용. 즉, 모형이 얼마나 적합한지 모형의 성능을 평가하며 평가 데이터나 과거 데이터를 주로 활용
      • 전체 분석 데이터의 20%를 평가 데이터로 분할
    • 검증 데이터셋
    • 과대추정 또는 과소추정을 미세 조정 하는데 활용하며 선택된 모델의 성능을 평가하는데 새로운 데이터, 즉 검증 데이터 셋을 이용
    • 전체 분석 데이터의 30%를 검증 데이터로 분할
  • 데이터가 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우
    • 홀드아웃 방법, 교차검증 방법
  • 데이터 분할 절차
    • 훈련 데이터를 활용한 분석모형 모델링 => 평가 데이터로 모형 성능평가 => 최적 분석모형 선정