1. 데이터 모델 구축 기법
- 빅데이터 분석에서는 분석하고자 하는 데이터를 활용해 목적과 형태에 맞는 분석모형을 선정한다.
- 데이터 마이닝 및 머신러닝을 이용한 데이터 모델링은 분석 데이터를 활용해 분류, 예측, 군집 등의 분석모형을 선정하여 개발할 수 있다.
가. 통계분석
- 통계학에서 오랫동안 사용되어 온 전형적인 데이터 모델 구축 기법에는 회귀분석, 로지스틱 회귀분석, 판별분석, 주성분 분석이 있다.
회귀분석 | 로지스틱 회귀분석 | 판별분석 | 주성분 분석 |
종속변수에 대한 독립변수의 선형 함수 관계로부터 새로운 값에 대해서 종속변수의 값을 예측 | 설명변수값이 주어졌을 때 목표변수값이 특정부류에 속할 확률이 로지스틱 함수 형태를 따르는 것을 이용하여 개별 관측치들이 어느 집단에 분류되는지 예측한다 | 종속변인이 둘 혹은 그 이상의 집단으로 구성되어 있을 때 여러 개의 독립변인으로 집단 관측치를 판별 혹은 예측한다 | 데이터에 여러 변수들이 있을 때, 서로 상관관계가 높은 변수들의 선형결합으로 만들어진 주성분이라는 새로운 변수를 만들어 변수들을 요약하고 축소한다 |
나. 데이터 마이닝
- 방대한 데이터를 다양한 관점에서 분석하여 숨어 있던 패턴과 상관성을 통계적 기법으로 식별해내 가치를 부여, 숫자가 아닌 데이터도 처리한다는 점에서 통계분석과 차이
- 일반적으로 분류, 예측, 연관, 군집화를 위해 활용
분류 | 예측 | 연관 | 군집화 | |
개념 | 다수의 속성을 가지는 개체를 사전에 정의된 그룹이나 범주 중의 하나로 분류하기 위해 사용 | 미래에 예상되는 결과를 예측하기 위해 사용되는 모형으로, 입력 데이터의 성격에 따라 방법론을 결정 | 일련의 거래 또는 사건들 간의 규칙을 발견해 조건과 반응의 형태로 분석 결과의 연관성을 파악 | 주어진 데이터들의 특성을 고려해 비슷한 특성을 가진 데이터들을 소그룹으로 묶는 방법 |
분류 | 예측 | 연관 | 군집화 | |
기법과 알고리즘 | 로지스틱 회귀 의사결정 나무 서포트 벡터 머신 나이브 베이즈 K-최근접 이웃 인공신경망 |
회귀분석 장바구니분석 시계열 분석 의사결정나무 인공신경망 K-최근접 이웃 |
연관성 분석 순차패턴 분석 |
군집분석 K-means 클러스터링 기대최대화 |
다. 머신러닝
- 인공지능 분야에서 인간의 학습을 모델링한 것으로 빅데이터 분석을 포함한 패턴 인식 등 다양한 분야에서 기본적으로 많이 활용되는 기법
- 데이터 마이닝과는 데이터의 패턴을 발견하는 핵심 알고리즘에서는 동일하나 데이터 마이닝과는 기계가 데이터 모델의 매개 변수를 자동으로 학습한다는 점에서 차이가 있음
- 데이터를 모델링하는 알고리즘은 여러 가지가 있으며 대부분 지도학습, 비지도학습, 강화학습 세 가지로 분류
- 지도학습
- 입력 데이터와원하는 출력값을 모두 제공하면서 기계를 훈련
- 분류와 예측 모델을 만드는데 주로 이용
- 비지도학습
- 데이터에 표식이 붙어 있지 않은 경우로 학습 데이터 없이 입력 데이터만을 이용하여 학습을 하는 형태
- 정확한 답이 없어도 기계가 자체적으로 데이터 속의 패턴을 찾아내고 의미를 추론해야함
- 군집화, 차원축소, 연관성 분석으로 나뉘어짐
- 강화학습
- 주어진 입력값에 대한 출력값의 정답이 주어지지 않은 상태에서 일련의 행동의 결과에 대한 보상이 주어지게 되며, 시스템은 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하며 학습을 진행, 경험과 시행착오를 통해 얻어진 데이터를 기반으로 알고리즘이 모델을 지속적으로 개선하는 방식
라. 비정형 데이터 분석
- 인공지능 분야에서 인간의 학습을 모델링한 것으로 빅데이터 분석을 포함한 패턴 인식 등 다양한 분야에서 기본적으로 많이 활용되는 기법
- 빅데이터에서 처리하는 데이터는 정형 데이터, 반정형 데이터, 비정형 데이터로 분류
- 비정형 데이터
- 텍스트 마이닝
- 오피니언 마이닝
- 소셜 네트워크 분석
2. 분석모형 선정
가. 분석모형 선정 기준
- 목적을 명확히 규명
- 종속 변수의 존재 파악
- 종속 변수의 종류 파악
나. 데이터 활용 목적에 따른 모델
목적 | 작업유형 | 설명 | 사용기법 | 알고리즘 | 학습기법 |
예측 | 분류규칙 | 가장 많이 활용되는 작업, 과거 데이터로부터 분류모형을 만들어 이를 토대로 새로운 레코드의 결과값을 예측하는 것 | 판별분석 의사결정나무 신경망 |
로지스틱회귀 의사결정나무 신경망 K-최근접이웃 서포트 벡터 머신 나이브 베이즈 |
지도학습 |
회귀분석 | 독립변수를 이용해 종속변수와의 선형 함수식을 세우고 새로운 값에 대해서 예측하는 형태의 문제를 적용 | 선형회귀 인공신경망 SVM K-NN |
지도학습 | ||
시계열분석 | 통계숫자를 시간의 흐름에 따라 일정한 간격마다 기록한 시계열 데이터에 바탕을 둔 분석 방법 | 자기상관법 ARIMA |
지도학습 | ||
서술 | 연관규칙 | 방대한 데이터셋에서 객체나 아이템 사이의 연관관계를 찾아 내는 것 | 연관성분석 | 아프리오리 빈출패턴 성장 |
비지도학습 |
연속규칙 | 연관 규칙에 시간 관련 정보가 포함된 데이터의 이력속성이 반드시 필요 | 순차패턴분석 | 아프리오리 FP-Growth |
비지도학습 | |
데이터 군집화 | 데이터를 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업으로 작업의 특성이 분류규칙과 유사하나 분석대상 데이터에 결과값이 없음 | K-Means클러스터링 기대최대화 |
비지도학습 | ||
차원축소 | 주어진 변수 셋을 효과적으로 설명 가능한 더 적은 수의 대표적인 변수들로 요약 | 주성분분석 커널PCA |
비지도학습 |
3. 분석모형 정의
- 빅데이터 분석에서 모형을 정의하기 위해서는 목적에 맞는 분석기법을 선택하고 모형 개발에 적합한 데이터를 선정해야 한다.
- 일반적으로 훈련 데이터셋과 검증 데이터셋, 평가 데이터 셋으로 나누어 모형을 정의한다.
4. 분석모형 구축 절차
- 빅데이터 분석 모형 구축은 분석 데이터 수집 및 처리, 분석 알고리즘 수행, 분석결과 평가 및 모형 선정의 순서로 이루어짐
가. 분석 데이터 수집/처리
- 분석 데이터 마트 구성
- 빅데이터 분석 데이터 마트를 구성하기 위해서는 분석 목적에 대한 이해와 어떤 데이터가 목적에 적합한 결과를 도출할 수 있는지를 사전에 검토한 후 데이터 항목 정의를 하고 해당 항목에 대한 데이터를 수집
- 필요한 데이터는 분석가의 판단과 함께 기존에 수행한 분석 사례를 확인하여 유사한 모델이 있는지 검토(해당 모델에서 사용한 데이터 포함)
- 분석 데이터 현황 분석
- 빅데이터 모형 구축에 사용될 데이터가 선정되었으면 해당 데이터에 어떤 변수가 있는지, 형태는 어떤지 모델링에 앞서 탐색을 실시
- 데이터 충실도, 데이터 이상값, 데이터 분포도, 데이터 오류율 등을 파악
나. 분석 알고리즘 수행
- 분석 목적
- 데이터 마이닝과 머신러닝의 핵심 알고리즘은 거의 동일. 분석의 목적이 미래의 결과예측인가 혹은 현상을 이해하기 위함이냐에 따라 수행하는 알고리즘을 다르게 적용
- 지도학습 알고맂므은 미래 사건의 결과를 예측하는 모델을 만드는데 활용, 비지도 학습방식은 반응변수에 대한 사전 정보 없이 학습을 진행하므로 유용한 정보와 패턴을 탐색적으로 발견하고자 할때 활용
- 데이터 유형
- RDBMS의 정형 데이터를 비롯해 소셜데이터, 센서데이터 등 다양한 유형의 빅데이터를 분석
데이터 유형 | 고려 알고리즘 |
정형화된 컬럼데이터 | 데이터 마이닝 알고리즘 (지도 학습, 비지도 학습) |
텍스트 데이터 | 텍스트 마이닝 알고리즘 (자연어 처리, 형태소 분석) |
링크드 데이터 | 그래프 기반 분석 알고리즘 (네트워크 분석, 밀도 분석 알고리즘) |
이미지 데이터 (영상, 그림 파일 등) |
딥러닝 알고리즘 등 (DNN, CNN, RNN) |
- 분석 알고리즘 수행 절차: 데이터 셋 준비 => 파라미터 설정 및 조정 => 분석 결과 기록 => 분석 결과 평가 및 모델 선정
- 분석 모형 구축 절차: 요건 정의 => 모델링 => 검증 및 테스트 => 적용
5. 데이터 분할
- 분석 모델의 과합과 일반화를 위해 분석 데이터셋을 모델 개발을 위한 훈련데이터와 모델의 검증력을 평가하기 위한 평가 데이터로 나누는 것을 말한다.
- 데이터 분류
- 훈련 데이터셋, 평가용 데이터셋, 검증 데이터셋으로 분류
- 훈련 데이터셋
- 가장 큰 데이터셋, 구축용 데이터라고도 불리며 빅데이터 분석모형을 구축하기 위해 사용
- 전체 분석 데이터의 50%를 훈련 데이터로 분할
- 평가 데이터셋
- 훈련 데이터셋의 성과를 평가하기 위해 사용. 즉, 모형이 얼마나 적합한지 모형의 성능을 평가하며 평가 데이터나 과거 데이터를 주로 활용
- 전체 분석 데이터의 20%를 평가 데이터로 분할
- 검증 데이터셋
- 과대추정 또는 과소추정을 미세 조정 하는데 활용하며 선택된 모델의 성능을 평가하는데 새로운 데이터, 즉 검증 데이터 셋을 이용
- 전체 분석 데이터의 30%를 검증 데이터로 분할
- 데이터가 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우
- 홀드아웃 방법, 교차검증 방법
- 데이터 분할 절차
- 훈련 데이터를 활용한 분석모형 모델링 => 평가 데이터로 모형 성능평가 => 최적 분석모형 선정
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 3-3 정형 데이터 분석기법 (0) | 2024.08.16 |
---|---|
[빅데이터분석기사 필기] 3-2 통계 분석기법 (0) | 2024.08.16 |
[빅데이터분석기사 필기] 2-3 통계기법의 이해 (0) | 2024.08.11 |
[빅데이터분석기사 필기] 2-2 데이터 탐색 (0) | 2024.08.11 |
[빅데이터분석기사 필기] 2-1 데이터 전처리 (0) | 2024.08.10 |