본문 바로가기
빅데이터분석기사

[빅데이터분석기사 필기] 1-2 데이터 분석 계획

by 아마도개발자 2024. 8. 4.

 

 

1. 데이터 분석 기획의 방향

 

가. 분석기획 이란

  • 분석 기획: 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
  • 데이터 사이언티스트의 필요 역량
    • Math & Statistics
    • InformationTechnology
    • Domain Knowledge

나. 분석의 유형

  • Optimization(최적화): 분석  대상과 분석 방법을 이해하여 현 문제를 최적화 형태로 수행 (분석대상 o, 분석 방법 o)
  • Solution(솔루션): 분석 대상을 잘 알고 있지만 분석 방법을 모를 경우 솔루션을 찾아서 분석 (분석대상 o, 분석 방법 x)
  • Insight(통찰): 분석 대상에 대해서는 명확히 알 수 없지만 분석 방법을 잘 알고 잇다면 인사이트를 도출 가능 (분석대상 x, 분석 방법 o)
  • Discovery(탐색): 분석 대상과 방법 모두 잘 알지 못하는 경우 탐색을 통해 분석 대상 자체를 새롭게 도출 (분석대상 x, 분석 방법 x)

다. 목표시점별 분석 기획 방안

  • "과제 중심 접근방식"과 "장기적인 마스터 플랜방식"으로 나뉘어짐
  • 마스터 플랜 방식: 장기적인 관점에서 데이터를 바라보며 전체 문제에 대한 정확한 정의를 내리고, 효율적인 자원 배치 및 관리
  • 과제 중심 방식: 좁은 범위의 특정 주제에 대해 테스트를 실행하여 빠르게 문제를 진단하고 해결하기 위한 방법

 

2. 분석 마스터 플랜 수립 프레임워크

가. 분석 마스터 플랜 수립 개요

  • 우선순위 고려요소
    • 전략적 중요도
    • 비즈니스 성과/ROI
    • 실행 용이성
  • 적용범위 / 방식 고려요소
    • 업무 내재화 적용 수준
    • 분석 데이터 적용 수준
    • 기술 적용 수준

3. 거버넌스 체계

가. 개요

  • 기업에서 데이터를 이용한 의사결정이 강조될수록 데이터 분석과 활용을 위한 체계적인 관리가 중요. 어떤 목적으로 어떤 데이터를 어떻게 분석에 활용할 것인지가 더욱 중요하기 때문. 

나. 구성요소

  • Process과제 기획 및 운영 프로세스
  • System분석관련시스템
  • Data데이터
  • Human Resource 분석교육/마인드 육성체계
  • Organization 분식기획 및 관리 수행 조직

4. 데이터 분석 수준진단

  • 분석 준비도
    • 분석 업무
    • 분석 인력, 조직
    • 분석 기법
    • 분석 데이터
    • 분석 문화
    • 분석 인프라
  • 분석 성숙도
    • 성숙도 수준 분류: 도입 => 활용 => 확산 => 최적화
    • 분석 성숙도 진단 분류: 비즈니스 부문, 조직역량 부문, IT부문

 

5. 분석 과제 발굴 및 문제 정의

가. 하향식 접근법

  • 하향식 분석 접근법은 현황 분석을 통해 기회나 문제를 탐색하고, 해당 문제를 정의, 해결방안을 탐색한다. 그리고 데이터 분석에 대한 타당성 평가를 거쳐 분석과제를 도출하는 과정으로 구성된다.
  • 과정별 단계
    • 문제 탐색 단계 - 하향식 접근법 1단계
      • 전체적인 관간점의 기준 모델인 기업 내외부 환경을 포괄하는 모델과 외부 참조모델을 활용하여 존재하는 모든 문제를 빠짐없이 식별하고 도출
      • 비즈니스 모델 캔버스를 활용 (업무, 제품, 고객, 규제와 감사, 자원 인프라)
      • 거시적 관점의 메가트렌드 => Social, Technological, Economic, Environmental, Political
    • 문제 정의 단계 - 하향식 접근법 2단계
      • 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
      • 1단계가 What, Why를 수행하는 단계였다면 2단계는 데이터 및 기법(How)를 정의하기 위한 데이터 분석의 문제로의 변환 수행
    • 해결방안 탐색 단계 - 하향식 접근법 3단계
      • 정의된 데이터 분석 문제를 해결하기 위한 다양한 방법이 모색
    • 타당성 검토 - 하향식 접근법 4단계
      • 경제적, 데이터 및 기술적 타당성을 검증함

나. 상향식 접근법

  • 하향식 접근법과는 다르게 기업에서 보유하고 있는 다양한 원천 데이터로 부터 분석을 통하여 통찰력과 지식을 얻는 방법

다. 비지도 학습과 지도 학습

  • 비지도 학습
    • 일반적으로 상향식 접근 방식의 데이터 분석에 사용
    • 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합,연관성,유사성 등을 중심으로 데이터의 상태를 표현하는 것이다.
    • ex) 장바구니 분석, 군집분석, 기술통계 및 프로파일링
  • 지도 학습
    • 명확한 목적 하에 데이터분석을 실시하는 것. 분류, 추측, 예측, 최적화를 통해 사용자의 주도하에 분석을 실시하고 지식을 도출하는 것이 목적
    • 상관관계 분석 또는 연관분석을 통하여 다양한 문제에 도움을 줄 수 있음

라. 프로토타이핑 방법론

  • 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해 보고 그 결과를 확인해 가면 점진적으로 개선해나가는 방법
  • 데이터 분석 환경이 완벽하지 않아도 활용 가능

 

6. 데이터 분석 방안

가. 분석 방법론 개요

  • 데이터 분석이 효과적으로 정착하기 위한 체계화한 절차와 방법이 정리된 데이터 분석의 방법론 수립이 필수적
  • 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성
  • 데이터 기반 의사결정 장애요소 : 고정 관념, 편향된 생각, 프레이밍 효과

나. 방법론의 모델 종류

  • 폭포수 모델
  • 프로토타입 모델
  • 나선형 모델

다. 빅데이터 분석 방법론의 계층적 프로세스

구성 내용 산출물
단계 최상위 계층으로서 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 각 단계는 기준선으로 설정되어 관리되어야 하며, 버전관리 등을 통하여 통제 단계별 완료 보고서
테스크 단계를 구성하는 단위 활동으로써 물리적 또는 논리적 단위로 품질검토의 항목이 됨 보고서
스텝 WBS의 워크 패키지에 해당, 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 보고서 구성요소

 

라. 일반적인 빅데이터 분석 방법론

 

1) 분석기획(Planning)

  • 비즈니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립

2) 데이터 준비(Preparing)

  • 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계
  • 필요한 데이터를 수집하고 수집한 데이터에 대한 정합성을 점검

3) 데이터 분석(Analyzing)

  • 원천 데이터를 분석용 데이터 셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석하는 단계
  • 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백하여 두단계를 반복 진행

4) 시스템 구현(Developing)

  • 분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용하거나 시스템 개발을 위한 사전 검증으로 프로토타입 시스템 구현
  • 프로토타입 검증 후 시스템 수정 및 보완을 반복하여 최종 시스템 구현

5) 평가 및 전개(Deploying)

  • 데이터 분석 및 시스템 구현 단계를 수행 후 프로젝트 성과를 평가하고 정리, 프로젝트를 종료하는 단계

마. KDD 분석 방법론

  • KDD는 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스로 데이터 마이닝, 기계학습, 인공지능 등에서 응용될 수 있는 구조를 갖고 있음
  • KDD 분석 절차
    1. 데이터셋 선택(Data Set Selection)
      • 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 완료된 상태라면, 그 이후 첫 단계는 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 것
      • 데이터 마이닝에 필요한 목표데이터를 구성하여 분석에 활용
    2. 데이터 전처리(Data Preprocessing)
      • 추출된 분석 대상 데이터셋에 포함되어 있는 잡음과 이상치, 결측치를 식별, 필요시 제거하거나 재처리하여 데이터셋을 정제하는 과정
      • 전처리 단계에서 추가로 요구되는 데이터셋이 파악된다면, 데이터셋 선택 프로세스를 재실행한 후 전처리 과정을 수행
    3. 데이터 변환(Data Transformation)
      • 데이터 전처리 과정을 통해 정제된 데이터셋에서 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 자원을 축소하여 효율적인 데이터 마이닝을 실행할 수 잇도록 데이터를 변경
      • 데이터 마이닝을 위해 학습용 데이터와 검증용 데이터를 분리하는 과정도 포함
    4. 데이터 마이닝(Data Mining)
      • 학습용 데이터를 이용해서 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 적절한 알고리즘을 적용하여 데이터 마이닝을 실행
      • 필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적의 결과를 산출
    5. 데이터 마이닝 결과 평가(Evaluation)
      • 데이터 마이닝 결과에 대한 해석과 평가 그리고 분석 목적과의 일치성을 확인
      • 필요에 따라 데이터에 선택 프로세스에서 데이터 마이닝 프로세스를 반복 수행

사. CRISP-DM 분석 방법론

  • 1996년 유럽연합의 ESPRIT에서 시작, 계층적 프로세스 모델로서 4개의 레벨로 구성
  • CRISP-DM의 프로세스
    • CRISP-DM 프로세스는 6단계로 구성되어 있으며 각 단계는 KDD 방법론과는 달리 단방향으로 구성되어 있지 않고 단계 간 피드백을 통해 단계별 완성도를 높임
단계 내용 수행업무
업무이해
(Business Understading)
- 비즈니스 관점에서 프로젝트 목적과 요구사항을 이해
- 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트를 수립하는 단계
업무 목적 파악, 상황 파악, 데이터 마이닝 목표설정, 프로젝트 계획 수립
데이터 이해
(Data Understanding)
- 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정
- 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
데이터 준비
(Data Preparation)
- 분석기법에 적합한 데이터를 편성하는 단계(많은 시간 소요) 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷
모델링
(Modeling)
- 다양한 모델링 기법과 알고리즘을 선택, 모델링 과정에 사용되는 파라미터를 최적화
- 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행
모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평
평가
(Evaluation)
- 모델링 결과가 프로젝트 목적에 부합하는지 평가, 마이닝 결과를 최종적으로 수용할 것인지를 판단 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
전개
(Deployment)
- 모델링과 평가 단계를 통해 완성된 모델은 실 업무에 적용하기 위한 계획을 수립 전개 계획 수립, 모니터링과 유지보수 계획 수

 

아. KDD와 CRISP-DM의 단계 비교

KDD CRISP-DM
분석대상 비즈니스 이해 업무이해
데이터셋 선택(Data Selection) 데이터의 이해
데이터 전처리(Preprocessing)
데이터 변환(Transformation) 데이터 준비
데이터 마이닝(Data Mining) 모델링
데이터 마이닝 결과 평가(Interpretation / Evaluation) 평가
데이터 마이닝 활용 전개

 

 

자. SEMMA 분석 방법론

  • SEMMA는 SAS사의 주도로 만들어진 데이터 마이닝 방법론으로 기술 중심, 통계 중심의 방법론이다.
  • 주요 5단계는 샘플링 => 탐색 => 수정 => 모델링 => 검증으로 이루어짐
  • 분석 절차
단계 내용 세부요소/산출물
샘플링
(Sampling)
- 분석 데이터의 생성
- 모델 평가용 데이터 준비
- 통계적 추출
- 조건 추출
탐색
(Exploration)
- 분석 데이터 탐색
- 데이터의 오류 검색
- 비즈니스에 대한 이해
- 이상 현상 및 변화 탐색
- 그래프, 기초 통계
- 클러스터링
- 변수 유의성 및 상관 분석
수정
(Modification)
- 분석 데이터 수정 및 변환
- 데이터 정보 표현의 극대화
- 다양한 형태의 변수 생성, 선택, 변형
수량화, 표준화, 변환, 그룹화
모델링
(Modeling)
- 다양한 통계기법을 이용한 모델 구축 패턴 발견
- 모델링과 알고리즘 적용
신경망, 의사결정나무, 로지스틱 회귀, 통계기법
검증
(Assessment)
- 모델 평가 및 검증
- 서로 다른  모델 동시 비교
- 다음 단계 결정

보고서, 피드백, 모델 검증 자료

 

7. 데이터 확보 계획

  • 목표 정의
    • 구체적인 성과목표 정의
    • 성과목표 달성 여부를 측정하기 위한 성과 지표 개발
  • 요구사항 도출
    • 요구사항을 반영하여 필요 데이터에 대한 확보 계획을 설정
    • 데이터의 전처리 및 정제 수준, 데이터의 저장 및 관리 형태를 정의
    • 기존의 시스템 및 분석 도구에 대한 활용 가능성 파악, 필요한 경우 추가적으로 장비 및 서비스 이용에 대한 계획 마련
  • 예산안 수립
    • 데이터 확보에 필요한 비용 계산
  • 계획 수립
    • 일반적인 프로젝트 관리 방침을 기반으로 인력 및 자원 활용에 대한 방안 마련
    • 프로젝트 범위 정의서와 빅데이터 분석 프로젝트 지시서, 소요비용 배분계획 등을 중심으로 데이터 분석 작업 절차를 고려하는 것이 바람직

 

8. 빅데이터 분석 절차

  • 분석 기획
    • 비즈니스 이해 및 범위 설정
    • 프로젝트 정의 및 계획 수립
  • 데이터 준비
    • 필요 데이터 정의
    • 데이터 스토어 설계
    • 데이터 수집 및 정합성 점검
  • 데이터 분석
    • 분석용 데이터 준비
    • 모델링
    • 모델 평가 및 검증
    • 모델 적용 및 운영방안 수립
    • 텍스트, 탐색적 분석
  • 시스템 구현
    • 설계 및 구현
    • 시스템 테스트 및 운영
  • 평가 및 전개
    • 모델 발전계획 수립
    • 프로젝트 평가 및 보