1. 데이터 분석 기획의 방향
가. 분석기획 이란
- 분석 기획: 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
- 데이터 사이언티스트의 필요 역량
- Math & Statistics
- InformationTechnology
- Domain Knowledge
나. 분석의 유형
- Optimization(최적화): 분석 대상과 분석 방법을 이해하여 현 문제를 최적화 형태로 수행 (분석대상 o, 분석 방법 o)
- Solution(솔루션): 분석 대상을 잘 알고 있지만 분석 방법을 모를 경우 솔루션을 찾아서 분석 (분석대상 o, 분석 방법 x)
- Insight(통찰): 분석 대상에 대해서는 명확히 알 수 없지만 분석 방법을 잘 알고 잇다면 인사이트를 도출 가능 (분석대상 x, 분석 방법 o)
- Discovery(탐색): 분석 대상과 방법 모두 잘 알지 못하는 경우 탐색을 통해 분석 대상 자체를 새롭게 도출 (분석대상 x, 분석 방법 x)
다. 목표시점별 분석 기획 방안
- "과제 중심 접근방식"과 "장기적인 마스터 플랜방식"으로 나뉘어짐
- 마스터 플랜 방식: 장기적인 관점에서 데이터를 바라보며 전체 문제에 대한 정확한 정의를 내리고, 효율적인 자원 배치 및 관리
- 과제 중심 방식: 좁은 범위의 특정 주제에 대해 테스트를 실행하여 빠르게 문제를 진단하고 해결하기 위한 방법
2. 분석 마스터 플랜 수립 프레임워크
가. 분석 마스터 플랜 수립 개요
- 우선순위 고려요소
- 전략적 중요도
- 비즈니스 성과/ROI
- 실행 용이성
- 적용범위 / 방식 고려요소
- 업무 내재화 적용 수준
- 분석 데이터 적용 수준
- 기술 적용 수준
3. 거버넌스 체계
가. 개요
- 기업에서 데이터를 이용한 의사결정이 강조될수록 데이터 분석과 활용을 위한 체계적인 관리가 중요. 어떤 목적으로 어떤 데이터를 어떻게 분석에 활용할 것인지가 더욱 중요하기 때문.
나. 구성요소
- Process과제 기획 및 운영 프로세스
- System분석관련시스템
- Data데이터
- Human Resource 분석교육/마인드 육성체계
- Organization 분식기획 및 관리 수행 조직
4. 데이터 분석 수준진단
- 분석 준비도
- 분석 업무
- 분석 인력, 조직
- 분석 기법
- 분석 데이터
- 분석 문화
- 분석 인프라
- 분석 성숙도
- 성숙도 수준 분류: 도입 => 활용 => 확산 => 최적화
- 분석 성숙도 진단 분류: 비즈니스 부문, 조직역량 부문, IT부문
5. 분석 과제 발굴 및 문제 정의
가. 하향식 접근법
- 하향식 분석 접근법은 현황 분석을 통해 기회나 문제를 탐색하고, 해당 문제를 정의, 해결방안을 탐색한다. 그리고 데이터 분석에 대한 타당성 평가를 거쳐 분석과제를 도출하는 과정으로 구성된다.
- 과정별 단계
- 문제 탐색 단계 - 하향식 접근법 1단계
- 전체적인 관간점의 기준 모델인 기업 내외부 환경을 포괄하는 모델과 외부 참조모델을 활용하여 존재하는 모든 문제를 빠짐없이 식별하고 도출
- 비즈니스 모델 캔버스를 활용 (업무, 제품, 고객, 규제와 감사, 자원 인프라)
- 거시적 관점의 메가트렌드 => Social, Technological, Economic, Environmental, Political
- 문제 정의 단계 - 하향식 접근법 2단계
- 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계
- 1단계가 What, Why를 수행하는 단계였다면 2단계는 데이터 및 기법(How)를 정의하기 위한 데이터 분석의 문제로의 변환 수행
- 해결방안 탐색 단계 - 하향식 접근법 3단계
- 정의된 데이터 분석 문제를 해결하기 위한 다양한 방법이 모색
- 타당성 검토 - 하향식 접근법 4단계
- 경제적, 데이터 및 기술적 타당성을 검증함
- 문제 탐색 단계 - 하향식 접근법 1단계
나. 상향식 접근법
- 하향식 접근법과는 다르게 기업에서 보유하고 있는 다양한 원천 데이터로 부터 분석을 통하여 통찰력과 지식을 얻는 방법
다. 비지도 학습과 지도 학습
- 비지도 학습
- 일반적으로 상향식 접근 방식의 데이터 분석에 사용
- 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합,연관성,유사성 등을 중심으로 데이터의 상태를 표현하는 것이다.
- ex) 장바구니 분석, 군집분석, 기술통계 및 프로파일링
- 지도 학습
- 명확한 목적 하에 데이터분석을 실시하는 것. 분류, 추측, 예측, 최적화를 통해 사용자의 주도하에 분석을 실시하고 지식을 도출하는 것이 목적
- 상관관계 분석 또는 연관분석을 통하여 다양한 문제에 도움을 줄 수 있음
라. 프로토타이핑 방법론
- 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해 보고 그 결과를 확인해 가면 점진적으로 개선해나가는 방법
- 데이터 분석 환경이 완벽하지 않아도 활용 가능
6. 데이터 분석 방안
가. 분석 방법론 개요
- 데이터 분석이 효과적으로 정착하기 위한 체계화한 절차와 방법이 정리된 데이터 분석의 방법론 수립이 필수적
- 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성
- 데이터 기반 의사결정 장애요소 : 고정 관념, 편향된 생각, 프레이밍 효과
나. 방법론의 모델 종류
- 폭포수 모델
- 프로토타입 모델
- 나선형 모델
다. 빅데이터 분석 방법론의 계층적 프로세스
구성 | 내용 | 산출물 |
단계 | 최상위 계층으로서 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 각 단계는 기준선으로 설정되어 관리되어야 하며, 버전관리 등을 통하여 통제 | 단계별 완료 보고서 |
테스크 | 단계를 구성하는 단위 활동으로써 물리적 또는 논리적 단위로 품질검토의 항목이 됨 | 보고서 |
스텝 | WBS의 워크 패키지에 해당, 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스 | 보고서 구성요소 |
라. 일반적인 빅데이터 분석 방법론
1) 분석기획(Planning)
- 비즈니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립
2) 데이터 준비(Preparing)
- 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계
- 필요한 데이터를 수집하고 수집한 데이터에 대한 정합성을 점검
3) 데이터 분석(Analyzing)
- 원천 데이터를 분석용 데이터 셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석하는 단계
- 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백하여 두단계를 반복 진행
4) 시스템 구현(Developing)
- 분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용하거나 시스템 개발을 위한 사전 검증으로 프로토타입 시스템 구현
- 프로토타입 검증 후 시스템 수정 및 보완을 반복하여 최종 시스템 구현
5) 평가 및 전개(Deploying)
- 데이터 분석 및 시스템 구현 단계를 수행 후 프로젝트 성과를 평가하고 정리, 프로젝트를 종료하는 단계
마. KDD 분석 방법론
- KDD는 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스로 데이터 마이닝, 기계학습, 인공지능 등에서 응용될 수 있는 구조를 갖고 있음
- KDD 분석 절차
- 데이터셋 선택(Data Set Selection)
- 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 완료된 상태라면, 그 이후 첫 단계는 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 것
- 데이터 마이닝에 필요한 목표데이터를 구성하여 분석에 활용
- 데이터 전처리(Data Preprocessing)
- 추출된 분석 대상 데이터셋에 포함되어 있는 잡음과 이상치, 결측치를 식별, 필요시 제거하거나 재처리하여 데이터셋을 정제하는 과정
- 전처리 단계에서 추가로 요구되는 데이터셋이 파악된다면, 데이터셋 선택 프로세스를 재실행한 후 전처리 과정을 수행
- 데이터 변환(Data Transformation)
- 데이터 전처리 과정을 통해 정제된 데이터셋에서 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 자원을 축소하여 효율적인 데이터 마이닝을 실행할 수 잇도록 데이터를 변경
- 데이터 마이닝을 위해 학습용 데이터와 검증용 데이터를 분리하는 과정도 포함
- 데이터 마이닝(Data Mining)
- 학습용 데이터를 이용해서 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 적절한 알고리즘을 적용하여 데이터 마이닝을 실행
- 필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적의 결과를 산출
- 데이터 마이닝 결과 평가(Evaluation)
- 데이터 마이닝 결과에 대한 해석과 평가 그리고 분석 목적과의 일치성을 확인
- 필요에 따라 데이터에 선택 프로세스에서 데이터 마이닝 프로세스를 반복 수행
- 데이터셋 선택(Data Set Selection)
사. CRISP-DM 분석 방법론
- 1996년 유럽연합의 ESPRIT에서 시작, 계층적 프로세스 모델로서 4개의 레벨로 구성
- CRISP-DM의 프로세스
- CRISP-DM 프로세스는 6단계로 구성되어 있으며 각 단계는 KDD 방법론과는 달리 단방향으로 구성되어 있지 않고 단계 간 피드백을 통해 단계별 완성도를 높임
단계 | 내용 | 수행업무 |
업무이해 (Business Understading) |
- 비즈니스 관점에서 프로젝트 목적과 요구사항을 이해 - 도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트를 수립하는 단계 |
업무 목적 파악, 상황 파악, 데이터 마이닝 목표설정, 프로젝트 계획 수립 |
데이터 이해 (Data Understanding) |
- 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정 - 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견 |
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 |
데이터 준비 (Data Preparation) |
- 분석기법에 적합한 데이터를 편성하는 단계(많은 시간 소요) | 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷 |
모델링 (Modeling) |
- 다양한 모델링 기법과 알고리즘을 선택, 모델링 과정에 사용되는 파라미터를 최적화 - 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행 |
모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평 |
평가 (Evaluation) |
- 모델링 결과가 프로젝트 목적에 부합하는지 평가, 마이닝 결과를 최종적으로 수용할 것인지를 판단 | 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가 |
전개 (Deployment) |
- 모델링과 평가 단계를 통해 완성된 모델은 실 업무에 적용하기 위한 계획을 수립 | 전개 계획 수립, 모니터링과 유지보수 계획 수 |
아. KDD와 CRISP-DM의 단계 비교
KDD | CRISP-DM |
분석대상 비즈니스 이해 | 업무이해 |
데이터셋 선택(Data Selection) | 데이터의 이해 |
데이터 전처리(Preprocessing) | |
데이터 변환(Transformation) | 데이터 준비 |
데이터 마이닝(Data Mining) | 모델링 |
데이터 마이닝 결과 평가(Interpretation / Evaluation) | 평가 |
데이터 마이닝 활용 | 전개 |
자. SEMMA 분석 방법론
- SEMMA는 SAS사의 주도로 만들어진 데이터 마이닝 방법론으로 기술 중심, 통계 중심의 방법론이다.
- 주요 5단계는 샘플링 => 탐색 => 수정 => 모델링 => 검증으로 이루어짐
- 분석 절차
단계 | 내용 | 세부요소/산출물 |
샘플링 (Sampling) |
- 분석 데이터의 생성 - 모델 평가용 데이터 준비 |
- 통계적 추출 - 조건 추출 |
탐색 (Exploration) |
- 분석 데이터 탐색 - 데이터의 오류 검색 - 비즈니스에 대한 이해 - 이상 현상 및 변화 탐색 |
- 그래프, 기초 통계 - 클러스터링 - 변수 유의성 및 상관 분석 |
수정 (Modification) |
- 분석 데이터 수정 및 변환 - 데이터 정보 표현의 극대화 - 다양한 형태의 변수 생성, 선택, 변형 |
수량화, 표준화, 변환, 그룹화 |
모델링 (Modeling) |
- 다양한 통계기법을 이용한 모델 구축 패턴 발견 - 모델링과 알고리즘 적용 |
신경망, 의사결정나무, 로지스틱 회귀, 통계기법 |
검증 (Assessment) |
- 모델 평가 및 검증 - 서로 다른 모델 동시 비교 - 다음 단계 결정 |
보고서, 피드백, 모델 검증 자료 |
7. 데이터 확보 계획
- 목표 정의
- 구체적인 성과목표 정의
- 성과목표 달성 여부를 측정하기 위한 성과 지표 개발
- 요구사항 도출
- 요구사항을 반영하여 필요 데이터에 대한 확보 계획을 설정
- 데이터의 전처리 및 정제 수준, 데이터의 저장 및 관리 형태를 정의
- 기존의 시스템 및 분석 도구에 대한 활용 가능성 파악, 필요한 경우 추가적으로 장비 및 서비스 이용에 대한 계획 마련
- 예산안 수립
- 데이터 확보에 필요한 비용 계산
- 계획 수립
- 일반적인 프로젝트 관리 방침을 기반으로 인력 및 자원 활용에 대한 방안 마련
- 프로젝트 범위 정의서와 빅데이터 분석 프로젝트 지시서, 소요비용 배분계획 등을 중심으로 데이터 분석 작업 절차를 고려하는 것이 바람직
8. 빅데이터 분석 절차
- 분석 기획
- 비즈니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 데이터 준비
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 점검
- 데이터 분석
- 분석용 데이터 준비
- 모델링
- 모델 평가 및 검증
- 모델 적용 및 운영방안 수립
- 텍스트, 탐색적 분석
- 시스템 구현
- 설계 및 구현
- 시스템 테스트 및 운영
- 평가 및 전개
- 모델 발전계획 수립
- 프로젝트 평가 및 보
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 2-3 통계기법의 이해 (0) | 2024.08.11 |
---|---|
[빅데이터분석기사 필기] 2-2 데이터 탐색 (0) | 2024.08.11 |
[빅데이터분석기사 필기] 2-1 데이터 전처리 (0) | 2024.08.10 |
[빅데이터분석기사 필기] 1-3 데이터 수집 및 저장 계획 (0) | 2024.08.07 |
[빅데이터분석기사 필기] 1-1 빅데이터의 이해 (0) | 2024.08.03 |