1. 분석모형 해석
가. 데이터 시각화
- 시각화 개요
- 많은 조직이 앞서 살펴본 것처럼 분석 결과의 효과적인 해석 방법으로 또는 당면한 문제에 대해 효과적인 답을 찾고자 데이터 시각화 활용
- 데이터 시각화는 방대한 양의 데이터에 대한 이해를 돕기 위해 그림이나 도형 등의 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정
- 시각화 기능
- 분석 결과를 해석하는데 시각화의 설명, 탐색, 표현 세 가지 기능이 이용될 수 있다
- 데이터의 시각적 분석을 통해 데이터가 표현하고 있는 다양한 규칙과 패턴을 검증할 수 있음
- 데이터의 시각적표현은 데이터에 따라 변할 수 있는 일종의 시각적 차원으로 주로 크기, 색상, 위치, 네트워크, 시간, 다중표현기법을 기준으로 한다
- 시각화 요건
- 분석 결과의 의미를 효과적으로 전달하기 위해서는 시각적 결과물이 심미적인 형태와 기능적 요소가 조화를 이루어야 함
- 기능적 측면: 데이터 시각화를 정보전달과 설득에 효율적으로 적용하기 위한 원칙에 관한 것. 즉각적인 판단
- 심미적 측면: 데이터 시각화를 정보전달과 설득에 효과적으로 적용하기 위한 요건들에 관한 것. 결과물에 집중
- 시각화 유형
유형 | 설명 | 기법 |
시간 시각화 | - 시계열 데이터의 변화에 대한 패턴을 찾고 표현하는 방법 - 장기간에 걸친 변화나 경향을 추적 - 시간의 전후 관계를 감안하면 값의 의미를 더 분명하게 이해 가능 |
- 막대 그래프 - 산점도 - 선 그래프 - 계단식 그래프 - 영역 차트 |
분포 시각화 | - 분류에 따른 변화를 최대, 최소, 전체 분포 등으로 구분 - 전체에서 부분 간 관계를 설명 |
- 파이차트 - 도넛차트 - 트리맵 |
관계 시각화 | - 집단 간 상관관계를 확인하여 다른 수치의 변화 예측 | - 산점도 - 버블차트 - 히스토그램 |
- 시각화 절차
- 빅데이터 시각화는 구조화, 시각화, 시각표현 3단계로 진행
단계 | 설명 |
구조화 | - 데이터 시각화 목표를 설정하고 분석 결과를 토대로 데이터 표현 규칙과 패턴 탐색 - 시각화를 위한 요건 정의 후 사용자 시나리오를 작성하고 스토리를 구성하는 단계 - 데이터 수집 및 정제를 수집 및 탐색 => 분류 =>배열 => 재배열 4단계로 나눈 뒤 시각화에 초점 |
시각화 | - 주로 분석 도구에서 제공하는 그래프나 분석 도구의 특성에 따른 시각화 - 구조화 단계에서 정의된 시각화 요건, 스토리를 기반으로 적절한 시각화 도구와 기술을 선택하여 데이터 분석 정보의 시각화를 구현 |
시각표현 | - 시각화 의도를 강화해 전달하기 위해 분석 도구에서 만든 결과물에 그래픽 요소를 추가 - 최종 시각화 결과물이 구조화 단계에서 정한 목적과 의도에 맞게 구현되었는지를 확인하는 단계 |
2. 비즈니스 기여도 평가
가. 비즈니스 기여도 개요
- 비즈니스 기여도는 데이터 분석 결과를 활용하거나 실질적인 실행을 통해 얻게 되는 비즈니스 영향도와 효과의 긍정적 측면
나. 비즈니스 기여도 평가
- 기여도 분석의 필요성
- 기여도 분석이란 기업 비즈니스 성과와 가치 창출의 향상에 얼마나 기여했는지를 이해하는 과정
- 분석 모델링의 다양화에 따른 데이터 분석의 비즈니스 가치 효율을 증대시키는 것
- 비즈니스 기여도 평가 기법
- 투자 대비 효과를 정량화함으로써 평가
- 정량화 기법에는 총 소유 비용, 투자대비효과, 순현재가치, 내부수익률, 투자회수기간 등이 있음
기법 | 설명 |
총소유비용 (TCO) |
하나의 자산을 회득하려 할 때 주어진 기간 동안 모든 연관 비용을 고려할 수 있도록 확인하기 위해 사용 |
투자대비효과 (ROI) |
자본 투자에 따른 순 효과의 비율 |
순현재가치 (NPV) |
특정 시점의 투자금액과 매출금액의 차이를 이자율을 고려해 계산한 값 |
내부수익률 (IRR) |
순 현재가치를 0으로 만드는 할인률 |
투자회수기간 (PP) |
누계 투자금액과 매출금액의 합이 같아지는 기간 |
다. 비즈니스 기여도 평가 수행 준거
- 모델링 기법별 정량적 효과 측정
- 데이터 마이닝: 검출률이 증가하거나 향상도가 개선되어 발생되는 정량적 효과 제시
- 시뮬레이션: 처리량, 대기시간, 대기행렬의 감소를 통한 정량적 효과 제시
- 최적화: 보유한 자원으로 최대 성능을 낼 수 있는 최적의 해결책
- 비즈니스 수행 시 비용 요소 고려
- 빅데이터 프로젝트의 비용-효과 분석을 구축해 프로젝트의 비용과 비즈니스에 대한 잠재적 효과를 비교
3. 시공간 시각화
가. 시간 시각화
- 시계열 데이터 값의 변화에 대한 패턴을 찾고 표현하는방법
- 이산형 시계열 데이터: 막대 그래프, 누적 막대 그래프, 산점도 등 이산형 데이터 표현
- 연속형 시계열 데이터: 히스토그램, 선 그래프, 계단식그래프, 영역 차트
나. 공간 시각화
- 지구 표면에 위치하는 객체와 사건, 현상을 기록한 것으로 실세계에서 위치 정보를 포함
- 지리-공간 데이터를 매핑하는 방법에는 등치지역도, 도트 플롯맵, 버블 플롯맵, 등치 선도, 카토그램이 있음
4. 관계 시각화
- 다변량 데이터 사이에 존재하는 연관성, 분포와 패턴을 찾는 시각화 방법
- 한 수치의 변화를 통해 다른 수치의 변화를 예측하는데 산점도, 산점도 행렬, 버블차트 등의 관계시각화가 적합
5. 비교 시각화
- 많은 다변량 변수를 포함하는 자료의 경우, 관심 있는 변수를 선택해 변수의 관계를 살펴보거나 모든 변수를 고려한 상황에서 개체들을 비교하기 쉽지 않음
- 이를 해결하기 위해 다변량 변수를 갖는 자료를 제한된 2차원에 효과적으로 표현하는 방법으로 막대 그래프, 플로팅 바 차트, 히트맵, 체르노프페이스, 스타 차트, 평행 좌표 그래프 등이 있음
6. 인포 그래픽
- 중요한 핵심 정보를 하나의 그래픽으로 표현해 사람들이 손쉽게 해당 정보를 이해할 수 있도록 만든 그래픽 메시지
- 인포그래픽의 유형으로 지도형, 도표형, 타임라인/프로세스형, 스토리텔링형, 비교분석형 만화형이 있다.
7. 분석모형 전개
- 분석모형 개발 및 운영 절차에 따라 모델 성능 평가가 완료되면 이 프로세스의 마지막 과정은 완성된 모형을 실제 업무에 적용하기 위한 전개 단계
- 분석모형을 업무에 적용시키는 것뿐만 아니라 모니터링과 유지보수를 통한 지속적인 운영과 개선시키는 과정을 다루는 만큼 방대한 업무가 수행됨
가. 분석 모델 배포
- 분석 모델 전개는 배포라고도 한다. 배포는 분석 모델을 운영계 환경과 통합하고 이를 실행하는 것을 의미
- 조직이 동일한 프로젝트에서 다양한 언어로 개발된 모델의 성능을 평가하여 챔피언 모델을 선택 및 배포하는것이 이상적
나. 모델 배포 과정의 이슈
- 서로 다른 환경, 모델 저장소 부재, 성능 모니터링 부재, 규제 요구 사항 준수
다. 분석 모델 배포 과정
- 분석모형 적용 모듈 결정 => 분석모형 적용 방식 결정 및 구현
8. 분석결과 활용 시나리오
- 분석결과 활용 시나리오 개발 과정
- 분석결과 활용 가능 분야 파악 => 활용 가능 분야 분류 => 활용 가능 서비스 영역 도출 => 빅데이터 분석 서비스 모형 개발
- 분석 서비스 비즈니스 모델 개발
- 분석 서비스의 비즈니스 모델 정의
- 분석 결과 및 인사이트를 토대로 새롭게 서비스할 분석에 대한 비즈니스 모델을 정의하는데 비즈니스 모델 캔버스를 이용할 수 있음
- 분석 서비스의 시나리오 개발
- 분석 결과 활용 시나리오는 분석을 통한 인사이트를 사용자에게 효과적으로 전달하기 위해 도입하는 일종의 스토리텔링
- 활용 시나리오 도출 과정
- 사용자별 데이터세트 및 정보 => 사용자 시나리오 => 스토리보드 기획
- 분석 서비스의 비즈니스 모델 정의
9. 분셕결과 보고서 작성
가. 분석 보고서 개요
- 빅데이터 분석 기획 단계에서 작성된 분석 목표 정의서에는 단계별로 작성되어야 할 분석 보고서가 사전에 정의
나. 분석 보고서 유형
- 프로젝트 계획서, 데이터 탐색 보고서, 모델링 및 검증 보고서, 중간 및 최종 보고서, 성능 보고서, 운영 보고서
10. 분석모형 리모델링
가. 모형 리모델링 필요성
- 기존 모델의 성능 저하
- 데이터 분석 모델은 새로운 데이터를 사용해 정기적으로 모델을 훈련해야함.(하지 않을경우 성능 저하)
- 비즈니스 측면
- 비즈니스 측면에서 기존 분석 모델을 개선 필요
- 유효하지 않은 모델의 매립 시기 최적화 작업도 중요
나. 모형 리모델링 주기와 방안
- 모형 리모델링 주기
- 모형 리모델링 작업은 기존 분석모델에 대해서 데이터마이닝이나 시뮬레이션 또는 최적화를 추가 적용하는 과정을 진행 대개 분기, 반기, 연 단위로 수행
- 데이터 마이닝, 시뮬레이션, 최적화 기법 사용
- 모형 리모델링 방안
- 재학습, 수정, 교체 방법 사용
다. 분석 모델 재학습 및 수정
- 기존 모델의 성능 검토
- 기존 분석모델의 활용성을 분석하여 정확도, 재현율, 오분류율 등 모델 평가 지표에 대한 변화 여부를 점검하고 현황을 분석
- 개선용 데이터 선정
- 데이터 활용도, 데이터 변경도, 신규 영향 데이터, 데이터 오류율, 기타
라. 분석 모형의 전면 리모델링
- 기존 분석 모델이 비즈니스 수익 모델에 대해 적합하지 않다고 판단될경우 기존 모형의 전면 리모델링을 위한 독립 프로젝트를 계획
- 모델 개선을 위한 접근방식: 분석 모델의 전면 리모델링 결정에는 하향식, 상향식, 사례 벤치마킹을 통한 각 접근 방식이 검토
- 하향식 접근방식 발굴 절차
- 비즈니스 상황 파악, 주요 요구 사항 파악, 경쟁요인 및 제공 가치 수준 설정, 전략테마 및 실행활동 관계 분석, 비즈니스 운영 시나리오 상세화, 빅데이터 분석 사례 발굴, 빅데이터 분석 사례 정의, 빅데이터 분석 모델 평가
- 상향식 접근방식
- 프로세스 분류, 프로세스 흐름 분석, 분석 요건 식별, 분석 요건 정
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 3-5 비정형 데이터 분석기법 (0) | 2024.08.17 |
---|---|
[빅데이터분석기사 필기] 3-4 딥러닝 (1) | 2024.08.17 |
[빅데이터분석기사 필기] 3-3 정형 데이터 분석기법 (0) | 2024.08.16 |
[빅데이터분석기사 필기] 3-2 통계 분석기법 (0) | 2024.08.16 |
[빅데이터분석기사 필기] 3-1 분석 모형 설계 (0) | 2024.08.15 |