본문 바로가기
빅데이터분석기사

[빅데이터분석기사 필기] 4-2 분석결과 해석 및 활용

by 아마도개발자 2024. 8. 18.

 

1. 분석모형 해석

가. 데이터 시각화

  • 시각화 개요
    • 많은 조직이 앞서 살펴본 것처럼 분석 결과의 효과적인 해석 방법으로 또는 당면한 문제에 대해 효과적인 답을 찾고자 데이터 시각화 활용
    • 데이터 시각화는 방대한 양의 데이터에 대한 이해를 돕기 위해 그림이나 도형 등의 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정
  • 시각화 기능
    • 분석 결과를 해석하는데 시각화의 설명, 탐색, 표현 세 가지 기능이 이용될 수 있다
    • 데이터의 시각적 분석을 통해 데이터가 표현하고 있는 다양한 규칙과 패턴을 검증할 수 있음
    • 데이터의 시각적표현은 데이터에 따라 변할 수 있는 일종의 시각적 차원으로 주로 크기, 색상, 위치, 네트워크, 시간, 다중표현기법을 기준으로 한다
  • 시각화 요건
    • 분석 결과의 의미를 효과적으로 전달하기 위해서는 시각적 결과물이 심미적인 형태기능적 요소가 조화를 이루어야 함
    • 기능적 측면: 데이터 시각화를 정보전달과 설득에 효율적으로 적용하기 위한 원칙에 관한 것. 즉각적인 판단
    • 심미적 측면: 데이터 시각화를 정보전달과 설득에 효과적으로 적용하기 위한 요건들에 관한 것. 결과물에 집중
  • 시각화 유형
유형 설명 기법
시간 시각화 - 시계열 데이터의 변화에 대한 패턴을 찾고 표현하는 방법
- 장기간에 걸친 변화나 경향을 추적
- 시간의 전후 관계를 감안하면 값의 의미를 더 분명하게 이해 가능
- 막대 그래프
- 산점도
- 선 그래프
- 계단식 그래프
- 영역 차트
분포 시각화 - 분류에 따른 변화를 최대, 최소, 전체 분포 등으로 구분
- 전체에서 부분 간 관계를 설명
- 파이차트
- 도넛차트
- 트리맵
관계 시각화 - 집단 간 상관관계를 확인하여 다른 수치의 변화 예측 - 산점도
- 버블차트
- 히스토그램

 

  • 시각화 절차
    • 빅데이터 시각화는 구조화, 시각화, 시각표현 3단계로 진행
단계 설명
구조화 - 데이터 시각화 목표를 설정하고 분석 결과를 토대로 데이터 표현 규칙과 패턴 탐색
- 시각화를 위한 요건 정의 후 사용자 시나리오를 작성하고 스토리를 구성하는 단계
- 데이터 수집 및 정제를 수집 및 탐색 => 분류 =>배열 => 재배열 4단계로 나눈 뒤 시각화에 초점
시각화 - 주로 분석 도구에서 제공하는 그래프나 분석 도구의 특성에 따른 시각화
- 구조화 단계에서 정의된 시각화 요건, 스토리를 기반으로 적절한 시각화 도구와 기술을 선택하여 데이터 분석 정보의 시각화를 구현
시각표현 - 시각화 의도를 강화해 전달하기 위해 분석 도구에서 만든 결과물에 그래픽 요소를 추가
- 최종 시각화 결과물이 구조화 단계에서 정한 목적과 의도에 맞게 구현되었는지를 확인하는 단계

 

2. 비즈니스 기여도 평가

가. 비즈니스 기여도 개요

  • 비즈니스 기여도는 데이터 분석 결과를 활용하거나 실질적인 실행을 통해 얻게 되는 비즈니스 영향도와 효과의 긍정적 측면

나. 비즈니스 기여도 평가

  • 기여도 분석의 필요성
    • 기여도 분석이란 기업 비즈니스 성과와 가치 창출의 향상에 얼마나 기여했는지를 이해하는 과정
    • 분석 모델링의 다양화에 따른 데이터 분석의 비즈니스 가치 효율을 증대시키는 것
  • 비즈니스 기여도 평가 기법
    • 투자 대비 효과를 정량화함으로써 평가
    • 정량화 기법에는 총 소유 비용, 투자대비효과, 순현재가치, 내부수익률, 투자회수기간 등이 있음
기법 설명
총소유비용
(TCO)
하나의 자산을 회득하려 할 때 주어진 기간 동안 모든 연관 비용을 고려할 수 있도록 확인하기 위해 사용
투자대비효과
(ROI)
자본 투자에 따른 순 효과의 비율
순현재가치
(NPV)
특정 시점의 투자금액과 매출금액의 차이를 이자율을 고려해 계산한 값
내부수익률
(IRR)
순 현재가치를 0으로 만드는 할인률
투자회수기간
(PP)
누계 투자금액과 매출금액의 합이 같아지는 기간

 

다. 비즈니스 기여도 평가 수행 준거

  • 모델링 기법별 정량적 효과 측정
    • 데이터 마이닝: 검출률이 증가하거나 향상도가 개선되어 발생되는 정량적 효과 제시
    • 시뮬레이션: 처리량, 대기시간, 대기행렬의 감소를 통한 정량적 효과 제시
    • 최적화: 보유한 자원으로 최대 성능을 낼 수 있는 최적의 해결책
  • 비즈니스 수행 시 비용 요소 고려
    • 빅데이터 프로젝트의 비용-효과 분석을 구축해 프로젝트의 비용과 비즈니스에 대한 잠재적 효과를 비교

 

3. 시공간 시각화

가. 시간 시각화

  • 시계열 데이터 값의 변화에 대한 패턴을 찾고 표현하는방법
  • 이산형 시계열 데이터: 막대 그래프, 누적 막대 그래프, 산점도 등 이산형 데이터 표현
  • 연속형 시계열 데이터: 히스토그램, 선 그래프, 계단식그래프, 영역 차트 

나. 공간 시각화

  • 지구 표면에 위치하는 객체와 사건, 현상을 기록한 것으로 실세계에서 위치 정보를 포함
  • 지리-공간 데이터를 매핑하는 방법에는 등치지역도, 도트 플롯맵, 버블 플롯맵, 등치 선도, 카토그램이 있음

4. 관계 시각화

  • 다변량 데이터 사이에 존재하는 연관성, 분포와 패턴을 찾는 시각화 방법
  • 한 수치의 변화를 통해 다른 수치의 변화를 예측하는데 산점도, 산점도 행렬, 버블차트 등의 관계시각화가 적합

5. 비교 시각화

  • 많은 다변량 변수를 포함하는 자료의 경우, 관심 있는 변수를 선택해 변수의 관계를 살펴보거나 모든 변수를 고려한 상황에서 개체들을 비교하기 쉽지 않음
  • 이를 해결하기 위해 다변량 변수를 갖는 자료를 제한된 2차원에 효과적으로 표현하는 방법으로 막대 그래프, 플로팅 바 차트, 히트맵, 체르노프페이스, 스타 차트, 평행 좌표 그래프 등이 있음

6. 인포 그래픽

  • 중요한 핵심 정보를 하나의 그래픽으로 표현해 사람들이 손쉽게 해당 정보를 이해할 수 있도록 만든 그래픽 메시지
  • 인포그래픽의 유형으로 지도형, 도표형, 타임라인/프로세스형, 스토리텔링형, 비교분석형 만화형이 있다.

7. 분석모형 전개

  • 분석모형 개발 및 운영 절차에 따라 모델 성능 평가가 완료되면 이 프로세스의 마지막 과정은 완성된 모형을 실제 업무에 적용하기 위한 전개 단계
  • 분석모형을 업무에 적용시키는 것뿐만 아니라 모니터링과 유지보수를 통한 지속적인 운영과 개선시키는 과정을 다루는 만큼 방대한 업무가 수행됨

가. 분석 모델 배포

  • 분석 모델 전개는 배포라고도 한다. 배포는 분석 모델을 운영계 환경과 통합하고 이를 실행하는 것을 의미
  • 조직이 동일한 프로젝트에서 다양한 언어로 개발된 모델의 성능을 평가하여 챔피언 모델을 선택 및 배포하는것이 이상적

나. 모델 배포 과정의 이슈

  • 서로 다른 환경, 모델 저장소 부재, 성능 모니터링 부재, 규제 요구 사항 준수

다. 분석 모델 배포 과정

  • 분석모형 적용 모듈 결정 => 분석모형 적용 방식 결정 및 구현

 

8. 분석결과 활용 시나리오

  • 분석결과 활용 시나리오 개발 과정
    • 분석결과 활용 가능 분야 파악 => 활용 가능 분야 분류 => 활용 가능 서비스 영역 도출 => 빅데이터 분석 서비스 모형 개발
  • 분석 서비스 비즈니스 모델 개발
    • 분석 서비스의 비즈니스 모델 정의
      • 분석 결과 및 인사이트를 토대로 새롭게 서비스할 분석에 대한 비즈니스 모델을 정의하는데 비즈니스 모델 캔버스를 이용할 수 있음
    • 분석 서비스의 시나리오 개발
      • 분석 결과 활용 시나리오는 분석을 통한 인사이트를 사용자에게 효과적으로 전달하기 위해 도입하는 일종의 스토리텔링
    • 활용 시나리오 도출 과정
      • 사용자별 데이터세트 및 정보 => 사용자 시나리오 => 스토리보드 기획

9. 분셕결과 보고서 작성

가. 분석 보고서 개요

  • 빅데이터 분석 기획 단계에서 작성된 분석 목표 정의서에는 단계별로 작성되어야 할 분석 보고서가 사전에 정의

나. 분석 보고서 유형

  • 프로젝트 계획서, 데이터 탐색 보고서, 모델링 및 검증 보고서, 중간 및 최종 보고서, 성능 보고서, 운영 보고서

10. 분석모형 리모델링

가. 모형 리모델링 필요성

  • 기존 모델의 성능 저하
    • 데이터 분석 모델은 새로운 데이터를 사용해 정기적으로 모델을 훈련해야함.(하지 않을경우 성능 저하)
  • 비즈니스 측면
    • 비즈니스 측면에서 기존 분석 모델을 개선 필요
    • 유효하지 않은 모델의 매립 시기 최적화 작업도 중요

나. 모형 리모델링 주기와 방안

  • 모형 리모델링 주기
    • 모형 리모델링 작업은 기존 분석모델에 대해서 데이터마이닝이나 시뮬레이션 또는 최적화를 추가 적용하는 과정을 진행 대개 분기, 반기, 연 단위로 수행
    • 데이터 마이닝, 시뮬레이션, 최적화 기법 사용
  • 모형 리모델링 방안
    • 재학습, 수정, 교체 방법 사용

다. 분석 모델 재학습 및 수정

  • 기존 모델의 성능 검토
    • 기존 분석모델의 활용성을 분석하여 정확도, 재현율, 오분류율 등 모델 평가 지표에 대한 변화 여부를 점검하고 현황을 분석
  • 개선용 데이터 선정
    • 데이터 활용도, 데이터 변경도, 신규 영향 데이터, 데이터 오류율, 기타

라. 분석 모형의 전면 리모델링

  • 기존 분석 모델이 비즈니스 수익 모델에 대해 적합하지 않다고 판단될경우 기존 모형의 전면 리모델링을 위한 독립 프로젝트를 계획
  • 모델 개선을 위한 접근방식: 분석 모델의 전면 리모델링 결정에는 하향식, 상향식, 사례 벤치마킹을 통한 각 접근 방식이 검토
  • 하향식 접근방식 발굴 절차 
    • 비즈니스 상황 파악, 주요 요구 사항 파악, 경쟁요인 및 제공 가치 수준 설정, 전략테마 및 실행활동 관계 분석, 비즈니스 운영 시나리오 상세화, 빅데이터 분석 사례 발굴, 빅데이터 분석 사례 정의, 빅데이터 분석 모델 평가
  • 상향식 접근방식 
    • 프로세스 분류, 프로세스 흐름 분석, 분석 요건 식별, 분석 요건 정