본문 바로가기
빅데이터분석기사

[빅데이터분석기사 필기] 2-2 데이터 탐색

by 아마도개발자 2024. 8. 11.

 

1. 데이터 탐색 개요

가. 탐색적 데이터 분석(EDA)

  • 주어진 데이터만 가지고도 충분한 정보를 찾을 수 있도록 개발한 데이터 분석 방법
  • 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정으로, 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭
  • 데이터의 값을 눈으로 보면서 전체적인 추세와 어떤 특이사항이 있는지 관찰할 수 있고, 여기서 사용되는 기본 도구는 도표, 그래프, 통계요약이다.
  탐색적 자료분석 확증적 자료분석
조사 종류 탐색조사 전략조사
목적 통찰을 얻어 방향설정 마케팅 행동안에 평가로 채택 여부 결정
사용되는 통계 기술통계 가설검정에 사용되는 추론통계
비교기준치와 비교
결과물 - 평균이나 퍼센트, 분포도에 의한 요약
- 이차원 분할표나 상관계수에 의한 변수간 연관성 파악

- 통계검정에서 얻은 유의확률과 신뢰구간
- 비교기준치와의 차이

 

나. EDA의 4가지 주제

  • 저항성의 강조: 저항성은 데이터의 일부가 파손되었을 때 영향을 적게 받는 성질
  • 잔차의 해석: 잔차는 각 개별 관측값이 주요 경향으로부터 얼마나 벗어나 있는지를 알려주는 지표로, 이상치라 할 수 있음
  • 데이터의 재표현: 데이터 분석을 단순화하여 해석하는데 도움이 되도록 원자료의 척도를 적당히 변환하는 것
  • 데이터의 현시성: 데이터의 구조를 효율적으로 파악하고 데이터 안에 숨어있는 정보를 효율적으로 보여주기 위해 데이터를 시각화 하는 것

2. 기초통계량 추출 및 이해

가. 기초통계량의 필요성

  • 정리되지 않은 대량의 데이터는 가치가 없음. 기술 통계는 데이터를 의미 있는 정보로 체계화하고, 요약하고, 표현하는 전반의 방법을 다루는 것으로 자료의 특성을 하나의 수치로 나타낼 수 있는 여러가지 요약통계량의 개발 및 산출을 포함한다
  • 자료의 분포는 중심경향도, 산포도, 비대칭도 등의 세 가지 특성에 의해 나타낼 수 있다. 이를 각 특성별로 요약통계량을 산출하는데, 이를 기초통계량 또는 기술통계량이라 한다.

나. 기초통계량의 이해

  • 중심경향도
    • 중심 위치를 알려주는 통계량의 목적은 자료 분포의 중심을 찾아내는 것이다.
    • 평균, 중앙값, 최빈값이 있음
    • 양적 자료의 경우는 평균과 중앙값을 이용해야 하나 최빈값은 양적 또는 질적 자료에 관계없이 이용 가능
    • 중앙값은 소수의 크거나 작은 관측값에 의해 영향을 받지 않으므로 경우에 따라서는 평균보다 자료의 중심을 파악하는데 합리적임
    • 평균은 양적 자료만 이용가능하고 소수의 극단값에도 영향을 받는 한계가 있으나 통계적 추론에서는 가장 중심적인 통계량
  • 산포도
    • 자료가 어느 정도 중심에 집중되어 있는가를 측정해 중심의 대표성에 대한 평가와 함께 자료 분포의 구조적 특성을 파악할 수 있도록 해준다
    • 범위, 분산, 표준편차, 사분범위, 평균의 표준오차, 변동계수
  • 자료 분포의 비대칭도
    • 중심경향도와 산포도의 통계량으로 관측된 자료의 중심과 분산은 설명할 수 있지만 자료의 분포가 얼마나 치우쳐 있는지, 중앙에 얼마나 집중되어 있는지에 관한 정보를 제공하지 못한다. 이를 설명해 주는 통계량이 왜도참도이다.
    • 두 통계량 모두 정규분포와 비교해 설명한다. 정규분포는 분포가 일정하고 대칭형이므로 첨도와 왜도 모두 0이다.
    • 왜도: 분포의 비대칭 정도와 함께 비대칭의 방향을 보여주는 통계량
    • 첨도: 분포의 중심에서 뾰족한 정도와 꼬리부분의 길이에 대한 정보를 제공하는 통계량

3. 시각적 데이터 탐색

  • 개념
    • 시각화 패턴을 통해 자료 사이의 관계를 찾는 데이터의 시각화 프로세스의 탐색 단계
  • 유형
    • 막대그래프와 원그래프
    • 도수분포표와 히스토그램
    • 줄기-잎 그림
    • 상자그림
    • 도수다각형
    • 선그래프
    • 산점도

4. 상관관계 분석

가. 상관분석

  • 변수들 간의 연관성을 파악하기 위해 변수 간 선형관계 정도를 분석하는 통계 기법으로 산점도, 공분산, 상관계수를 이용한다.

나. 공분산 분석

  • 일반적으로 두 변수 사이의 연관성 분석은 두 변수의 분포를 동시에 고려해야 한다. 이 경우 두 변수의 공통된 분포를 공분산이라 하며, 두 변수 사이의 선형관계를 측정하는 대표적 모수이다.
  • 동시에 두 개의 변수값을 갖는 개별 관측치들이 각 변수의 평균으로부터 어느 정도 떨어져 있는가를 나타내는 지표

다. 상관계수 분석

  • 두 변수가 얼마나 밀접한 관련성을 갖고 변화하는지 알아보기 위한 분석으로 두 가지 속성으로 이해가능(연관성의 강도와 방향)
  • 피어슨 상관계수
    • 산점도를 이용하여 두 변수 사이의 관계를 개략적으로 살펴 볼 수 있음
    • 두 변수 간 선형관계를 정확히 묘사할 수 있는 통계적지표는 상관계수이고, 특히 등간척도나 비율척도를 이용한 변수 간의 선형관계를 파악하는데 주로 피어슨 상관계수를 이용
  • 스피어만 서열상관계수
    • 서열척도 변수 간의 상관관계를 분석
    • 집단 내의 개별 관측치를 두 개의 서로 다른 관점이나 특성으로 평가한 순위값들을 이용해서 분석하는 경우 사용
구분 피어슨 스피어만 켄달
개념 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 서열척도인 두 변수들의 상관관계 측정 방식 서열척도인 두 변수들의 상관관계 측정 방식
특징 - 연속형 변수, 정규성 가정
- 대부분 많이 사용
- 순서형 변수, 비모수적 방법
- 순위를 기준으로 상관관계 측정
- 순서형 변수, 비모수적 방법
- 순위를 기준으로 상관관계 측정
상관계수 피어슨 γ(적률상관계수) 순위상관계수(ρ,로우) 켄달의 타우( τ)

 

라. 상관계수의 유의성 검정

  • 상관분석을 통해 얻은 상관계수를 일반화하여 사용하려면 과연 통계적으로 유의한가를 검정할 필요가 있음
  • 두 변수 X,Y 사이에 유의미한 상관관계가 존재하는가를 판단하는 유의성 검정 방법은 가설설정, 검정통계량, 유의성 검정이 있음

 5. 시공간 데이터 탐색

  • 시간데이터 탐색
  • 공간데이터 탐색(지리 통계 데이터, 격자/지역 데이터, 점 패턴 데이터)

6. 다변량 데이터 탐색

  • 다변량 데이터는 범주형 다변량 데이터로, 여러 가지 범주형의 척도를 갖는 변수 데이터를 말한다
  • 기법
    • 피벗 테이블
    • 모자이크 플롯
    • 레이더 차트
    • 평행좌표 그래프
    • 체르노프 얼굴
    • 스몰 멀티플즈
    • 선버스트 차트
    • 트리맵

 

7. 비정형 데이터 탐색

  • 일반적으로 텍스트를 중심으로 이미지, 동영상, 음성, GPS위치 데이터 등이 대표적
  • 지속적으로 생성되는 데이터 중 가장 큰 비중을 차지
  • 종류
    • 웹 데이터 탐색
    • 텍스트 데이터 탐색