1. 데이터 탐색 개요
가. 탐색적 데이터 분석(EDA)
- 주어진 데이터만 가지고도 충분한 정보를 찾을 수 있도록 개발한 데이터 분석 방법
- 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정으로, 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭
- 데이터의 값을 눈으로 보면서 전체적인 추세와 어떤 특이사항이 있는지 관찰할 수 있고, 여기서 사용되는 기본 도구는 도표, 그래프, 통계요약이다.
탐색적 자료분석 | 확증적 자료분석 | |
조사 종류 | 탐색조사 | 전략조사 |
목적 | 통찰을 얻어 방향설정 | 마케팅 행동안에 평가로 채택 여부 결정 |
사용되는 통계 | 기술통계 | 가설검정에 사용되는 추론통계 비교기준치와 비교 |
결과물 | - 평균이나 퍼센트, 분포도에 의한 요약 - 이차원 분할표나 상관계수에 의한 변수간 연관성 파악 |
- 통계검정에서 얻은 유의확률과 신뢰구간 - 비교기준치와의 차이 |
나. EDA의 4가지 주제
- 저항성의 강조: 저항성은 데이터의 일부가 파손되었을 때 영향을 적게 받는 성질
- 잔차의 해석: 잔차는 각 개별 관측값이 주요 경향으로부터 얼마나 벗어나 있는지를 알려주는 지표로, 이상치라 할 수 있음
- 데이터의 재표현: 데이터 분석을 단순화하여 해석하는데 도움이 되도록 원자료의 척도를 적당히 변환하는 것
- 데이터의 현시성: 데이터의 구조를 효율적으로 파악하고 데이터 안에 숨어있는 정보를 효율적으로 보여주기 위해 데이터를 시각화 하는 것
2. 기초통계량 추출 및 이해
가. 기초통계량의 필요성
- 정리되지 않은 대량의 데이터는 가치가 없음. 기술 통계는 데이터를 의미 있는 정보로 체계화하고, 요약하고, 표현하는 전반의 방법을 다루는 것으로 자료의 특성을 하나의 수치로 나타낼 수 있는 여러가지 요약통계량의 개발 및 산출을 포함한다
- 자료의 분포는 중심경향도, 산포도, 비대칭도 등의 세 가지 특성에 의해 나타낼 수 있다. 이를 각 특성별로 요약통계량을 산출하는데, 이를 기초통계량 또는 기술통계량이라 한다.
나. 기초통계량의 이해
- 중심경향도
- 중심 위치를 알려주는 통계량의 목적은 자료 분포의 중심을 찾아내는 것이다.
- 평균, 중앙값, 최빈값이 있음
- 양적 자료의 경우는 평균과 중앙값을 이용해야 하나 최빈값은 양적 또는 질적 자료에 관계없이 이용 가능
- 중앙값은 소수의 크거나 작은 관측값에 의해 영향을 받지 않으므로 경우에 따라서는 평균보다 자료의 중심을 파악하는데 합리적임
- 평균은 양적 자료만 이용가능하고 소수의 극단값에도 영향을 받는 한계가 있으나 통계적 추론에서는 가장 중심적인 통계량
- 산포도
- 자료가 어느 정도 중심에 집중되어 있는가를 측정해 중심의 대표성에 대한 평가와 함께 자료 분포의 구조적 특성을 파악할 수 있도록 해준다
- 범위, 분산, 표준편차, 사분범위, 평균의 표준오차, 변동계수
- 자료 분포의 비대칭도
- 중심경향도와 산포도의 통계량으로 관측된 자료의 중심과 분산은 설명할 수 있지만 자료의 분포가 얼마나 치우쳐 있는지, 중앙에 얼마나 집중되어 있는지에 관한 정보를 제공하지 못한다. 이를 설명해 주는 통계량이 왜도와 참도이다.
- 두 통계량 모두 정규분포와 비교해 설명한다. 정규분포는 분포가 일정하고 대칭형이므로 첨도와 왜도 모두 0이다.
- 왜도: 분포의 비대칭 정도와 함께 비대칭의 방향을 보여주는 통계량
- 첨도: 분포의 중심에서 뾰족한 정도와 꼬리부분의 길이에 대한 정보를 제공하는 통계량
3. 시각적 데이터 탐색
- 개념
- 시각화 패턴을 통해 자료 사이의 관계를 찾는 데이터의 시각화 프로세스의 탐색 단계
- 유형
- 막대그래프와 원그래프
- 도수분포표와 히스토그램
- 줄기-잎 그림
- 상자그림
- 도수다각형
- 선그래프
- 산점도
4. 상관관계 분석
가. 상관분석
- 변수들 간의 연관성을 파악하기 위해 변수 간 선형관계 정도를 분석하는 통계 기법으로 산점도, 공분산, 상관계수를 이용한다.
나. 공분산 분석
- 일반적으로 두 변수 사이의 연관성 분석은 두 변수의 분포를 동시에 고려해야 한다. 이 경우 두 변수의 공통된 분포를 공분산이라 하며, 두 변수 사이의 선형관계를 측정하는 대표적 모수이다.
- 동시에 두 개의 변수값을 갖는 개별 관측치들이 각 변수의 평균으로부터 어느 정도 떨어져 있는가를 나타내는 지표
다. 상관계수 분석
- 두 변수가 얼마나 밀접한 관련성을 갖고 변화하는지 알아보기 위한 분석으로 두 가지 속성으로 이해가능(연관성의 강도와 방향)
- 피어슨 상관계수
- 산점도를 이용하여 두 변수 사이의 관계를 개략적으로 살펴 볼 수 있음
- 두 변수 간 선형관계를 정확히 묘사할 수 있는 통계적지표는 상관계수이고, 특히 등간척도나 비율척도를 이용한 변수 간의 선형관계를 파악하는데 주로 피어슨 상관계수를 이용
- 스피어만 서열상관계수
- 서열척도 변수 간의 상관관계를 분석
- 집단 내의 개별 관측치를 두 개의 서로 다른 관점이나 특성으로 평가한 순위값들을 이용해서 분석하는 경우 사용
구분 | 피어슨 | 스피어만 | 켄달 |
개념 | 등간척도 이상으로 측정된 두 변수들의 상관관계 측정 | 서열척도인 두 변수들의 상관관계 측정 방식 | 서열척도인 두 변수들의 상관관계 측정 방식 |
특징 | - 연속형 변수, 정규성 가정 - 대부분 많이 사용 |
- 순서형 변수, 비모수적 방법 - 순위를 기준으로 상관관계 측정 |
- 순서형 변수, 비모수적 방법 - 순위를 기준으로 상관관계 측정 |
상관계수 | 피어슨 γ(적률상관계수) | 순위상관계수(ρ,로우) | 켄달의 타우( τ) |
라. 상관계수의 유의성 검정
- 상관분석을 통해 얻은 상관계수를 일반화하여 사용하려면 과연 통계적으로 유의한가를 검정할 필요가 있음
- 두 변수 X,Y 사이에 유의미한 상관관계가 존재하는가를 판단하는 유의성 검정 방법은 가설설정, 검정통계량, 유의성 검정이 있음
5. 시공간 데이터 탐색
- 시간데이터 탐색
- 공간데이터 탐색(지리 통계 데이터, 격자/지역 데이터, 점 패턴 데이터)
6. 다변량 데이터 탐색
- 다변량 데이터는 범주형 다변량 데이터로, 여러 가지 범주형의 척도를 갖는 변수 데이터를 말한다
- 기법
- 피벗 테이블
- 모자이크 플롯
- 레이더 차트
- 평행좌표 그래프
- 체르노프 얼굴
- 스몰 멀티플즈
- 선버스트 차트
- 트리맵
7. 비정형 데이터 탐색
- 일반적으로 텍스트를 중심으로 이미지, 동영상, 음성, GPS위치 데이터 등이 대표적
- 지속적으로 생성되는 데이터 중 가장 큰 비중을 차지
- 종류
- 웹 데이터 탐색
- 텍스트 데이터 탐색
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 3-1 분석 모형 설계 (0) | 2024.08.15 |
---|---|
[빅데이터분석기사 필기] 2-3 통계기법의 이해 (0) | 2024.08.11 |
[빅데이터분석기사 필기] 2-1 데이터 전처리 (0) | 2024.08.10 |
[빅데이터분석기사 필기] 1-3 데이터 수집 및 저장 계획 (0) | 2024.08.07 |
[빅데이터분석기사 필기] 1-2 데이터 분석 계획 (0) | 2024.08.04 |