1. 데이터 전처리의 필요성
- 데이터 전처리는 로우 데이터에 대한 정제, 데이터 통합, 데이터 변환 등의 과정을 수행하여 진행하고자 하는 분석에 최적화된 형태로 데이터를 변형하는 과정에 해당
- 데이터 확보는 양뿐만 아니라 질적인 측면까지 동시에 고려해야 함
- 데이터 다양성은 분석 모델의 완성도를 높일 수 있는 등 현실을 반영하는 데이터를 의미
- 확보된 데이터가 분석이 가능한 형태로 준비되어야 함
2. 데이터 전처리 유형
- 데이터 정제: 데이터 내의 결측치와 이상치를 파악하고, 이들을 제거하거나 적절한 값으로 대치하여 데이터를 다듬는 작업
- 데이터 통합: 여러 테이블에 저장된 데이터들을 병합하거나 통합하여 분석에 적절한 데이터셋을 생성하는 작업
- 데이터 축소: 분석에 필요한 변수들만 선택하거나 데이터의 특성을 반영하고 있는 요약변수를 생성하여 분석 대상이 되는 데이터의 차원을 줄이는 작업
- 데이터 변환: 변수값에 대해 정규화, 표준화 등의 작업을 수행하거나 데이터의 형식을 변환하는 등 분석 알고리즘에 입력할 수 있는 형태로 데이터를 변환하는 작업
3. 데이터 정제
- 컴퓨터가 읽을 수 없는 요소를 제거하고 분석에 사용되는 데이터를 충분히 가다듬어 분석 결과를 왜곡할 수도 있는 데이터 품질 문제를 해결하는 작업
- 데이터 전처리 과정에서도 데이터 정제는 결측치를 채워넣고, 잡음이 있는 데이터를 평활화 하고, 이상치를 식별하고, 데이터 불일치를 교정하는 작업을 포함한다
가. 결측치 처리
- 결측치 개념
- 결측치는 입력값이 누락되어 값이 존재하지 않고 비어있는 값을 의미
- EX) NA, 99999, (공란), Unknown, Not Answer, NULL 등
- 결측치 유형
구분 | 설명 |
완전 무작위 결측 (MCAR) |
- 어떤 변수의 결측치는 관측된 다른 변수들과 아무런 연관이 없이 완전히 랜덤하게 발생한 경우를 말함 |
무작위 결측 (MAR) |
- 실제 데이터에서 가장 빈번한 형태로, 어떤 변수의 결측치가 관측된 다른 변수에 영향을 받지만 해당 변수의 비관측값들과는 연관되어 있지 않은 경우 |
비무작위 결측 (NMAR) |
- 어떤 변수의 결측치가 완전 무작위 또는 무작위 결측이 아닌 경우 |
- 결측치 처리
- 단순 대치법
- 단순 삭제
- 평균 대치법
- 단순확률 대치법
- 다중 대치법
- 단순 대치법
나. 이상치 처리
- 이상치 개념
- 의도하지 않게 잘못 입력한 경우나 의도하지 않게 입력되었으나 분석 목적에 부합하지 않아 제거해야 하는 경우 등 잘못된 데터도 있지만, 의도치 않은 현상이지만 분석에 포함해야 하는 경우와 의도된 이상값인 경우까지 다양하다.
- 일반적으로 관측된 데이터의 범위에서 많이 벗어나 있는 아주 작거나 아주 큰 값으로 정상 범위 밖에 있는 값을 뜻한다.
- 이상치 판별
- 사분위수
- 정규분포
- 군집화
- 이상치 처리
- 결측 처리 방법
- 극단치 기준 이용 방법
- 극단값 절단 방법
- 극단값 조정 방법
4. 데이터 변환
가. 데이터 변환 기법
- 데이터 스케일링 : 데이터들의 범위가 같아지도록 속성별로 값을 비례적으로 조정하는 과정
- 표준화: 각 개체드링 평균을 기준으로 얼마나 떨어져 있는지를 나타내는 값으로 변환하는 과정
- 정규화: 데이터의 범우리ㅡㄹ 0과 1 사이로 변환하여 데이터의 분포를 조정하는 방법
- 평활화
- 데이터 집합에 존재하는 노이즈로 인해 거칠게 분포된 데이터를 매끄럽게 만드는 방법
- 비정형 데이터 변화
- 비정형 텍스트 데이터의 경우 단어들의 빈도를 표현하는 방법을 이용하여 정형 데이터로 변환 한 뒤 분석을 수행, 이미지의 경우 한 픽셀마다 수로 변환하는 과정을 거쳐 이미지 분석 수행
5. 분석 변수 처리
- 변수의 개념
- 변수란 데이터를 담는 저장소
- 인과관계에 따른 변수 유형
- 독립변수: 다른 변수들에 의해 영향을 받지 않으며, 종속 변수에 영향을 주는 변수(설명변수, 예측변수, 입력변수, 조작변수)
- 종속변수: 독립변수에 의해 영향을 받는 변수(반응변수, 결과변수, 출력변수)
- 변수가 담고 있는 데이터 형태와속성에 따른 변수 유형
유형 | 설명 | |
범주형 | 변수가 담고 있는 데이터가 몇 개의 범주로 나누어진 자료를 의미, 그 형태에 따라 명목형 변수와순서형 변수로 나누어짐 | |
명목형 | 측정값이 일정한 범주에 속하도록 이름을 붙이지만, 각 범주 간에 순위가 없음 (성별- 남/녀, 검사결과- 음성/양성) |
|
순서형 | 측정값이 일정한 범주에 속하도록 이름을 붙이지만, 각 범주 간에 순위가 있는 변수를 의미 (성적 - 1등급/2등급/3등급) |
|
수치형 | 변수가 담고 있는 데이터가 수치형 자료로 표현되는 경우 이를 수치형 변수라고 하며, 연속형 변수와 이산형 변수로 나누어짐 | |
연속형 | 측정값들이 서로 연속된 값을 갖는 경우(키, 몸무게) | |
이산형 | 변수가 취할 수 있는 값들을 셀 수 있는 경우 (아파트의 층 수) |
6. 변수 선택
- 분석 모형에서 가장 적절한 변수를 선택하는 과정
- 일반적으로 원시 데이터는 여러 가지 변수들로 측정된 데이터들이 섞여 있기 때문에 모델에서 얻고자 하는 결과값에 크게 영향을 미치지 않는 변수들도 포함되어 있음
구분 | 설명 |
필터 방법 | - 특정 모델링 기법에 의존하지 않고 데이터에 대한 통계적 특징을 이용해 변수 선택 - 변수 간의 연관성 측정 |
래퍼 방법 | - 변수의 일부만을 사용해 모델링을 수행하고 그 결과를 확인하는 작업을 반복하여 변수를 선택 - 가장 좋은 성능을 보이는 변수 집합을 찾아내는 방법 - 전진선택, 후진 제거, 단계별 선택, 최적조합 선택 |
임베디드 방법 | - 모델링 기법 자체에 변수 선택이 포함 - 가장 좋은 성능을 보이는 변수 집합을 찾아내는 방법 - 라쏘 회귀, 엘라스틱넷 |
7. 차원 축소
- 차원축소 개념
- 수 많은 변수들로 구성된 다차원 데이터 셋에서 변수의 개수를 줄여 차원을 축소하여 새로운 차원의 데이터를 생성
- 차원축소 유형
- 피처 선택: 여러 변수들 가운데서 데이터의 특징을 가장 잘 나타내는 주요 피처만 선택하는 것
- 피처 추출: 기존 변수들 간의 관계를 파악하여 이들을 잘 표현할 수 있도록 선형 혹은 비선형 결합을 활용해 새로운 피처를 추출
- 차원축소 방법
- 다차원 척도법
- 주성분 분석
- 선형 판별분석
- 요인분석
- 특이값 분해
- t-SNE
- 서포트 벡터 머신
- 차원축소 장점
- 시간 복잡도와 공간 복잡도 감소
- 학습 모델의 경량화, 안정적인 결과 도출
- 노이즈 제거, 메모리 절약
- 차원축소 활용
- 모델링 시 설명변수 추출
- 탐색적 데이터 분석
- 다차원 공간의 정보를 저차원으로 변환
- 데이터 내 중요한 변수 혹은 잠재 요인 발견
8. 파생변수와 요약변수
- 파생변수
- 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
- 주관적일 수 있으므로 논리적 타당성을 갖추어 개발
- 상황에 따라 특정 상황에만 유의미하지 않게 대표성을 나타나게 해야함
- 요약변수
- 수집된 정보를 분석에 맞게 종합한 변수
- 재활용성 높음
- 데이터마트에서 가장 기본적인 변수로 총구매 금액, 금액, 횟수, 구매여부 등 데이터 분석을 위해 만들어 지는 변수
9. 변수 변환
가. 변수의 구간화
- 개요
- 데이터에 개입된 노이즈를 제거하기 위해서는 연속형 변수를 다수의 구간으로 나누고 동일한 구간에 속하는 변수 값들을 하나의 변수값으로 변환하는 구간화 기법이 사용될 수 있다.
- 연속형 변수를 목적 분석에 맞게 활용하기 위해 구간화하여 모델링에 적용
- 방법
- 변수 구간화
- 데이터 분석의 성능을 향상시키기 위해서 혹은 해석의 편리성을 위해 이산형 변수를 범주형 변수로 변환하기도하는데, 이를 변수 구간화라고 한다.
- 신용평가모형의 개발에서 연속형 변수를 범주형 변수로 구간화 하는데 자주 사용
- 의사결정나무
- 세분화 또는 예측에 활용되는 의사결정나무 모형을 사용하여 입력변수들을 구간화 할 수 있다. 의사결정나무에서는 동일한 변수를 여러 번의 분리기준으로 사용이 가능하기 때문에 연속 변수가 반복적으로 선택될 경우, 각각 분리 기준값으로 연속형 변수를 구간화할 수 있다
- 변수 구간화
나. 더미변수
- 범주형 변수가 존재하는 데이터에 대해 회귀분석과 같이 연속형 변수를 다르는 기법을 적용하기 위해 범주형 변수를 연속형 변수로 변환하는 과정이 필요. 일반적으로 범주형 독립변수를 처리하는 방법은 더미변수로 변환하는 것
다. 정규분포화
- 데이터가 정규분포를 따르지 않을 경우 변수 변환을 고려할 수 있음. 변환이전에 변수의 분포 형태를 살펴 정규분포를 따르고 있는지 판단하여 데이터 변환을 실시해야 하며, 로그변환, 제곱근 변환 등의 방법을 사용해 데이터를 정규 분포를 따르는 형태로 변환
10. 불균형 데이터 처리
가. 데이터 불균형
- 데이터 불균형은 분류할 각 집단에 속하는 데이터의 수가 동일하지 않은 경우를 의미, 이러한 경우 훈련 데이터 내에서 비율이 높은 집단 쪽으로 대부분의 분류를 수행하는 모형이 생성될 수 있다.
나. 오버 샘플링
- 오버 샘플링은 더 작은 수의 데이터를 가지고 있는 집단을 표본으로 더 많이 추출하여 데이터 불균형을 해결하는 방법
- 종류
- Resampling
- SMOTE
- Borderline SMOTE
- ADASYN
다. 언더 샘플링
- 더 많은 수의 데이터를 가지고 있는 집단의 일부만 추출하여 데이터 샘플링을 진행하는 방법
- 랜덤 언어 샘플링, Tomek Links, CNN, OSS 등의 방법이 있음
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 2-3 통계기법의 이해 (0) | 2024.08.11 |
---|---|
[빅데이터분석기사 필기] 2-2 데이터 탐색 (0) | 2024.08.11 |
[빅데이터분석기사 필기] 1-3 데이터 수집 및 저장 계획 (0) | 2024.08.07 |
[빅데이터분석기사 필기] 1-2 데이터 분석 계획 (0) | 2024.08.04 |
[빅데이터분석기사 필기] 1-1 빅데이터의 이해 (0) | 2024.08.03 |