빅데이터분석기사
데이터 수집
아마도개발자
2025. 5. 27. 22:46
1. 데이터 수집 절차
- 데이터는 관찰, 실험, 기록에 의해 일정한 주제로 정리되고 통합된 사실의 집합
- 데이터의 수집을 위해서는 데이터를 무엇으로부터 어떻게 수집할 것이며 어떻게 측정할지 결정해야
2. 표본과 모집단
- 표본
- 데이터 수집에 포함된 참여자의 집단
- 모집단으로부터 추출된 관측값이나 측정값의 집합
- 표본 데이터의 특성을 그대로 기술하는 기술통계의 대상
- 모집단
- 궁금적으로 결론을 도출하고자 하는 대상이 되는 전체 집단
- 관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합
- 표본 데이터의 특성으로부터 수학적 확률이론을 토대로 그 데이터가 속해 있을 것으로 예상되는 전체 모집단의 특성을 추론하는 추론통계의 대상
3. 표본의 선정
- 판단표본: 특정 분야에 관한 지식이나 경험이 풍부하여 모집단의 특성을 효과적으로 반영할 수 있을 것으로 생각되는 표본
- 편의표본: 임의로 조사자의 편의에 따라 선정된 표본
- 무작위표본: 모집단 내의 모든 구성요소를 포함하고 있는 목록으로부터 선정된 표본. 대표성을 보장하는 유일한 방법
4. 측정척도
- 측정: 데이터 항목의 속성에 숫자를 부여하는 과정 ex) 키, 몸무게
- 척도: 측정을 위하여 사용되는 도구 ex) 선호도, 만족도
5. 척도의 종류
- 범주형 데이터
- 명목척도
- 속성을 단지 숫자로 식별하기 위한 목적 ex) 성별, 산업분류
- 사칙연산, 로그함수와 같은 수학함수의 적용이 불가능
- 서열척도
- 크기 순으로 서열화 가능 ex) 성적, 등급
- 사칙연산, 수학함수 적용 불가능
- 명목척도
- 연속형데이터
- 간격척도
- 값 간의 간격이 고정된 측정단위로 표현 ex) 온도
- 값 간의 덧셈 및 뺄셈이 가능하나 값 간 비율을 계산하는 것은 의미가 없음
- 비율척도
- 값 간의 비율적 비교가 가능 ex) 소득
- 사칙연산 및 수학함수의 적용 가능
- 간격척도