본문 바로가기

빅데이터분석기사13

[빅데이터분석기사 필기] 3-3 정형 데이터 분석기법 1. 로지스틱 회귀분석개념로지스틱 회귀분석은 반응변수(종속변수)가 범주형인 경우에 적용할 수 있는 회귀분석 모형데이터의 반응변수가 특정 범주에 속할 확률을 0~1로 예측하고, 예측된 확률에 따라 가능성이 더 높은 범주로 분류하는 지도학습 알고리즘로지스틱 회귀분석의 원리시그모이드 함수임계값로지스틱 회귀분석 결과로 나오는 분류 확률이 특정 수준보다 큰지 혹은 작은지를 기준으로 해당 데이터가 어떤 클래스에 속할지 분류할 수 있다. 이 때 기준이 되는 값을 임계값이라고 한다.일반적으로 분류를 위한 임계값은 0.5이며 성공확률이 0.5보다 크면 성공, 0.5보다 작으면 실패로 분류(변경 가능)2. 의사결정 나무가. 개념의사결정나무는 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법. 계산결과가 의사결.. 2024. 8. 16.
[빅데이터분석기사 필기] 3-2 통계 분석기법 1. 회귀분석의 개념하나 혹은 그 이상의 원인(독립변수)이 결과(종속변수)에 미치는 영향을 추정하여 식으로 표현할 수 있는 통계기법변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심 있는 변수를 예측하거나 추론하기 위해 사용독립변수의 개수가 하나이면 단순선형회귀분석, 독립변수의 개수가 두 개 이상이면 다중선형회귀 분석 사용가. 회귀분석에 적합한 데이터 형태회귀분석의 입력 데이터에서 종속변수와 입력변수는 계량형 자료이어야 한다. 하지만 독립변수의 경우, 명목척도로 측정된 범주형 자료가 사용될 수 있음. 이 때는 독립변수를 가변수로변환나. 회귀분석의 변수영향을 주는 변수: 설명변수, 독립변수, 예측변수영향을 받는 변수: 반응변수, 종속변수, 결과변수다. 선형회귀분석의 가정 독립변수와 종속변수 간의 선형성:.. 2024. 8. 16.
[빅데이터분석기사 필기] 3-1 분석 모형 설계 1. 데이터 모델 구축 기법빅데이터 분석에서는 분석하고자 하는 데이터를 활용해 목적과 형태에 맞는 분석모형을 선정한다.데이터 마이닝 및 머신러닝을 이용한 데이터 모델링은 분석 데이터를 활용해 분류, 예측, 군집 등의 분석모형을 선정하여 개발할 수 있다.가. 통계분석통계학에서 오랫동안 사용되어 온 전형적인 데이터 모델 구축 기법에는 회귀분석, 로지스틱 회귀분석, 판별분석, 주성분 분석이 있다.회귀분석로지스틱 회귀분석판별분석 주성분 분석종속변수에 대한 독립변수의 선형 함수 관계로부터 새로운 값에 대해서 종속변수의 값을 예측설명변수값이 주어졌을 때 목표변수값이 특정부류에 속할 확률이 로지스틱 함수 형태를 따르는 것을 이용하여 개별 관측치들이 어느 집단에 분류되는지 예측한다종속변인이 둘 혹은 그 이상의 집단으로.. 2024. 8. 15.
[빅데이터분석기사 필기] 2-3 통계기법의 이해 1. 표본 표출가. 표본조사개요어떤 대상집단에 대한 조사방법은 그 집단의 구성원 모두를 조사하는 전수조사와 대상집단의 일부를 표본으로 하는 표본조사가 있다.장점전수조사에 비해 시간과 비용을 절약전수조사가 불가능한 경우에 적용 가능비표본 오차를 줄여 전수조사보다 정확한 자료를 획득할 수 있음자료의 수집, 집계 및 분석과정을 신속하게 처리단점표본설계가 복잡한 경우 시간과 비용이 낭비될 수 있음표본의 대표성 문제가 제기되면 일반화의 가능성이 낮아짐모집단의 크기가 작을 경우에는 표집 자체가 무의미용어모집단: 조사하고자 하는 대상집단 전체원소: 모집단을 구성하는 개체표본: 조사하기 위해 뽑은 모집단의 일부 원소들모수: 표본관측에 의해 구하고자 하는 정보표집틀: 표본추출시 필요한 모집단의 구성요소와 표본추출 단계별.. 2024. 8. 11.