본문 바로가기

전체 글84

[빅데이터분석기사 필기] 3-5 비정형 데이터 분석기법 1. 비정형 데이터비정형 데이터란 형식이 정해지지 않은 데이터로 구조와 형태가 다르고 정형화 되지 않은 문자, 음성, 이미지, 영상데이터이다.데이터의 유형유형내용예시정형 데이터- 형태가 있으며, 연산이 가능. 주로 RDBMS에 저장- 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬움 관계형 데이터베이스, 스프레드 시트, CSV반정형 데이터- 형태가 있으며, 연산이 불가능. 주로 파일로 저장- 주로 API형태로 저장되어 데이터 처리기술이 요구XML, HTML, JSON, 로그 등비정형 데이터- 형태가 없으며 연산이 불가능, 주로 NoSQL에 저장- 데이터 수집난이도가 높으며 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움소셜데이터, 영상, 이미.. 2024. 8. 17.
[빅데이터분석기사 필기] 3-4 딥러닝 1. 딥러닝의 개요딥러닝은 인공신경망에 기반을 둔 머신러닝의 한 종류로 연속된 층에서 점진적으로 의미있는 표현을 배우는 강점이 있으며, 데이터로부터 표현을 학습시키는 새로운 방식인공신경망의 기본요소는 다른 머신러닝 알고리즘이 발전되어서 만들어진 것인데, 머신러닝이 정형 데이터에 적합한데 비해 딥러닝에 잘 맞는 데이터는 비정형 데이터이다.인공신경망의 한계를 극복하기 위해 심층 신경망(DNN), 합성곱 신경망(CNN), 순환 신경망(RNN), 생성적 적대 신경망(GAN), RBM, DBN등의 기법이 제안되었다. 2. ANN개요인간 뇌의 피질 영역내에는 수많은 뉴런들이 시냅스로 층층이 연결되어 존재하는데, 그것을 신경망이라 부른다.인공신경망은 인간 뇌의 신경망에 착인해 구현된 컴퓨팅 시스템의 총칭으로, 주로 .. 2024. 8. 17.
[빅데이터분석기사 필기] 3-3 정형 데이터 분석기법 1. 로지스틱 회귀분석개념로지스틱 회귀분석은 반응변수(종속변수)가 범주형인 경우에 적용할 수 있는 회귀분석 모형데이터의 반응변수가 특정 범주에 속할 확률을 0~1로 예측하고, 예측된 확률에 따라 가능성이 더 높은 범주로 분류하는 지도학습 알고리즘로지스틱 회귀분석의 원리시그모이드 함수임계값로지스틱 회귀분석 결과로 나오는 분류 확률이 특정 수준보다 큰지 혹은 작은지를 기준으로 해당 데이터가 어떤 클래스에 속할지 분류할 수 있다. 이 때 기준이 되는 값을 임계값이라고 한다.일반적으로 분류를 위한 임계값은 0.5이며 성공확률이 0.5보다 크면 성공, 0.5보다 작으면 실패로 분류(변경 가능)2. 의사결정 나무가. 개념의사결정나무는 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법. 계산결과가 의사결.. 2024. 8. 16.
[빅데이터분석기사 필기] 3-2 통계 분석기법 1. 회귀분석의 개념하나 혹은 그 이상의 원인(독립변수)이 결과(종속변수)에 미치는 영향을 추정하여 식으로 표현할 수 있는 통계기법변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심 있는 변수를 예측하거나 추론하기 위해 사용독립변수의 개수가 하나이면 단순선형회귀분석, 독립변수의 개수가 두 개 이상이면 다중선형회귀 분석 사용가. 회귀분석에 적합한 데이터 형태회귀분석의 입력 데이터에서 종속변수와 입력변수는 계량형 자료이어야 한다. 하지만 독립변수의 경우, 명목척도로 측정된 범주형 자료가 사용될 수 있음. 이 때는 독립변수를 가변수로변환나. 회귀분석의 변수영향을 주는 변수: 설명변수, 독립변수, 예측변수영향을 받는 변수: 반응변수, 종속변수, 결과변수다. 선형회귀분석의 가정 독립변수와 종속변수 간의 선형성:.. 2024. 8. 16.