본문 바로가기

빅데이터분석기사14

추정과 가설검정 1. 추정의 개요 가. 확률 표본확률분포는 분포를 결정하는 평균, 분산 등의 모수를 가지고 있음특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것각 관측값들은 서로 독립적이며 동일한 분포를 가짐나. 추정표본으로부터 미지의 모수를 추측하는 것점추정'모수가 특정한 값'이라고 추정하는 것표본의 평균, 중위수, 최빈값 등을 사용불편성: 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 편의가 없다효율성: 추정량의 분산이 작을수록 좋다일치성: 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다.충족성: 추정량은 모수에 대하여 모든 정보를 제공표본평균: 모집단의 평균을 추정하기 위한 추정량. 확률표본의 평균값표본분산: 모집단의 분산을 추정하기 위한 추정량구간추정모수가 특정한 구간에 있을 것.. 2025. 5. 19.
[빅데이터분석기사 필기] 4-2 분석결과 해석 및 활용 1. 분석모형 해석가. 데이터 시각화시각화 개요많은 조직이 앞서 살펴본 것처럼 분석 결과의 효과적인 해석 방법으로 또는 당면한 문제에 대해 효과적인 답을 찾고자 데이터 시각화 활용데이터 시각화는 방대한 양의 데이터에 대한 이해를 돕기 위해 그림이나 도형 등의 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정시각화 기능분석 결과를 해석하는데 시각화의 설명, 탐색, 표현 세 가지 기능이 이용될 수 있다데이터의 시각적 분석을 통해 데이터가 표현하고 있는 다양한 규칙과 패턴을 검증할 수 있음데이터의 시각적표현은 데이터에 따라 변할 수 있는 일종의 시각적 차원으로 주로 크기, 색상, 위치, 네트워크, 시간, 다중표현기법을 기준으로 한다시각화 요건분석 결과의 의미를 효과적으로 전달하기 위해서는 시각적 결과물이.. 2024. 8. 18.
[빅데이터분석기사 필기] 4-1 분석모형 평가 및 개선 1. 성능 평가지표분석 모델의 성능은 데이터가 범주형 또는 연속형, 지도학습 또는 비지도학습에 따라서 평가하는 방식이 따라짐가. 범주형 모델의 성능 평가범주형 데이터 모델은 주로 분류 목적으로 성능 평가에는 혼동 행렬을 이용한 평가지표들과 ROC 곡선과 이익도표 등이 이용될 수 있다혼동 행렬을 이용한 평가지표혼동 행렬 또는 오차 행렬은 모델의 분류 분석 결과를 교차표 형태로 정리한 일종의 정오 분류표. 오분류표라고도 함혼동 행렬은 참과 거짓으로 분류하는 규칙을 가진 모델에 대해 만들 수 있으며 2가지 이상되는 분류 문제에도 적용 가능FP(false Positive)는 거짓긍정으로 실제로는 거짓인데 모형은 사실로 분류한 것을 말하며, 통계상 1종오류에 해당FN(false Negative)는 거짓부정으로 실.. 2024. 8. 17.
[빅데이터분석기사 필기] 3-5 비정형 데이터 분석기법 1. 비정형 데이터비정형 데이터란 형식이 정해지지 않은 데이터로 구조와 형태가 다르고 정형화 되지 않은 문자, 음성, 이미지, 영상데이터이다.데이터의 유형유형내용예시정형 데이터- 형태가 있으며, 연산이 가능. 주로 RDBMS에 저장- 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬움 관계형 데이터베이스, 스프레드 시트, CSV반정형 데이터- 형태가 있으며, 연산이 불가능. 주로 파일로 저장- 주로 API형태로 저장되어 데이터 처리기술이 요구XML, HTML, JSON, 로그 등비정형 데이터- 형태가 없으며 연산이 불가능, 주로 NoSQL에 저장- 데이터 수집난이도가 높으며 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움소셜데이터, 영상, 이미.. 2024. 8. 17.