본문 바로가기

빅데이터분석기사17

데이터 수집 1. 데이터 수집 절차데이터는 관찰, 실험, 기록에 의해 일정한 주제로 정리되고 통합된 사실의 집합데이터의 수집을 위해서는 데이터를 무엇으로부터 어떻게 수집할 것이며 어떻게 측정할지 결정해야 2. 표본과 모집단표본데이터 수집에 포함된 참여자의 집단모집단으로부터 추출된 관측값이나 측정값의 집합표본 데이터의 특성을 그대로 기술하는 기술통계의 대상모집단궁금적으로 결론을 도출하고자 하는 대상이 되는 전체 집단관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합표본 데이터의 특성으로부터 수학적 확률이론을 토대로 그 데이터가 속해 있을 것으로 예상되는 전체 모집단의 특성을 추론하는 추론통계의 대상3. 표본의 선정판단표본: 특정 분야에 관한 지식이나 경험이 풍부하여 모집단의 특성을 효과적으로 반영할 수 있을 것으.. 2025. 5. 27.
t-test 1. t검정가. 개요평균에 대한 가설검정을 수행두 집단 간 평균의 차이가 통계적으로 유의한지를 판단하는 통계 기법표본평균이 모집단평균과 동일한지 여부는 t값을 검정통계량으로 사용하여 검정모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법나. 사용 조건 표본이 정규분포를 따른다고 가정데이터가 연속형관측값들이 독립적표본의 크기가 작을 때(n 사용하기 적합다. 종류단일 표본 t-test (One-sample t-test)하나의 표본 평균이 특정 값과 다른지를 검정예시: 어떤 반의 평균 수학 성적이 전국 평균(70점)과 유의하게 다른가?독립 표본 t-test (Independent two-sample t-test)두 독립된 그룹 간 평균 비.. 2025. 5. 25.
시계열 분석 1. 시계열 자료 가. 개요시간의 흐름에 따라 관찰된 값시계열 데이터의 분석을 통해 미래의 값을 예측, 경향, 주기, 계절성 등을 파악하여 활용나. 시계열 자료의 종류비정상성 시계열 자료: 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열자료가 해당정상성 시계열 자료: 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료 2. 정상성 가. 평균이 일정한 경우모든 시점에 대해 일정한 평균을 가짐평균이 일정하지 않은 시계열은 차분을 통해 정상화*차분 현시점 자료에서 전 시점 자료를 빼는 것 나. 분산이 일정분산도 시점에 의존하지 않고 일정해야함분산이 일정하지 않은 경우 변환을 통해 정상다. 공분산도 단지 시차에만 의존, 실제 특정 시점 t,s에는 의존하지 않는다.라. 정상 시계열의 특.. 2025. 5. 21.
추정과 가설검정 1. 추정의 개요 가. 확률 표본확률분포는 분포를 결정하는 평균, 분산 등의 모수를 가지고 있음특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것각 관측값들은 서로 독립적이며 동일한 분포를 가짐나. 추정표본으로부터 미지의 모수를 추측하는 것점추정'모수가 특정한 값'이라고 추정하는 것표본의 평균, 중위수, 최빈값 등을 사용불편성: 모든 가능한 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 편의가 없다효율성: 추정량의 분산이 작을수록 좋다일치성: 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다.충족성: 추정량은 모수에 대하여 모든 정보를 제공표본평균: 모집단의 평균을 추정하기 위한 추정량. 확률표본의 평균값표본분산: 모집단의 분산을 추정하기 위한 추정량구간추정모수가 특정한 구간에 있을 것.. 2025. 5. 19.