1. 데이터의 이해
가. 데이터의 정의
- 데이터라는 용어는 1644년 영국 문헌에 처음 등장
- 추론과 추정의 근거를 이루는 사실
- 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것
나. 데이터의 특성
- 존재적 특성: 객관적 사실
- 당위적 특성: 추론, 예측, 전망 추정을 위한 근거
다. 데이터의 유형
구분 | 형태 | 예 | 특징 |
정성적 데이터 | - 언어, 문자 등의 비정형 데이터 - 주관적 내용 |
회사 매출의 증가 | - 저장, 검색, 분석에 많은 비용이 소모 - 통계분석이 어려움 |
정량적 데이터 | - 수치, 도형, 기호 등 정형 데이터 - 객관적 내용 |
나이, 몸무게, 주가 등 | - 정형화된 데이터로 비용 소모 적음 - 통계 분석 용이 |
라. 지식경영의 핵심 이슈
- 지식경영: 기업의 생존과 경쟁력 확보가 인적자원의 지식에 달려있다고 가정, 기업이 구성원 개개인이 가진 지식의 공유를 통해 기업 문제해결 능력을 향상하려는 경영 방식
- 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 함
구분 | 형태 | 예 | 특징 | 상호작용 |
암묵지 | 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 | 김장김치 담그기 | 사회적으로 중요하지만 다른 사람에게 공유되기 어려움 | 공통화, 내면화 |
형식지 | 문서나 매뉴얼처럼 형상화된 지식 | 교과서, 비디오, DB | 전달과 공유가 용이 | 표출화, 연결화 |
마. 데이터와 정보의 관계
- DIKW의 정의
구분 | 내용 |
데이터(Data) | 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실 |
정보(Information) | 데이터의 가공, 처리와 데이터 간 관계 속에서 의미가 도출된 것 |
지식(Knowledge) | 데이터를 통해 도출된 다양한 정보를 구조화, 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화 |
지혜(Wisdom) | 지식의 축적과 아이디어가 결합된 창의적인 산물 |
2. 데이터베이스의 이해
가. 데이터베이스 정의
- 1차개념확대(정형데이터 관리)
- 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물 또는 수집물
- 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색하도록 한 것
- 2차개념확대(비정형 데이터 포함)
- 관련된 레코드의 집합, 소프트웨어로는 DBMX를 의미
- 문자, 기호, 음성 등 상호 관련된 다수의 컨텐츠를 정보처리 및 정보통신 기기에 의하여 체계적으로 수집, 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체
나. 데이터베이스의 특징
1) 일반적인 특징
데이터베이스 특징 | 설명 |
통합된 데이터(integrated data) | - 동일한 내용의 데이터가 중복되어 있지 않음 - 데이터 중복은 관리상의 복잡한 부작용을 초래 |
저장된 데이터(stored data) | - 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미 |
공용 데이터(shared data) | - 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미 - 대용량화되고 구조가 복잡한 것이 보통 |
변화되는 데이터(changable data) | - 데이터베이스에 저장된 내용은 데이터베이스의 현 시점에서의 상태를 의미, 이 상태는 데이터의 삽입, 삭제, 갱신으로 항상 변화하면서도 항상 현재의 데이터를 정확하게 유지해야 함 |
2) 다양한 측면에서의 특징
측면 | 특성 |
정보의 축적 및 전달 측면 | - 기계가독성: 정보처리기기가 읽고 쓸 수 있음 - 검색가독성: 다양한 방법으로 필요한 정보를 검색 - 원격조작성: 정보통신망을 통하여 원거리에서도 온라인 이용 |
정보 이용 측면 | - 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득 - 원하는 정보를 정확하고 경제적으로 찾아내는 특성 |
정보 관리 측면 | - 정보를 일정한 질서와 구조에 따라 저장, 관리하여 방대한 양의 정보를 체계적으로 축적하고 추가 갱신하기 용이 |
정보기술 발전 측면 | - 데이터 베이스는 정보처리, 정보 전송을 위한 네트워크기술의 발전을 견인 |
경제, 산업 측면 | - 다양한 정보를 필요에 따라 신속하게 제공, 이요할 수 있는 인프라라는 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단 |
다. 경영에서의 데이터베이스 활용
1) OLTP와 OLAP
- OTLP
- 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리 형태의 하나.
- 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스에 엑세스, 처리 결과를 리턴하는 형태
- 즉, 데이터베이스의 데이터를 수시로 갱신하는 프로세싱을 의미
- OLAP
- 정보 위주의 분석 처리를 의미하며, 다양한 비즈니스 관점에서 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻게 해주는 기술
- OTLP에서 처리된 트랜잭션 데이터를 분석해 제품의 판매 추이, 구매 성향 파악 등을 프로세싱하는 것을 의미
- OLTP가 데이터 갱신 위주라면 OLAP는 데이터 조회 위주
구분 | OLTP | OLAP |
데이터 구조 | 복잡 | 단순 |
데이터 갱신 | 동적으로 순간적 | 정적으로 주기적 |
응답 시간 | 수 초 이내 | 수 초에서 몇 분 사이 |
데이터 범위 | 수 십일 전후 | 오랜 기간 저장 |
데이터 성격 | 정규적인 핵심 데이터 | 비정규적인 읽기 전용 데이터 |
데이터 크기 | 수 기가 바이트 | 수 테라 바이트 |
데이터 내용 | 현재 데이터 | 요약된 데이터 |
데이터 특성 | 트랜잭션 중심 | 주제 중심 |
데이터 엑세스 빈도 | 높음 | 보통 |
질의 결과 예측 | 주기적이며 예측 가능 | 에측하기 어려움 |
2) CRM과 SCM
가) CRM(Customer RElationship Management)
- 고객관계관리, 기업이 고객과 관련된 내,외부 자료를 분석 및 통합해 고객 중심자원을 극대화하고, 이를 토대로 고객특성에 맞게 마케팅 활동을 계획,지원,평가 하는 과정
나) SCM(Supply Chain Management)
- '공급망 관리'로, 기업에서 원재료의 생산, 유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 것
부문 | 내용 |
제조부문 | - ERP: 인사, 재무, 생산 등 기업의 전 부문에 걸쳐 독립적이던 시스템들을 하나의 통합 시스템으로 재구축, 생산성을 극대화 - BI: 기업의 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스 - CRM - RTE: ERP,SCM,CRM에서 진보하여 모든 정보를 하나로 통합하여 의사결정에 도움 |
금융부문 | -EAI: 기업 내 연관된 모든 애플리케이션을 유기적으로 연동 -ESB: 업무 시스템들 간 연계 과정에서 데이터를 전송할 수 있는 전문양식을 미들웨어 기술과 어댑터, 채널 기술이 결합된 애플리케이션 연계 솔루션 -EDW: 기존 DW를 전사적으로 확장한 모델, 분석 애플리케이션들을 위한 원천 |
유통부문 | - KMS: 지식관리시스템 - RFID: 주파수를이용해 ID를 식별하는 전자태그 |
3. 빅데이터의 이해
가. 빅데이터 정의
- 기존 - "통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터"
- 현재 - "다양한 형태의 데이터를 목적에 맞게 분석하여 해당 분야의 필요 지식을 추출, 의사결정에 활용하는 행위"
나. 데이터 양 측정을 위한 바이트 크기
KB = 10^3 bytes, MB = 10^6 bytes , GB = 10*9 bytes , TB = 10*12 bytes , ZB = 10^21 bytes
다. 빅데이터의 주요 특징
3V | 4V | ||
크기 | 다양성 | 속도 | 가치(Value) 진실성(Veracity) 정확성(Validity) 휘발성(Volatility) |
Peta Byte 수준의 방대한 양 | 정형,비정형,반정형 데이터 | 실시간 생산 및 신속한 분석 유통 | |
- 웹사이트 접속 정보 - 기업 활동 로그 |
- 소셜 미디어 데이터 - 센서 데이터 |
- 대용량 데이터 처리 - 클라우드 컴퓨팅 |
데이터 변화 => 기술변화 => 인재,조직 변화
라. 빅데이터로 인한 변화
이전 | 이후 |
사전처리 | 사후처리 |
표본조사 | 전수조사 |
질 | 양 |
인과관계 | 상관관계 |
마. 빅데이터의 사회, 경제적 가치
구분 | 내용 |
고객 세분화를 통한 소비자 맞춤형 비즈니스 | 기업들이 구체적인 고객 분류를 통해 고객의 요구사항에 적합한 맞춤형 서비스 제공 |
산업 투명성 향상 | 필요한 분야에 빅데이터를 적절한 시점에 제공함으로써 검색 및 처리 시간 절감 |
고객 니즈 확인 및 트렌드 예측 | 거래 데이터를 디지털 형태로 축적하여 정확한 성과 데이터 수집 |
알고리즘을 통한 의사결정 지원 | 정교한 분석에 의해 의사결정 향상, 가치 있는 인사이트 발굴 |
제품 및 서비스, 비즈니스 모델의 혁신 | 새로운 제품 및 서비스 개발 및 개선, 새로운 비즈니스 모델 설계 |
4. 빅데이터 조직 및 인력
가. 분석 조직의 구조
집중구조 | 기능구조 | 분산구조 |
- 전사 분석업무를 별도의 분석전담 조직에서 담당 - 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능 |
- 일반적인 분석 수행 구조 - 별도 분석조직이 없고 해당 업무 부서에서 분석 수행 - 전사적 핵심분석이 어려움, 부서에 국한된 분석 수행 가능성 높음 |
- 분석조직 인력들을 현업부서로 직접 배치하여 분석업무 수행 - 전사차원의 우선순위 수행 |
5. 빅데이터 플랫폼
가. 빅데이터 플랫폼의 정의 및 개념도
- 빅데이터 플랫폼: 다양한 데이터 소스로부터 수집한 데이터를 처리하고 분석하여 지식을 추출하고, 이를 기반으로 지능화된 서비스를 제공하는데 필요한 IT환경
- 개념도
- 소프트웨어 계층, 플랫폼 계층, 인프라 스트럭처 계층으로 구성
- 클라우드 서비스 종류
- IaaS: 서버, 스토리지, 네트워크를 가상화 환경으로 만들어 필요에 따라 인프라 자원을 사용할 수 있게 제공하는 서비스
- PaaS: SaaS개념을 개발 플랫폼으로 확장한 것으로, 웹에서 개발 플랫폼을 쉽게 빌려 쓸 수 있는 서비스
- SaaS: IaaS와 PaaS위에 올라가는 스프트웨어를 의미, On-demand Software라고도 불림
나. 하둡 에코 시스템
1) 비정형 데이터 수집
- 척와(Chuckwa): 분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 받아 HDFS에 저장하는 기술
- 플럼(Flume) 많은 양의 로그데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트와 에이전트를 활용하는 기술
- 스크라이브(Scribe) 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술
2) 정형 데이터 수집
- 스쿱(Sqoop): 대용량 데이터 전송 솔루션으로 커넥터를 사용하여 관계형 데이터베이스 시스템에서 하둡 파일 시스템으로 데이터를 수집하거나, 하둡파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기술
- 히호(Hiho): 스쿱과 같은 대용량 데이터 전송 솔루션이며, 하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있으며, JDBC인터페이스를 지원
3) 분산 데이터 저장
- HDFS: 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템. 네임노드, 보조 네임노드, 데이터노드로 구성
4) 분산 데이터베이스
- HBase: HDFS를 기반으로 구현된 컬럼 기반의 분산 데이터베이스로 실시간 랜덤 조회 및 업데이트 가능. 각각의 프로세스는 개인의 데이터를 비동기적으로 업데이트 가능
5) 분산 데이터 처리
- 맵리듀스: 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크, 모든 데이터를 키-값 쌍으로 구성. 맵, 셔플, 리듀스로 구성.
6) 리소스 관리
- 얀(YARN): 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼. 리소스 매니저, 노드 매니저, 애플리케이션 마스터, 컨테이너로 구성
7) 인메모리 처리
- 아파치 스파크(Apache Spark): 하둡 기반 대규모 데이터 분산처리시스템으로 스트리밍 데이터, 온라인 머신러닝 등 실시간 데이터를 처리
8) 데이터 가공
- 피그(Pig): 대용량 데이터 집합을 분석하기 위한 플랫폼. 하둡을 이용하여 맵리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴이라는 언어 자체 제공
- 하이브(Hive): 하둡 기반 DW솔루션으로 SQL과 매우 유사한 HiveQL이라는 쿼리를 제공
9) 데이터 마이닝
- 머하웃(Mahout): 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈소스로 분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀 분석, 진화 알고리즘 등 주요 알고리즘을 지원
10) 실시간 SQL 질의
- 임팔라(Impala): 하둡 기반의 실시간 SQL질의 시스템으로 데이터 조회를 위한 인터페이스로 HiveQL을 사용, 수초 내에 SQL질의 결과를 확인 가능, HBase와 연동 가능.
- 타조(Tajo): 다양한 데이터 소스를 위한 하둡 기반의 ETL기술을 이용해서 데이터 웨어하우스에 적재하는 시스템
11) 워크플로우 관리
- 우지(Oozie): 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
12) 분산 코디네이션
- 주키퍼(Zookeeper): 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공하는 기술로 하나의 서버에서만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리.
6.빅데이터와 인공지능
가. 인공지능 vs 머신러닝 vs 딥러닝
인공지능 | 머신러닝 | 딥러닝 |
사람이 해야 할 일을 기계가 대신할 수 있는 모든 자동화에 해당 | 명시적으로 규칙을 프로그래밍하지 않고 데이터로부터 의사결정을 위한 패턴을 기계가 스스로 학습 | 인공신경망 기반의 모델로, 비정형 데이터로부터 특징 추출 및 판단까지 기계가 한 번에 수행 |
나. 인공지능 경쟁력 3요소
인공지능 성공비결 = 알고리즘 + H/W발달 + Big Data
7. 개인 정보 법 및 제도
가. 위기요인
- 사생활 침해
- 책임 원칙 훼손
- 데이터 오용
나. 통제 방안
- '동의'에서 '책임'으로
- 결과 기반 책임 원칙 고수
- 알고리즘 접근 허용
다. 데이터 3법
- 개인정보보호법
- 정보통신망법
- 신용정보법
라. 가명처리 절차
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 2-3 통계기법의 이해 (0) | 2024.08.11 |
---|---|
[빅데이터분석기사 필기] 2-2 데이터 탐색 (0) | 2024.08.11 |
[빅데이터분석기사 필기] 2-1 데이터 전처리 (0) | 2024.08.10 |
[빅데이터분석기사 필기] 1-3 데이터 수집 및 저장 계획 (0) | 2024.08.07 |
[빅데이터분석기사 필기] 1-2 데이터 분석 계획 (0) | 2024.08.04 |