본문 바로가기
빅데이터분석기사

[빅데이터분석기사 필기] 1-1 빅데이터의 이해

by 아마도개발자 2024. 8. 3.

1. 데이터의 이해

 

가. 데이터의 정의

  • 데이터라는 용어는 1644년 영국 문헌에 처음 등장
  • 추론과 추정의 근거를 이루는 사실
  • 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것

나. 데이터의 특성

  • 존재적 특성: 객관적 사실
  • 당위적 특성: 추론, 예측, 전망 추정을 위한 근거

다. 데이터의 유형

구분 형태 특징
정성적 데이터 - 언어, 문자 등의 비정형 데이터
- 주관적 내용
회사 매출의 증가 - 저장, 검색, 분석에 많은 비용이 소모
- 통계분석이 어려움
정량적 데이터 - 수치, 도형, 기호 등 정형 데이터
- 객관적 내용
나이, 몸무게, 주가 등 - 정형화된 데이터로 비용 소모 적음
- 통계 분석 용이

 

라. 지식경영의 핵심 이슈

  • 지식경영: 기업의 생존과 경쟁력 확보가 인적자원의 지식에 달려있다고 가정, 기업이 구성원 개개인이 가진 지식의 공유를 통해 기업 문제해결 능력을 향상하려는 경영 방식
  • 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 함
구분 형태 특징 상호작용
암묵지 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 김장김치 담그기 사회적으로 중요하지만 다른 사람에게 공유되기 어려움 공통화, 내면화
형식지 문서나 매뉴얼처럼 형상화된 지식 교과서, 비디오, DB 전달과 공유가 용이 표출화, 연결화

 

마. 데이터와 정보의 관계

  • DIKW의 정의
구분 내용
데이터(Data) 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실
정보(Information) 데이터의 가공, 처리와 데이터 간 관계 속에서 의미가 도출된 것
지식(Knowledge) 데이터를 통해 도출된 다양한 정보를 구조화, 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화
지혜(Wisdom) 지식의 축적과 아이디어가 결합된 창의적인 산물

 

2. 데이터베이스의 이해

가. 데이터베이스 정의

  • 1차개념확대(정형데이터 관리)
    • 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물 또는 수집물
    • 소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로 그 소재에 접근하거나 그 소재를 검색하도록 한 것
  • 2차개념확대(비정형 데이터 포함)
    • 관련된 레코드의 집합, 소프트웨어로는 DBMX를 의미
    • 문자, 기호, 음성 등 상호 관련된 다수의 컨텐츠를 정보처리 및 정보통신 기기에 의하여 체계적으로 수집, 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체

 

나. 데이터베이스의 특징

1) 일반적인 특징

데이터베이스 특징 설명
통합된 데이터(integrated data) - 동일한 내용의 데이터가 중복되어 있지 않음
- 데이터 중복은 관리상의 복잡한 부작용을 초래
저장된 데이터(stored data) - 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미
공용 데이터(shared data) - 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미
- 대용량화되고 구조가 복잡한 것이 보통
변화되는 데이터(changable data) - 데이터베이스에 저장된 내용은 데이터베이스의 현 시점에서의 상태를 의미, 이 상태는 데이터의 삽입, 삭제, 갱신으로 항상 변화하면서도 항상 현재의 데이터를 정확하게 유지해야 함

 

2) 다양한 측면에서의 특징

측면 특성
정보의 축적 및 전달 측면 - 기계가독성: 정보처리기기가 읽고 쓸 수 있음
- 검색가독성: 다양한 방법으로 필요한 정보를 검색
- 원격조작성: 정보통신망을 통하여 원거리에서도 온라인 이용
정보 이용 측면 - 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득
- 원하는 정보를 정확하고 경제적으로 찾아내는 특성
정보 관리 측면 - 정보를 일정한 질서와 구조에 따라 저장, 관리하여 방대한 양의 정보를 체계적으로 축적하고 추가 갱신하기 용이
정보기술 발전 측면 - 데이터 베이스는 정보처리, 정보 전송을 위한 네트워크기술의 발전을 견인
경제, 산업 측면 - 다양한 정보를 필요에 따라 신속하게 제공, 이요할 수 있는 인프라라는 특성을 가지고 있어 경제, 산업, 사회 활동의 효율성을 제고하고 국민의 편의를 증진하는 수단

 

다. 경영에서의 데이터베이스 활용

 

1) OLTP와 OLAP

  • OTLP
    • 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리 형태의 하나.
    • 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스에 엑세스, 처리 결과를 리턴하는 형태
    • 즉, 데이터베이스의 데이터를 수시로 갱신하는 프로세싱을 의미
  • OLAP
    • 정보 위주의 분석 처리를 의미하며, 다양한 비즈니스 관점에서 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻게 해주는 기술
    • OTLP에서 처리된 트랜잭션 데이터를 분석해 제품의 판매 추이, 구매 성향 파악 등을 프로세싱하는 것을 의미
    • OLTP가 데이터 갱신 위주라면 OLAP는 데이터 조회 위주
구분 OLTP OLAP
데이터 구조 복잡 단순
데이터 갱신 동적으로 순간적 정적으로 주기적
응답 시간 수 초 이내 수 초에서 몇 분 사이
데이터 범위 수 십일 전후 오랜 기간 저장
데이터 성격 정규적인 핵심 데이터 비정규적인 읽기 전용 데이터
데이터 크기 수 기가 바이트 수 테라 바이트
데이터 내용 현재 데이터 요약된 데이터
데이터 특성 트랜잭션 중심 주제 중심
데이터 엑세스 빈도 높음  보통
질의 결과 예측 주기적이며 예측 가능 에측하기 어려움

 

2) CRM과 SCM

가) CRM(Customer RElationship Management)

  • 고객관계관리, 기업이 고객과 관련된 내,외부 자료를 분석 및 통합해 고객 중심자원을 극대화하고, 이를 토대로 고객특성에 맞게 마케팅 활동을 계획,지원,평가 하는 과정

나) SCM(Supply Chain Management)

  • '공급망 관리'로, 기업에서 원재료의 생산, 유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 것
부문 내용
제조부문 - ERP: 인사, 재무, 생산 등 기업의 전 부문에 걸쳐 독립적이던 시스템들을 하나의 통합 시스템으로 재구축, 생산성을 극대화
- BI: 기업의 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스
- CRM
- RTE: ERP,SCM,CRM에서 진보하여 모든 정보를 하나로 통합하여 의사결정에 도움
금융부문 -EAI: 기업 내 연관된 모든 애플리케이션을 유기적으로 연동
-ESB: 업무 시스템들 간 연계 과정에서 데이터를 전송할 수 있는 전문양식을 미들웨어 기술과 어댑터, 채널 기술이 결합된 애플리케이션 연계 솔루션
-EDW: 기존 DW를 전사적으로 확장한 모델, 분석 애플리케이션들을 위한 원천
유통부문 - KMS: 지식관리시스템
- RFID: 주파수를이용해 ID를 식별하는 전자태그

 

3. 빅데이터의 이해

가. 빅데이터 정의

  • 기존 - "통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터"
  • 현재 - "다양한 형태의 데이터를 목적에 맞게 분석하여 해당 분야의 필요 지식을 추출, 의사결정에 활용하는 행위"

나. 데이터 양 측정을 위한 바이트 크기

KB = 10^3 bytes, MB = 10^6 bytes , GB = 10*9 bytes , TB = 10*12 bytes , ZB = 10^21 bytes

 

다. 빅데이터의 주요 특징

3V 4V
크기 다양성 속도 가치(Value)
진실성(Veracity)
정확성(Validity)
휘발성(Volatility)
Peta Byte 수준의 방대한 양 정형,비정형,반정형 데이터 실시간 생산 및 신속한 분석 유통
- 웹사이트 접속 정보
- 기업 활동 로그
- 소셜 미디어 데이터
- 센서 데이터
- 대용량 데이터 처리
- 클라우드 컴퓨팅

 

데이터 변화 => 기술변화 => 인재,조직 변화

 

라. 빅데이터로 인한 변화

이전 이후
사전처리 사후처리
표본조사 전수조사
인과관계 상관관계

 

마. 빅데이터의 사회, 경제적 가치

구분 내용
고객 세분화를 통한 소비자 맞춤형 비즈니스 기업들이 구체적인 고객 분류를 통해 고객의 요구사항에 적합한 맞춤형 서비스 제공
산업 투명성 향상 필요한 분야에 빅데이터를 적절한 시점에 제공함으로써 검색 및 처리 시간 절감
고객 니즈 확인 및 트렌드 예측 거래 데이터를 디지털 형태로 축적하여 정확한 성과 데이터 수집
알고리즘을 통한 의사결정 지원 정교한 분석에 의해 의사결정 향상, 가치 있는 인사이트 발굴
제품 및 서비스, 비즈니스 모델의 혁신 새로운 제품 및 서비스 개발 및 개선, 새로운 비즈니스 모델 설계

 

4. 빅데이터 조직 및 인력

가. 분석 조직의 구조

집중구조 기능구조 분산구조
- 전사 분석업무를 별도의 분석전담 조직에서 담당
- 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능
- 일반적인 분석 수행 구조
- 별도 분석조직이 없고 해당 업무 부서에서 분석 수행
- 전사적 핵심분석이 어려움, 부서에 국한된 분석 수행 가능성 높음
- 분석조직 인력들을 현업부서로 직접 배치하여 분석업무 수행
- 전사차원의 우선순위 수행

 

5. 빅데이터 플랫폼

가. 빅데이터 플랫폼의 정의 및 개념도

  • 빅데이터 플랫폼: 다양한 데이터 소스로부터 수집한 데이터를 처리하고 분석하여 지식을 추출하고, 이를 기반으로 지능화된 서비스를 제공하는데 필요한 IT환경
  • 개념도
    • 소프트웨어 계층, 플랫폼 계층, 인프라 스트럭처 계층으로 구성
  • 클라우드 서비스 종류
    • IaaS: 서버, 스토리지, 네트워크를 가상화 환경으로 만들어 필요에 따라 인프라 자원을 사용할 수 있게 제공하는 서비스
    • PaaS: SaaS개념을 개발 플랫폼으로 확장한 것으로, 웹에서 개발 플랫폼을 쉽게 빌려 쓸 수 있는 서비스
    • SaaS: IaaS와 PaaS위에 올라가는 스프트웨어를 의미, On-demand Software라고도 불림

나. 하둡 에코 시스템

 

1) 비정형 데이터 수집

  • 척와(Chuckwa): 분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 받아 HDFS에 저장하는 기술
  • 플럼(Flume) 많은 양의 로그데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트와 에이전트를 활용하는 기술
  • 스크라이브(Scribe) 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술

2) 정형 데이터 수집

  • 스쿱(Sqoop): 대용량 데이터 전송 솔루션으로 커넥터를 사용하여 관계형 데이터베이스 시스템에서 하둡 파일 시스템으로 데이터를 수집하거나, 하둡파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기술
  • 히호(Hiho): 스쿱과 같은 대용량 데이터 전송 솔루션이며, 하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있으며, JDBC인터페이스를 지원

3) 분산 데이터 저장

  • HDFS: 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템. 네임노드, 보조 네임노드, 데이터노드로 구성

4) 분산 데이터베이스

  • HBase: HDFS를 기반으로 구현된 컬럼 기반의 분산 데이터베이스로 실시간 랜덤 조회 및 업데이트 가능. 각각의 프로세스는 개인의 데이터를 비동기적으로 업데이트 가능

5) 분산 데이터 처리

  • 맵리듀스: 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어진 소프트웨어 프레임워크, 모든 데이터를 키-값 쌍으로 구성. 맵, 셔플, 리듀스로 구성.

6) 리소스 관리

  • 얀(YARN): 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼. 리소스 매니저, 노드 매니저, 애플리케이션 마스터, 컨테이너로 구성

7) 인메모리 처리

  • 아파치 스파크(Apache Spark): 하둡 기반 대규모 데이터 분산처리시스템으로 스트리밍 데이터, 온라인 머신러닝 등 실시간 데이터를 처리

8) 데이터 가공

  • 피그(Pig): 대용량 데이터 집합을 분석하기 위한 플랫폼. 하둡을 이용하여 맵리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴이라는 언어 자체 제공
  • 하이브(Hive): 하둡 기반 DW솔루션으로 SQL과 매우 유사한 HiveQL이라는 쿼리를 제공

9) 데이터 마이닝

  • 머하웃(Mahout): 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈소스로 분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀 분석, 진화 알고리즘 등 주요 알고리즘을 지원

10) 실시간 SQL 질의

  • 임팔라(Impala): 하둡 기반의 실시간 SQL질의 시스템으로 데이터 조회를 위한 인터페이스로 HiveQL을 사용, 수초 내에 SQL질의 결과를 확인 가능, HBase와 연동 가능.
  • 타조(Tajo): 다양한 데이터 소스를 위한 하둡 기반의 ETL기술을 이용해서 데이터 웨어하우스에 적재하는 시스템

11) 워크플로우 관리

  • 우지(Oozie): 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템

12) 분산 코디네이션

  • 주키퍼(Zookeeper): 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공하는 기술로 하나의 서버에서만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리.

6.빅데이터와 인공지능

가. 인공지능 vs 머신러닝 vs 딥러닝

인공지능 머신러닝 딥러닝
사람이 해야 할 일을 기계가 대신할 수 있는 모든 자동화에 해당 명시적으로 규칙을 프로그래밍하지 않고 데이터로부터 의사결정을 위한 패턴을 기계가 스스로 학습 인공신경망 기반의 모델로, 비정형 데이터로부터 특징 추출 및 판단까지 기계가 한 번에 수행

 

나. 인공지능 경쟁력 3요소

인공지능 성공비결 = 알고리즘 + H/W발달 + Big Data

 

7. 개인 정보 법 및 제도

가. 위기요인

  • 사생활 침해
  • 책임 원칙 훼손
  • 데이터 오용

나. 통제 방안

  • '동의'에서 '책임'으로
  • 결과 기반 책임 원칙 고수
  • 알고리즘 접근 허용

다. 데이터 3법

  • 개인정보보호법
  • 정보통신망법
  • 신용정보법

라. 가명처리 절차