본문 바로가기
빅데이터분석기사

[빅데이터분석기사 필기] 3-5 비정형 데이터 분석기법

by 아마도개발자 2024. 8. 17.

 

1. 비정형 데이터

  • 비정형 데이터란 형식이 정해지지 않은 데이터로 구조와 형태가 다르고 정형화 되지 않은 문자, 음성, 이미지, 영상데이터이다.
  • 데이터의 유형
유형 내용 예시
정형 데이터 - 형태가 있으며, 연산이 가능. 주로 RDBMS에 저장
- 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬움 
관계형 데이터베이스, 스프레드 시트, CSV
반정형 데이터 - 형태가 있으며, 연산이 불가능. 주로 파일로 저장
- 주로 API형태로 저장되어 데이터 처리기술이 요구
XML, HTML, JSON, 로그 등
비정형 데이터 - 형태가 없으며 연산이 불가능, 주로 NoSQL에 저장
- 데이터 수집난이도가 높으며 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움
소셜데이터, 영상, 이미지, 음성 등

 

  • 비정형 데이터의 종류
유형 예시
텍스트 - 트위터, 페이스북 등 소셜 미디어에서의 실시간 대화, sns 등
- 문서, 단어, 구문이나 용어 형태
이미지 - 인터넷 매체로 업로드되는 모든 사진과 그림 데이터
- JPEG, GIF, PNG 등 파일 형식에 관계없이 데이터 분석을 위해 모두 동일한 형태로 변환하여 사용
음성 및 영상 - 음성과 동영상은 스트리밍 형태로 구현. 스트리밍이란 인터넷에서 데이터를 실시간 전송, 구현할 수 있게 하는 기술

로그 - 로그란 컴퓨터의 처리 내용이나 이용 상황을 시간의 흐름에 따라기록한 것 
  • 비정형 데이터 분석 기법
    • 비정형 데이터 속에서 유의미한 정보나 특정패턴을 발견하기 위해 비정형  데이터 마이닝, 자연어 처리기법, 텍스트 분석 등의 분석기법을활용
    • 정제과정을 통해 비정형 데이터를 정형 데이터로 만든 후 분류, 군집화, 회귀분석과 같은 분석 방법론을 적용할 수 있으며 이를 비벙형 데이터 마이닝이라 한다. 

 

2. 사회연결망 분석

가. SNA(Social Network Analysis) 정의

  • 개인과 집단들 간의 관계를 노드와 링크로 모델링하여 그것의 위상구조와 확산 및 진화 가정을 계량적으로 분석하는 방법론
  • 사회연결망에서 개인 또는 집단이 하나의 노드이며, 노드 사이에 존재하는 연결은 선으로 표현

나. SNA 분류

  • 집학론적 방법: 객체들의 집합에서 각 객체들 간의 관계를 다음과 같이 관계 쌍으로 표현
  • 그래프 이론을 이용한 방법: 객체를 점으로 표현하고, 두 객체 간의 연결은 두 점을 연결하는 선으로 표현

 

3. 사회연결망 분석에서 네트워크 구조를 파악하기 위한 기법

  • 중심성
연결정도 중심성 - 한 점에 직접적으로 연결된 점들의 합
- 한 점에 얼마나 많은 다른 점들이 관계를 맺고 있는지를 기준으로, 그 점이 중심에 위치하는 정도를 계량화한 것
- 연결된 노드의 수가 많을수록 연결정도 중심성이 높아짐
근접 중심성 - 한 노드로부터 다른 노드에 도달하기까지 필요한 최소 단계의합
- 근접 중심성이 높을수록 네트워크의 중앙에 위치 
매개 중심성 - 네트워크 내에서 한 점이 담당하는 매개자 혹은 중재자 역할의 정도
- 한 노드가 연결망 내의 다른 노드들 사이의 최다 연결 경로 위에 위치하면할수록 그 노드의 매개 중심성이 높음
위세 중심성 - 자신의 연결정도 중심성으로부터 발생하는 영향력과 자신과 연결된 타인의 영향력을 합하여 결정
- 위세가 높은 노드들과 관계가 많을수록 자신의 위세 또한 높아짐
보나시치 권력지수: 위세 중심성의 일반적인 형태로, 연결된 노드의 중요성에 가중치를 둬 노드의 중심성을 측정
  • SNA 적용
    • 분석용 솔루션으로 KXEN, SAS, XTRACT, Indiro, Onalytica, Unicet, Pajek, Inflow 등이 있음
    • 분산 처리 기술인 MapReduce를 활용하거나 Giraph등을 통해 SNA적용 가능
    • R과 하둡을 연동하는 RHadoop, RHIPE같은 기술 활용 가능
  • SNA 단계
    • 그래프 생성 => 가공 분석 => 효율성 정의 => 다른 데이터 마이닝 기법과 연계
  • SNA 활용방안
    • 소셜 네트워크 분석은 데이터가 몇 개의 집단으로 구성되는지, 집단 간의 특징은 무엇이고, 해당 집단에서 영향력 있는 고객은 누구인지, 시간의 흐름과 고객 상태의 변화에 따라 다음에 누가 영향을받을지를 기반으로 churn/acquision prediction, fraud, product recommendation 등에 활용