728x90
반응형
SMALL

1절 데이터 분석 기법의 이해

1. 데이터 처리

1) 활용 방법

- 대기업은 데이터웨어하우스(DW)나 데이터마트(DM)를 통해 분석 데이터를 가져와서 사용한다.

- 기존운영시스템(legacy)이나 스테이징영역(Staging)과 ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 사용 가능하다.

- Staging영역은 legacydptj 가져와 임시저장된 것으로 가급적이면 품질관리를 하는 클렌징 단계인 ODS가 안전하기 때문에 데이터의 전처리를 해서 DW나 DM과 결합하여 활용하는 것이 가장 이상적이다.

 

2) 정형화된 패턴 처리

- 비정형 데이터 : DBMS에 저장됐다가 텍스트 마이닝을 거쳐 DM와 통합한다.

- 관계형 데이터 : DBMS에 저장되어 사회 신경망분석을 거쳐 분석결과 통계값이 DM과 통합되어 활용된다.

 

2. 시각화(시각화 그래프)

- 시각화는 가장 낮은 수준의 분석이지만 복잡한 분석보다도 더 효율적이다.

- 빅데이터 분석에서 시각화는 필수

- 탐색적 분석을 할 때 시각화는 필수

- SNL분석(사회연결망 분석)을 할 때 자주 활용

 

3. 공간분석(GIS)

- 공간분석(Spatial Analysis)은 공간적 차원과 관련된 속성들을 시각화하는 분석이다.

- 지도 위에 관련 속성들을 생성 후 크기, 모양, 선 굵기 등으로 구분하여 결과를 얻는다.

 

4. 탐색적 자료 분석(EDA)

- 탐색적 분석은 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정이다.

- 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법

- 1977년 튜키교수가 발표함으로 등장하며 1980년대부터 떠오름.

 

1) EDA의 4가지 주제

- 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성

2) 효율의 예

- 데이터이해 단계, 변수생성 단계, 변수선택 단계에서 활용

 

5. 통계분석

1) 통계란?

- 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자, 표, 그림으로 나타낸 것.

- 기술통계와 추측통계로 나뉨

 

2) 기술통계(Decriptive Statistics)

- 모집단으로부터 표본을 추출하고 표본이 갖고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리/요약하기 위해 하나의 숫자 또는 그래프 형태로 표현하는 절차이다.

- 이 통계로부터 시각화가 등장함.

 

3) 추측(추론)통계(Inferential Statistics)

- 모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차이다.

 

6. 데이터 마이닝

1) 의미

- 대표적인 고급 데이터 분석법

- 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료의 관계, 패턴, 규칙 등을 탐색하고 이를 모형화함으로써 알려지지 않았던 유용한 지식을 추출하는 분석 방법

 

2) 방법론

- 데이터베이스에서의 지식탐색 : DW에서 DM을 생성하면서 각 데이터들의 속성을 사전분석을 통해 지식을 얻는 방법

- 기계학습(Machine Learning) : 인공지능의 한 분야. 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야.

인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM

- 패턴인식(Pattern Recognition) : 원자료를 이용해 사전지식, 패턴에서 추출된 통계 정보를 기반으로 자료/패턴을 분류하는 방법.

장바구니 분석, 연관규칙

728x90
반응형
LIST

+ Recent posts