1절 데이터 분석 기법의 이해
1. 데이터 처리
1) 활용 방법
- 대기업은 데이터웨어하우스(DW)나 데이터마트(DM)를 통해 분석 데이터를 가져와서 사용한다.
- 기존운영시스템(legacy)이나 스테이징영역(Staging)과 ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 사용 가능하다.
- Staging영역은 legacydptj 가져와 임시저장된 것으로 가급적이면 품질관리를 하는 클렌징 단계인 ODS가 안전하기 때문에 데이터의 전처리를 해서 DW나 DM과 결합하여 활용하는 것이 가장 이상적이다.
2) 정형화된 패턴 처리
- 비정형 데이터 : DBMS에 저장됐다가 텍스트 마이닝을 거쳐 DM와 통합한다.
- 관계형 데이터 : DBMS에 저장되어 사회 신경망분석을 거쳐 분석결과 통계값이 DM과 통합되어 활용된다.
2. 시각화(시각화 그래프)
- 시각화는 가장 낮은 수준의 분석이지만 복잡한 분석보다도 더 효율적이다.
- 빅데이터 분석에서 시각화는 필수
- 탐색적 분석을 할 때 시각화는 필수
- SNL분석(사회연결망 분석)을 할 때 자주 활용
3. 공간분석(GIS)
- 공간분석(Spatial Analysis)은 공간적 차원과 관련된 속성들을 시각화하는 분석이다.
- 지도 위에 관련 속성들을 생성 후 크기, 모양, 선 굵기 등으로 구분하여 결과를 얻는다.
4. 탐색적 자료 분석(EDA)
- 탐색적 분석은 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정이다.
- 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법
- 1977년 튜키교수가 발표함으로 등장하며 1980년대부터 떠오름.
1) EDA의 4가지 주제
- 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
2) 효율의 예
- 데이터이해 단계, 변수생성 단계, 변수선택 단계에서 활용
5. 통계분석
1) 통계란?
- 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자, 표, 그림으로 나타낸 것.
- 기술통계와 추측통계로 나뉨
2) 기술통계(Decriptive Statistics)
- 모집단으로부터 표본을 추출하고 표본이 갖고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리/요약하기 위해 하나의 숫자 또는 그래프 형태로 표현하는 절차이다.
- 이 통계로부터 시각화가 등장함.
3) 추측(추론)통계(Inferential Statistics)
- 모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차이다.
6. 데이터 마이닝
1) 의미
- 대표적인 고급 데이터 분석법
- 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료의 관계, 패턴, 규칙 등을 탐색하고 이를 모형화함으로써 알려지지 않았던 유용한 지식을 추출하는 분석 방법
2) 방법론
- 데이터베이스에서의 지식탐색 : DW에서 DM을 생성하면서 각 데이터들의 속성을 사전분석을 통해 지식을 얻는 방법
- 기계학습(Machine Learning) : 인공지능의 한 분야. 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야.
인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM
- 패턴인식(Pattern Recognition) : 원자료를 이용해 사전지식, 패턴에서 추출된 통계 정보를 기반으로 자료/패턴을 분류하는 방법.
장바구니 분석, 연관규칙
'License > ADsP' 카테고리의 다른 글
[3과목 3장 1절] 데이터 변경 및 요약 (0) | 2023.04.23 |
---|---|
[3과목 2장] R 프로그래밍 기초 (0) | 2023.04.20 |
[2과목 2장 2절] 분석 거버넌스 체계 수립 (0) | 2023.04.08 |
[2과목 2장 1절] 마스터 플랜 수립 프레임 워크 (0) | 2023.04.08 |
[2과목 1장 4절] 분석 프로젝트 관리 방안 (0) | 2023.04.08 |