728x90
반응형
SMALL

1. 통계

통계 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
통계자료의 획득 방법 총 조사와 표본조사
표본 추출 방법 단순랜덤추출, 계통추출법, 집략추출법, 층화추출법
자료의 측정 방법 명목척도, 순서척도, 구간척도, 비율척도

2. 통계분석

기술통계
(Descriptive Statistic)
평균, 표춘편차, 중위수, 최빈값, 그래프
통계적 추론
(Statistical Inference)
모수추정, 가설검정, 예측

3. 확률 및 확률 분포

확률변수 특정 값이 나타날 가능성이 확률적으로 주어지는 변수
이산형 확률분포 베르누이분포, 이항분포, 기하분포, 다항분포, 포아송분포
연속형 확률분포 균일분포, 정규분포, 지수분포, t분포, F분포, x^2 분포

4. 추정 및 가설검정

추정 표본으로부터 미지의 모수를 추측하는 것
점추정(Point Estimation) '모수가 특정한 값일 것'이라고 추정하는 것.
구간추정(Interval Estimation) 점추정을 보완하기 위해 모수가 특정 구간에 있을 것이라고 추정하는 것.

- 가설검정 : 모집단에 대한 가설을 설정한 뒤, 그 가설을 채택여부를 결정하는 방법

* 귀무가설(H0) vs 대립가설(H1)

* 1종 오류 : 귀무가설이 옳은데도 귀무가설을 기각하게 되는 오류

* 2종 오류 : 귀무가설이 옳지 않은데도 귀무가설을 채택하게 되는 오류

  H0가 사실이라고 판정 H0가 사실이 아니라고 판정
H0가 사실임 옳은 결정 제 1종 오류
H0가 사실이 아님 제 2종 오류 옳은 결정

=> 1종 오류의 크기를 0,1 / 0.5 / 0.01 로 고정시키고 2종 오류가 최소가 되도록 기각역을 설정

 

5. 비모수 검정

- 비모수 검정 : 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시

- 가설 설정 방법 : '분포의 형태가 동일하다', '분포의 형태가 동일하지 않다'라는 식으로 가설을 설정

- 검정 방법 : 순위나 두 관측값 차이의 부호를 이용해 검정

728x90
반응형
LIST
728x90
반응형
SMALL

2절. 데이터 가공

* 종류

1) head(데이터셋), tail(데이터셋) 

- 시작 또는 마지막 6개 record만 조회

2) summary(데이터셋)

- 수치형 변수 : 최댓값, 최솟값, 평균, 1사분위수, 2사분위수(중앙값), 3사분위수

- 명목형 변수 : 명목값, 데이터 개수

1. 변수의 구간화

- 신용평가 모형, 고객 세분화 등의 시스템으로 모형을 적용하기 위해서 각 변수들을 구간화하여 점수를 적용하는 방식 활용

- 변수의 구간화를 위한 rule이 존재함

(** 10진수 단위로 구간화하고, 구간을 보통 5개로 나누며, 7개 이상의 구간은 잘 만들지 않음)

 

2. 변수 구간화의 방법

Binning 연속형 변수를 범주형 변수로 변환하기 위해 50개 이하의 구간에 동일한 수의 데이터를 할당하여 의미를 파악하면서 구간을 축소하는 방법
의사결정나무 모형을 통해 연속형 변수를 범주형 변수로 변환하는 방법

 

3절. 기초 분석 및 데이터 관리

1. 결측값 처리

1) 변수에 데이터가 비어있는 경우: NA, ., 99999999, Unknown, Not Answer  등

2) 단순대치법(Single Imputation)

Completes Analysis 결측값의 레코드를 삭제
평균대치법 관측 및 실험을 토애 얻어진 데이터의 평균으로 대치
* 비조건부 평균 대치법 : 관측 데이터의 평균으로 대치
* 조건부 평균 대치법 : 회귀분석을 통해 데이터를 대치
 단순확률 대치법 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완한 방법으로 Hot-Deck / Nearest Neighbor방법이 있음

3) 다중 대치법(Multiple Imputation) : 단순 대치법을 m번 실시하여, m개의 가상적 자료를 만들어 대치하는 방법

 

2. R의 결측값 처리 관련 함수

complete.cases() 데이터 내 레코드에 결측값이 있으면 FALSE, 없으면 TRUE반환
is.na() 결측값이 NA인지의 여부를 TRUE / FALSE로 반환
DMwR 패키지
: centralImputation()
NA 값을 가운데 값으로 대치(숫자 - 중위수, Factor - 최빈값)
DMwR 패키지
: knnImputation()
NA값을 k최근 이웃 분류 알고리즘을 사용하여 대치
(k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 사용)
Amelia 패키지
: amelia()
time-series-cross-sectional data set에서 활용

3. 이상값 처리

1) 이상값

- 의도하지 않은 현상으로 입력된 값 or 의도된 극단값 -> 활용가능

- 잘못 입력된 값 or 의도하지 않은 현상으로 입력된 값이지만 분석 목적에 부합되지 않는 값 -> Bad Data이므로 제거

 

2) 이상값의 인식

- ESD(Extreme Studentized Deviation) : 평균으로부터 3 표준편차 떨어진 값

- 기하평균 - 2.5 * 표준편차 < data < 기하평균 + 2.5 * 표즌편차

- Q1 - 1.5*IQR < data < Q3 + 1.5 * IQR을 벗어나는 데이터(사분위수 이용해 제거)

 

3) 이상값(극단값)의 처리

- 절단 : 이상값이 포함된 레코드를 삭제

- 조정 : 이상값을 상한 또는 하한 값으로 조정

728x90
반응형
LIST
728x90
반응형
SMALL

1. 데이터 마트

- 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있다.

 

2. 요약변수와 파생변수

  요약변수 파생변수
정의 - 수집된 정보를 분석에 맞게 종합한 변수로 데이터마트에서 가장 기본적인 변수
- 많은 모델이 공통으로 사용할 수 있어 재활용성 높음
- 사용자(분석가)가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
- 매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있음
예시 기간별 구매 금액, 횟수, 여부 / 위클리 쇼퍼/ 상품별 구매 금액, 횟수, 여부 / 상품별 구매 순서 / 유통 채널별 구매 금액 / 단어 빈도/ 초기 행동변수 / 트랜드 변수 / 결측값과 이상값 처리 / 연속형 변수의 구간화 근무시간 구매지수 / 주 구매 매장 변수/ 주 활동 지역변수 / 주 구매 상품 변수/ 구매상품 다양성 변수/ 선호하는 가격대 변수/ 시즌 선호 고객 변수 / 라이프 스테이지 변수 / 라이프스타일 변수/ 휴면가망 변수/ 최대가치 변수 / 최적 통화시간 등

 

3. Reshape 패키지

* 2개의 핵심적인 함수로 구성

melt() 쉬운 casting을 위해 데이터를 적당한 형태로 만들어주는 함수
cast() 데이터를 원하는 형태로 게산 또는 변형시켜주는 함수

* 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터마트를 구성할 수 있게 해주는 패키지

 

4. sqldf 패키지

- R에서 sql명령어를 사용 가능하게 해주는 패키지로 SAS의 proc sql과 같은 기능

head([df])
sqldf("select * from [df] limit 6")

subset([df],[col]%in% c("BF","HF"))
sqldf("select * from [df] where [col] in ('BF','H')")

merge([df1],[df2])
sqldf("select * from [df1],[df2]")

 

5. plyr 패키지

- apply 함수를 기반으로 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지

- split-apply-combine 방식으로 데이터를 분리하고 처리한 다음, 다시 결합하는 등 필수적인 데이터 처리 기능 제공

  array data frame list nothing
array aaply adply alply a_ply
data frame daply ddply dlply d_ply
list laply ldply llply l_ply
n relicates raply rdply rlply r_ply
function
argumendts
maply mdply mlply m_ply

 

 

6. data.table

- R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나로 대용량 데이터의 탐색, 연산, 병합에 유용

- 기존 data.frame 방식보다 월등히 빠른 속도

- 특정 column을 key값으로 색인을 지정한 후 데이터를 처리

- 빠른 grouping과 ordering, 짧은 문장 지원 측면에서 데이터프레임보다 유용함.

 

728x90
반응형
LIST
728x90
반응형
SMALL

1절 R 소개

1. 데이터 분석 도구의 현황

1) R의 탄생

- R은 오픈소스 프로그램으로 통계/데이터마이닝과 그래프를 위한 언어이다

- 최신 통계분석, 마이닝 기능 제공

- 많은 패키지가 업데이트됨

 

2) R의 특징

- 오픈소스 프로그램

- 월등한 그래픽 및 성능

- 시스템 데이터 저장 방식

- 모든 운영체제에서 사용 가능

- 표준 플랫폼 : S 통계 언어 기반

- 객체지향 언어이며 함수형 언어

 

3) R Studio

- 오픈소스 및 다양한 OS 지원

- 메모리의 변수 현황과 타입유형 인지 편리

- 스크립트용 프로그래밍

- 래틀(Rattle)은 GUI가 패키지와 긴밀하게 결합돼 있어 정해진 기능만 사용 가능. => 업그레이드 필수

 

2절 R 기초

1. 통계 패키지 R

1) 패키지(Package)

- 의미 : R함수와 데이터 및 컴파일된 코드의 모임

(C:\Program Files\R\R-4.2.3\library)

- 패키지 불러들이기

install.packages("패키지명") #패키지 설치
library(패키지명) #패키지 활성화

2) 프로그램 파일 실행

기능 R 코드 비고
스크립트로 프로그래밍된 파일 실행 source("파일명")  
프로그램 파일 sink(file, append, split)함수
: R코드 실행 결과를 특정파일에서 출력
file: cnffurgkf vkdlfaud
append: 파일에 결과를 덮어쓰거나 추가해서 출력
split: 출력파일에만 출력하거나 콘솔창에 출력(default는 FALSE로 파일에만 실행 결과 출력)
pdf() 함수
: 그래픽 출력을 pdf파일로 지정
예) pdf("a_out.pdf"), pdf("d:\data\R\a_out.pdf")
dev.off() 로 파일 닫기  

 

2. 변수와 벡터 생성

기능 R 코드
숫자(Number) integer, double
논리값(Logical) TRUE(T), FALSE(F)
문자(Character) "a", "abc"

 

3. R 기초 중에 기초

기능 R 코드 비고
출력하기 print()
: 한 번에 하나의 객체만 출력
cat()
: 여러 항목을 묶어서 연결된 결과로 출력. 복합적 데이터 구조(행렬, list 등)를 출력할 수 없음.
cmd에 변수나 표현식을입력\
예) print(a), cat("a", "b", "c")
변수에 값 할당 <-,<<--, =, -> Alt + '-' 시 자동 '<-' 입력됨
변수 목록보기 ls(), ls.str()  
변수 삭제 rm() 모든 변수를 삭제할 때 사용
예) rm(list=ls())
벡터 생성 c() 한 타입만 저장 가능
숫자와 문자가 섞여있으면 모든 원소는 문자로 저장됨.
R 함수 정의 function(매개변수1, 매개변수2,,,){
expr1, expr2,,,
}
<expr 특징>
- 지역변수: 단순히 값 대입만 하면 지역변수로 생성되며 함수 종료 시 삭제됨
- 조건부 실행: if문
- 반복 실행: for문, while문, repeat문
- 전역변수: <<-를 사용

 

4. R 프로그램 소개

기능 R 코드 비고
데이터 할당 a<-1, a=1  
화면 프린트 a, print(a)  
결합 x<-c(1,2,3,4)
x<-c(6.25, 3.14, 5.18)
x<-c(x,y,z)
x<-c("fee", "fie", "fun")
c함수는 문자, 숫자, 논리값, 변수를 모두 결합 가능하며 벡터와 데이터셋을 생성 가
수열 1:5
9:-2
seq(from=0,to=20, by=2)
seq(from=0,to=30, length.out=5)
seq(10,100,10)
콜론,seq함수를 사용하여 연속적인 숫자 생성.
seq함수는 간격과 결가값 길이 지정 가
반복 rep(1,time=5) //1 1 1 1 1
rep(1:4,2) //1 2 3 4 1 2 3 4
rep(c(1,2),2) //1 2 1 2
숫자나 변수의 값들을 time인자에 지정한 횟수만큼 반복
문자 붙이기 A<-paste("a","b","c",sep="-")
paste(A,c("e","f"))
paste(A,10,sep=" ") 
sep에 지정한 구분자고 문자열을 연결시켜줌
문자열 추출 substr("Bigdataanalysis",1,4) //Bigd  
논리값 a<-TRUE(T)
b<-FALSE(F)
 
논리 연산자 ==,!=,<,<=,>,>=  
벡터의 원소 선택 V[n] : 선택하고자 하는 자리수
V[-n] : 제외하고자 하는 자리
A<-c(1,2,3,4,5)
A[-2] // 1 3 4 5

 

5. 벡터의 연산

연산자 우선순위 표현방법
[ [[ 인덱스 a[1]
$ 요소 뽑아내기, 슬롯 뽑아내기 a$xoef
^ 지수 5^2
- + 단항 마이너스, 플러스 -2, +5
: 수열 생성 1:10
%any% 특수 연산자 %/% : 나눗셈 몫
%%: 나눗셈 나머지
%*%: 행렬의 곱
* / 곱하기, 나누기 3*5, 3/5
+ - 더하기, 빼기 3+5
== != <> <= >= 비교 3==5
! 논리부정 !(3==5)
& 논리 "and" TRUE & TRUE
| 논리 "or" TRUE | FALSE
~  
-> ->> 대입 3->a
= 대입 a=3
<- <<- 대입 a<-3
? 도움말  

 

6. 벡터의 기초통계

기능 R 코드 비고
평균 mean(변수) 변수의 평균 산출
합계 sum(변수) 변수의 합계 산출
중앙값 median(변수) 변수의 중앙값 산출
로그 log(변수) 변수의 로그값 산출
표준편차 sd(변수) 변수의 표준편차 산술
분산 var(변수) 변수의 분산 산출
공분산 cov(변수1, 변수2) 변수간 공분산 산출
상관계수 cor(변수1, 변수2) 변수간 상관계수 산출
변수의 길이 값 length(변수) 변수간 길이를 값으로 출력

 

3절 입력과 출력

1. 데이터 분석 과정

*INPUT(IMPORT) => ANALYSIS => OUTPUT(EXPORT)

- 분석자가 분석 목적에 맞는 적절한 분석 방법론을 선택해 분석을 통해 얻는 결과를 통할력을 갖고 해석함으로써 분석 과정을 마친다.

- 데이터 분석을 위해서는 설계된 방향으로 데이터를 정확하게 입력받는 것에서부터 시작될 수 있다.

- 입력된 데이터는 다양한 전처리 작업을 거쳐 분석가능한 형태로 재정리된다 => 데이터 핸들링

- 분석된 결과를 이해하기 쉽고 잘 해석할 수 있도록 생산하는 부분을 데이터 출력이라고 한다. 보고서의 형태로 정리되어 최종 의사결정자와 고객에게 전달됨으로써 통계분석은 종료된다.

 

2. R에서의 데이터 입력과 출력

입력 기능 R 코드
키보드로 데이터를 입력 1) 데이터 양이 적어 직접 입력 방법
c() //combine 함수
2) 데이터 편집기 활용
고정자리수 데이터 파일 읽기
(fixed-width file)
read.fwf("파일이름", widths=c(w1,w2,...,wn)
테이블로 된 데이터 파일 읽기
(변수 구분자 포함)
read.table("파일이름", sep="구분자")
CSV 데이터 파일 읽기
(변수 구분자는 쉼표)
read.csv("파일이름", header=T)
웹에서 data file 읽어오기
(변수 구분자는 쉼표)
read.csv("주소")
HTML에서 테이블 읽어 올 때 library(XML)
url <- 'http://www.example.com/data/table.html'
t <- readHTMLTable(url)
복잡한 구조의 파일 읽기
(웹 테이블)
lines <- readLines("a.txt", n=num)

 

출력 기능 R 코드
출력할 내용의 자리수 정의 R의부동소수점 표현 : 7자리로 표시
print(pi, digits=num),
cat(format(pi, digis=num),"\n")
options(digits=num)
파일에 출력하기 cat("출력할 내용", 변수, "\n", file="파일이름", append=T)
CSV 데이터 파일로 출력
(변수 구부자는 쉼표)
write.csv(행렬 또는 데이터프레임,"파일이름",row.names=F)

 

4절 데이터 구조와 데이터 프레임

1. 벡터(Vector)

1) 벡터들은 동질적이다. : 모든 원소는 같은 자료형 또는 같은 모드(mode)를 가진다.

2) 벡터는 위치로 인덱스 된다. : v[2]는 2번째 원소이다. index 1부터 시작

3) 벡터는 인덱스를 통해 여러 개의 원소로 구성된 하위 벡터를 반환할 수 있다. V[c(2,3)]은 V벡터의 2,3번째 원소로 구성된 하위벡터이다.

4) 벡터 원소들은 이름을 가질 수 있다.

V<-c(10,20,30); names(V)<-c("Moe","Larry","Curly")
V["Larry"] 

#출력결과
Larry
   20

 

2. 리스트(List)

1) 리스트는 이질적이다. : 여러 자료형의 원소들이 포함될 수 있다.

2) 리스트는 위치로 인덱스 된다. : L[[2]]는 L리스트의 2번재 원소이다.

3) 리스트에서 하위 리스트를 추출할 수 있다. L[c(2,3)] 은 L리스트의 2,3번째 원소로 이루어진 하위 리스트이다.

4) 리스트의 원소들은 이름을 가질 수 있다. L[["Moe"]]와 L$Moe는 둘다 "Moe"라는 이름의 원소를 지칭한다.

 

3. R에서의 자료형태(Mode)

객체 예시 모드(Mode)
숫자 3.1415 수치형(Numberic)
숫자 벡터 c(2,4,5,5.5) 수치형(Numberic)
문자열 "Tom" 문자형(Character)
문자열 벡터 c("Tom", "Yoon", "Kim") 문자형(Character)
요인 factor(c("A","B","C")) 수치형(Numberic)
리스트 list("Tom","Yoon","Kim") 리스트(List)
데이터 프레임 data.frame(x=1:3, y=c("Tomd","Yoon","Kim") 리스트(List)
함수 print 함수(Function)

 

4. 데이터프레임(Dataframe)

1) 데이터프레임은 강력하고 유연한 구조. SAS의 데이터셋을 모방

2) 데이터 프레임의 리스트의 원소는 벡터 또는 요인이다.

3) 그 벡터와 요인은 데이터 프레임의 열이다.

4) 벡터와 요인들은 동일한 길이이다.

5) 표 형태의 데이터 구조이며 각 열은 서로 다른 데이터 형식을 가질 수 있다.

6) 열은 이름이 있어야 한다.

b<-data.frame(empno=1:3, empname=c("Y","T","K"))

b[1]
#결과
empno
1     1
2     2
3     3

b["empname"] //만들 때는 ""없음. 조회할 때는 ""넣어야함
#결과
empname
1       Y
2       T
3       K

 

5. 그 밖의 데이터 구조들

1) 단일값(Scalar)

R에서는 원소가 하나인 벡터로 인식/처리

>pi
[1] 3.1415

>length(pi)
[1] 1

2) 행렬(Matrix)

R에서는 차원을 가진 벡터로 인식(2차원)

>a<-1:9
>dim(a)<-c(3,3)
>a
//출력결과
     [,1] [,2] [,3]
[1,]    1    4    7
[2,]    2    5    8
[3,]    3    6    9

3) 배열(Array)

행열에 3차원 또는 n차원까지 확장된 형태

주어진 벡터에 더 많은 차원을 부여하여 배열을 생성

> b<-1:12
> dim(b)<-c(2,3,2)
> b

//출력결과
, , 1

     [,1] [,2] [,3]
[1,]    1    3    5
[2,]    2    4    6

, , 2

     [,1] [,2] [,3]
[1,]    7    9   11
[2,]    8   10   12

4) 요인(Factor)

벡터처럼 생겼지만, R에서는 유일값의 정보를 얻어내는데, 이 유일값들을 요인의 수준(Level)이라고 한다.

주로 범주형 변수, 집단부류에 사용한다.

=> 중복값 제거

> a<-c(1,2,3,2,4,5,3,6,6,7)
> factor(a)

//결과
 [1] 1 2 3 2 4 5 3 6 6 7
Levels: 1 2 3 4 5 6 7

 

6. 벡터, 리스트, 행렬 다루기

- 행렬은 R에서 차원을 가진 벡터이며, 텍스트마이닝과 소셜네트워크분석 등에 활용한다.

- 재활용 규칙(Recycle Rule) : 길이가 서로 다른 두 벡터에 대해 연산을 할 때, R은 짧은 벡터의 처음으로 돌아가 연산이 끝날 때까지 원소들을 재활용한다.

> a<-seq(1,6)
> b<-seq(7,9)
> a+b
[1]  8 10 12 11 13 15
> cbind(a,b)
     a b
[1,] 1 7
[2,] 2 8
[3,] 3 9
[4,] 4 7
[5,] 5 8
[6,] 6 9


5절 데이터 변형

 

728x90
반응형
LIST
728x90
반응형
SMALL

1절 데이터 분석 기법의 이해

1. 데이터 처리

1) 활용 방법

- 대기업은 데이터웨어하우스(DW)나 데이터마트(DM)를 통해 분석 데이터를 가져와서 사용한다.

- 기존운영시스템(legacy)이나 스테이징영역(Staging)과 ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 사용 가능하다.

- Staging영역은 legacydptj 가져와 임시저장된 것으로 가급적이면 품질관리를 하는 클렌징 단계인 ODS가 안전하기 때문에 데이터의 전처리를 해서 DW나 DM과 결합하여 활용하는 것이 가장 이상적이다.

 

2) 정형화된 패턴 처리

- 비정형 데이터 : DBMS에 저장됐다가 텍스트 마이닝을 거쳐 DM와 통합한다.

- 관계형 데이터 : DBMS에 저장되어 사회 신경망분석을 거쳐 분석결과 통계값이 DM과 통합되어 활용된다.

 

2. 시각화(시각화 그래프)

- 시각화는 가장 낮은 수준의 분석이지만 복잡한 분석보다도 더 효율적이다.

- 빅데이터 분석에서 시각화는 필수

- 탐색적 분석을 할 때 시각화는 필수

- SNL분석(사회연결망 분석)을 할 때 자주 활용

 

3. 공간분석(GIS)

- 공간분석(Spatial Analysis)은 공간적 차원과 관련된 속성들을 시각화하는 분석이다.

- 지도 위에 관련 속성들을 생성 후 크기, 모양, 선 굵기 등으로 구분하여 결과를 얻는다.

 

4. 탐색적 자료 분석(EDA)

- 탐색적 분석은 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정이다.

- 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법

- 1977년 튜키교수가 발표함으로 등장하며 1980년대부터 떠오름.

 

1) EDA의 4가지 주제

- 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성

2) 효율의 예

- 데이터이해 단계, 변수생성 단계, 변수선택 단계에서 활용

 

5. 통계분석

1) 통계란?

- 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자, 표, 그림으로 나타낸 것.

- 기술통계와 추측통계로 나뉨

 

2) 기술통계(Decriptive Statistics)

- 모집단으로부터 표본을 추출하고 표본이 갖고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리/요약하기 위해 하나의 숫자 또는 그래프 형태로 표현하는 절차이다.

- 이 통계로부터 시각화가 등장함.

 

3) 추측(추론)통계(Inferential Statistics)

- 모집단으로부터 추출된 표본의 표본통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차이다.

 

6. 데이터 마이닝

1) 의미

- 대표적인 고급 데이터 분석법

- 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료의 관계, 패턴, 규칙 등을 탐색하고 이를 모형화함으로써 알려지지 않았던 유용한 지식을 추출하는 분석 방법

 

2) 방법론

- 데이터베이스에서의 지식탐색 : DW에서 DM을 생성하면서 각 데이터들의 속성을 사전분석을 통해 지식을 얻는 방법

- 기계학습(Machine Learning) : 인공지능의 한 분야. 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 분야.

인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM

- 패턴인식(Pattern Recognition) : 원자료를 이용해 사전지식, 패턴에서 추출된 통계 정보를 기반으로 자료/패턴을 분류하는 방법.

장바구니 분석, 연관규칙

728x90
반응형
LIST
728x90
반응형
SMALL

1. 분석 거버넌스 체계 구성 요소

2. 데이터 분석 수준진단

- 조직의 성숙도 평가도구 : CMMI(Capability Maturity Model Integration)

- 분석 수준 진단 결과 : 정착형, 확산형, 준비형, 도입형

 

3. 데이터 거버넌스 체계 수립

1) 데이터 거버넌스 개요

- 전사 차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화 된 관리 체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말함

- 마스터 데이터, 메타 데이터, 데이터 사전은 데이터 거버넌스의 중요한 관리 대상

 

2) 데이터 거버넌스 구성요소

- 원칙, 조직, 프로세스

 

3) 데이터 거버넌스 체계

- 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동

 

4. 데이터 분석을 위한 3가지 조직 구조 : 집중구조, 기능구조, 분산구조

 

5. 분석과제 관리 프로세스

 

728x90
반응형
LIST
728x90
반응형
SMALL

1. 마스터 플랜 수립 프레임 워크

- 분석 과제를 대상으로 다양한 기준을 고려해 적용 우선순위를 설정하고, 데이터 분석 구현을 위한 로드맵을 수립

 

2. 운선순위 평가에 활용하기 위한 ROI 관점에서 빅데이터의 핵심 특징

728x90
반응형
LIST
728x90
반응형
SMALL

1. 분석과제 관리를 위한 5가지 주요 영역

- 분석프로젝트는 범위, 일정, 품질, 리스크, 의사소통 등 영역별 관리가 수행되어야 할 뿐 아니라 데이터에 기반한 분석 기법을 적용한다는 특성 때문에 아래와 같은 5가지의 주요 속성을 고려하여 추가적인 관리가 필요

2. 분석 프로젝트의 특성

- 분석가의 목표 : 개별적인 분석업무 수행 뿐만 아니라 전박적인 프로젝트 관리 또한 중요

- 분석가의 입장 : 데이터 영역과 비즈니스 영역의 현황을 이해하고, 프로젝트의 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가 역할이 중요

- 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑방식의 애자일 프로젝트 관리방식에 대한 고려도 필요

728x90
반응형
LIST
728x90
반응형
SMALL

1. 분석과제 발굴 방법론

하향식 접근 방식
(Top Down Approach)
분석 과제가 주어지고 이에 대한 해법을 찾기 위해 각 과정이 체계적으로 단계화되어 수행하는 방식
상향식 접근 방식
(Down Top Approach)
문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로개선하는 방식

2. 하향식 접근 방식(Top Down Approach)

-하향식 접근법은 문제 탐색 -> 문제 정의 -> 해결방안 탐색 -> 타당성 검토의 과정으로 이루어짐.

3. 하향식 접근 방식의 과정

1) 문제 탐색(Problem Discovery) 

-비즈니스 모델 기반 문제 탐색 : 업무, 제품, 고객, 규제의 감사, 지원 인프라 등 5가지 영역으로 기업의 비즈니스를 분석

-분석 기회 발굴의 범위 확장

-외부 참조 모델 기반의 문제 탐색 : 유사, 동종 사례를 벤치마킹을 통해 분석 기회를 발굴

-분석 유즈 케이스 정의

 

2) 문제 정의(Problem Definition) : 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계

3) 해결방안 탐색(Solution Search) : 분석역량(Who), 분석기법 및 시스템(How)으로 해결 방안 탐색

4) 타당성 검토(Feasibility Study) : 경제적 타당성, 데이터 및 기술적 차당성 검토 : 분석역량

 

4. 상향식 접근 방식(Down Top Approach)

1) 정의

-기업이 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근방법

-다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정

 

2) 상향식 접근법의 특징

-하향식 접근법은 논리적 단계별 접근법으로 최근의 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어렵기 때문에 디자인적 사고(Design Thinking)접근법을 통해 WHY->WHAT 관점으로 존재하는 데이터 그 자체를 객관적으로 관찰하여 문제를 해결하려는 접근법을 사용.

-상향식 접근법은 비지도 학습 방법으로 수행되며, 데이터 자체의 결합, 연관성, 유사성을 중심으로 접근

-시행착오를 통한 문제 해결 : 프로토타이핑 접근법

 

5. 분석과제 정의

-분석 과제 정의서를 통해 분석별 필요 소스 데이터, 분석 방법, 데이터 입수 및 분석의 난이도, 분석 수행주기, 검증 오너십, 상세 분석 과정 등을 정의

728x90
반응형
LIST
728x90
반응형
SMALL

1. 분석 방법론 개요

1) 기업의 합리적 의사결정을 가로막는 장애요소

-고정관념, 편향된 생각, 프레이밍 효과

 

2) 방법론의 적용 업무의 특성에 따른 모델

-폭포수 모델(Waterfall Model)

-프로토타입 모델(Prototype Model)

-나선형 모델(Spiral Model)

 

2. KDD 분석 방법론

-데이터셋 선택 : DB 또는 원시 데이터에서 분석에 필요한 데이터 선택. 데이터마이닝에 필요한 목표데이터를 구성

-데이터 전처리 : 분석 대상용 데이터 셋에 포함된 잡음, 이상치, 결측지를 식별하고 필요시 제거 or 의미 있는 데이터로 재처리.

-데이터 변환 : 분석 목적에 맞게 변수를 생성, 선책하고 데이터의 차원을 축소. 학습용 데이터, 시험용 데이터로 분리.

-데이터 마이닝 : 학습용 데이터를 이용해 분석목적에 맞는 데이터마이닝 기법 선택.

-결과 평가 : 데이터마이닝 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인.

=> 각 단계마다 필요 시 이전 단계를 반복할 수 있음.

3. CRISP-DM 분석 방법론

-업무 이해 : 업무 목적 파악, 요구사항 이해.

-데이터 이해 : 분석을 위한 초기 데이터 수집, 속성 이해

-데이터 준비 : 분석 기법에 적합한 데이터를 편성(많은 시간 소요 가능)

-모델링 : 모델링 기법 및 알고리즘 선택. 모델 평가.

-평가 : 분석 결과인 모델링 결과가 프로젝트 목적에 부합하는지 평가

-전개 : 전개 계획 수립, 유지보수 계획 마련

4. 빅데이터 분석 방법론

1) 빅데이터 분석의 계층적 프로세스

 

 

2) 빅데이터 분석 방법론 5단계

728x90
반응형
LIST

+ Recent posts