728x90
반응형
SMALL

2절. 데이터 가공

* 종류

1) head(데이터셋), tail(데이터셋) 

- 시작 또는 마지막 6개 record만 조회

2) summary(데이터셋)

- 수치형 변수 : 최댓값, 최솟값, 평균, 1사분위수, 2사분위수(중앙값), 3사분위수

- 명목형 변수 : 명목값, 데이터 개수

1. 변수의 구간화

- 신용평가 모형, 고객 세분화 등의 시스템으로 모형을 적용하기 위해서 각 변수들을 구간화하여 점수를 적용하는 방식 활용

- 변수의 구간화를 위한 rule이 존재함

(** 10진수 단위로 구간화하고, 구간을 보통 5개로 나누며, 7개 이상의 구간은 잘 만들지 않음)

 

2. 변수 구간화의 방법

Binning 연속형 변수를 범주형 변수로 변환하기 위해 50개 이하의 구간에 동일한 수의 데이터를 할당하여 의미를 파악하면서 구간을 축소하는 방법
의사결정나무 모형을 통해 연속형 변수를 범주형 변수로 변환하는 방법

 

3절. 기초 분석 및 데이터 관리

1. 결측값 처리

1) 변수에 데이터가 비어있는 경우: NA, ., 99999999, Unknown, Not Answer  등

2) 단순대치법(Single Imputation)

Completes Analysis 결측값의 레코드를 삭제
평균대치법 관측 및 실험을 토애 얻어진 데이터의 평균으로 대치
* 비조건부 평균 대치법 : 관측 데이터의 평균으로 대치
* 조건부 평균 대치법 : 회귀분석을 통해 데이터를 대치
 단순확률 대치법 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완한 방법으로 Hot-Deck / Nearest Neighbor방법이 있음

3) 다중 대치법(Multiple Imputation) : 단순 대치법을 m번 실시하여, m개의 가상적 자료를 만들어 대치하는 방법

 

2. R의 결측값 처리 관련 함수

complete.cases() 데이터 내 레코드에 결측값이 있으면 FALSE, 없으면 TRUE반환
is.na() 결측값이 NA인지의 여부를 TRUE / FALSE로 반환
DMwR 패키지
: centralImputation()
NA 값을 가운데 값으로 대치(숫자 - 중위수, Factor - 최빈값)
DMwR 패키지
: knnImputation()
NA값을 k최근 이웃 분류 알고리즘을 사용하여 대치
(k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 사용)
Amelia 패키지
: amelia()
time-series-cross-sectional data set에서 활용

3. 이상값 처리

1) 이상값

- 의도하지 않은 현상으로 입력된 값 or 의도된 극단값 -> 활용가능

- 잘못 입력된 값 or 의도하지 않은 현상으로 입력된 값이지만 분석 목적에 부합되지 않는 값 -> Bad Data이므로 제거

 

2) 이상값의 인식

- ESD(Extreme Studentized Deviation) : 평균으로부터 3 표준편차 떨어진 값

- 기하평균 - 2.5 * 표준편차 < data < 기하평균 + 2.5 * 표즌편차

- Q1 - 1.5*IQR < data < Q3 + 1.5 * IQR을 벗어나는 데이터(사분위수 이용해 제거)

 

3) 이상값(극단값)의 처리

- 절단 : 이상값이 포함된 레코드를 삭제

- 조정 : 이상값을 상한 또는 하한 값으로 조정

728x90
반응형
LIST

+ Recent posts