2절. 데이터 가공
* 종류
1) head(데이터셋), tail(데이터셋)
- 시작 또는 마지막 6개 record만 조회
2) summary(데이터셋)
- 수치형 변수 : 최댓값, 최솟값, 평균, 1사분위수, 2사분위수(중앙값), 3사분위수
- 명목형 변수 : 명목값, 데이터 개수
1. 변수의 구간화
- 신용평가 모형, 고객 세분화 등의 시스템으로 모형을 적용하기 위해서 각 변수들을 구간화하여 점수를 적용하는 방식 활용
- 변수의 구간화를 위한 rule이 존재함
(** 10진수 단위로 구간화하고, 구간을 보통 5개로 나누며, 7개 이상의 구간은 잘 만들지 않음)
2. 변수 구간화의 방법
Binning | 연속형 변수를 범주형 변수로 변환하기 위해 50개 이하의 구간에 동일한 수의 데이터를 할당하여 의미를 파악하면서 구간을 축소하는 방법 |
의사결정나무 | 모형을 통해 연속형 변수를 범주형 변수로 변환하는 방법 |
3절. 기초 분석 및 데이터 관리
1. 결측값 처리
1) 변수에 데이터가 비어있는 경우: NA, ., 99999999, Unknown, Not Answer 등
2) 단순대치법(Single Imputation)
Completes Analysis | 결측값의 레코드를 삭제 |
평균대치법 | 관측 및 실험을 토애 얻어진 데이터의 평균으로 대치 * 비조건부 평균 대치법 : 관측 데이터의 평균으로 대치 * 조건부 평균 대치법 : 회귀분석을 통해 데이터를 대치 |
단순확률 대치법 | 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완한 방법으로 Hot-Deck / Nearest Neighbor방법이 있음 |
3) 다중 대치법(Multiple Imputation) : 단순 대치법을 m번 실시하여, m개의 가상적 자료를 만들어 대치하는 방법
2. R의 결측값 처리 관련 함수
complete.cases() | 데이터 내 레코드에 결측값이 있으면 FALSE, 없으면 TRUE반환 |
is.na() | 결측값이 NA인지의 여부를 TRUE / FALSE로 반환 |
DMwR 패키지 : centralImputation() |
NA 값을 가운데 값으로 대치(숫자 - 중위수, Factor - 최빈값) |
DMwR 패키지 : knnImputation() |
NA값을 k최근 이웃 분류 알고리즘을 사용하여 대치 (k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 사용) |
Amelia 패키지 : amelia() |
time-series-cross-sectional data set에서 활용 |
3. 이상값 처리
1) 이상값
- 의도하지 않은 현상으로 입력된 값 or 의도된 극단값 -> 활용가능
- 잘못 입력된 값 or 의도하지 않은 현상으로 입력된 값이지만 분석 목적에 부합되지 않는 값 -> Bad Data이므로 제거
2) 이상값의 인식
- ESD(Extreme Studentized Deviation) : 평균으로부터 3 표준편차 떨어진 값
- 기하평균 - 2.5 * 표준편차 < data < 기하평균 + 2.5 * 표즌편차
- Q1 - 1.5*IQR < data < Q3 + 1.5 * IQR을 벗어나는 데이터(사분위수 이용해 제거)
3) 이상값(극단값)의 처리
- 절단 : 이상값이 포함된 레코드를 삭제
- 조정 : 이상값을 상한 또는 하한 값으로 조정
'License > ADsP' 카테고리의 다른 글
[3과목 4장 1절] 통계분석의 이해 (0) | 2023.05.12 |
---|---|
[3과목 3장 1절] 데이터 변경 및 요약 (0) | 2023.04.23 |
[3과목 2장] R 프로그래밍 기초 (0) | 2023.04.20 |
[3과목 1장] 데이터 분석 개요 (0) | 2023.04.20 |
[2과목 2장 2절] 분석 거버넌스 체계 수립 (0) | 2023.04.08 |