[3과목 3장 1절] 데이터 변경 및 요약

우웅지 2023. 4. 23. 22:27

2023. 4. 23. 22:27

728x90

SMALL

1. 데이터 마트

- 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있다.

2. 요약변수와 파생변수

	요약변수	파생변수
정의	- 수집된 정보를 분석에 맞게 종합한 변수로 데이터마트에서 가장 기본적인 변수 - 많은 모델이 공통으로 사용할 수 있어 재활용성 높음	- 사용자(분석가)가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수 - 매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있음
예시	기간별 구매 금액, 횟수, 여부 / 위클리 쇼퍼/ 상품별 구매 금액, 횟수, 여부 / 상품별 구매 순서 / 유통 채널별 구매 금액 / 단어 빈도/ 초기 행동변수 / 트랜드 변수 / 결측값과 이상값 처리 / 연속형 변수의 구간화	근무시간 구매지수 / 주 구매 매장 변수/ 주 활동 지역변수 / 주 구매 상품 변수/ 구매상품 다양성 변수/ 선호하는 가격대 변수/ 시즌 선호 고객 변수 / 라이프 스테이지 변수 / 라이프스타일 변수/ 휴면가망 변수/ 최대가치 변수 / 최적 통화시간 등

3. Reshape 패키지

* 2개의 핵심적인 함수로 구성

melt()	쉬운 casting을 위해 데이터를 적당한 형태로 만들어주는 함수
cast()	데이터를 원하는 형태로 게산 또는 변형시켜주는 함수

* 변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터마트를 구성할 수 있게 해주는 패키지

4. sqldf 패키지

- R에서 sql명령어를 사용 가능하게 해주는 패키지로 SAS의 proc sql과 같은 기능

head([df])
sqldf("select * from [df] limit 6")

subset([df],[col]%in% c("BF","HF"))
sqldf("select * from [df] where [col] in ('BF','H')")

merge([df1],[df2])
sqldf("select * from [df1],[df2]")

5. plyr 패키지

- apply 함수를 기반으로 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지

- split-apply-combine 방식으로 데이터를 분리하고 처리한 다음, 다시 결합하는 등 필수적인 데이터 처리 기능 제공

	array	data frame	list	nothing
array	aaply	adply	alply	a_ply
data frame	daply	ddply	dlply	d_ply
list	laply	ldply	llply	l_ply
n relicates	raply	rdply	rlply	r_ply
function argumendts	maply	mdply	mlply	m_ply

6. data.table

- R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나로 대용량 데이터의 탐색, 연산, 병합에 유용

- 기존 data.frame 방식보다 월등히 빠른 속도

- 특정 column을 key값으로 색인을 지정한 후 데이터를 처리

- 빠른 grouping과 ordering, 짧은 문장 지원 측면에서 데이터프레임보다 유용함.

728x90

LIST

저작자표시 비영리 변경금지 (새창열림)

'License > ADsP' 카테고리의 다른 글

[3과목 4장 1절] 통계분석의 이해 (0)	2023.05.12
[3과목 3장 2~3절] 데이터 가공, 기초 분석 및 데이터 관리 (1)	2023.05.12
[3과목 2장] R 프로그래밍 기초 (0)	2023.04.20
[3과목 1장] 데이터 분석 개요 (0)	2023.04.20
[2과목 2장 2절] 분석 거버넌스 체계 수립 (0)	2023.04.08

웅지의 개발새발