728x90
반응형
SMALL

1. 분석 방법론 개요

1) 기업의 합리적 의사결정을 가로막는 장애요소

-고정관념, 편향된 생각, 프레이밍 효과

 

2) 방법론의 적용 업무의 특성에 따른 모델

-폭포수 모델(Waterfall Model)

-프로토타입 모델(Prototype Model)

-나선형 모델(Spiral Model)

 

2. KDD 분석 방법론

-데이터셋 선택 : DB 또는 원시 데이터에서 분석에 필요한 데이터 선택. 데이터마이닝에 필요한 목표데이터를 구성

-데이터 전처리 : 분석 대상용 데이터 셋에 포함된 잡음, 이상치, 결측지를 식별하고 필요시 제거 or 의미 있는 데이터로 재처리.

-데이터 변환 : 분석 목적에 맞게 변수를 생성, 선책하고 데이터의 차원을 축소. 학습용 데이터, 시험용 데이터로 분리.

-데이터 마이닝 : 학습용 데이터를 이용해 분석목적에 맞는 데이터마이닝 기법 선택.

-결과 평가 : 데이터마이닝 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인.

=> 각 단계마다 필요 시 이전 단계를 반복할 수 있음.

3. CRISP-DM 분석 방법론

-업무 이해 : 업무 목적 파악, 요구사항 이해.

-데이터 이해 : 분석을 위한 초기 데이터 수집, 속성 이해

-데이터 준비 : 분석 기법에 적합한 데이터를 편성(많은 시간 소요 가능)

-모델링 : 모델링 기법 및 알고리즘 선택. 모델 평가.

-평가 : 분석 결과인 모델링 결과가 프로젝트 목적에 부합하는지 평가

-전개 : 전개 계획 수립, 유지보수 계획 마련

4. 빅데이터 분석 방법론

1) 빅데이터 분석의 계층적 프로세스

 

 

2) 빅데이터 분석 방법론 5단계

728x90
반응형
LIST
728x90
반응형
SMALL

1. 분석 기획의 특징

1) 분석 기획 : 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업

 

2) 데이터 사이언티스트의 역량 : 수학/통계학적 지식, 정보기술(IT, 해킹, 통신 기술 등), 비즈니스에 대한 이해와 전문성

 

2. 분석 대상과 방법 : 분석은 분석의 대상(What)과 분석의 방법(How)에 따라 4가지로 분류

분석 주제 유형 분석의 대상(What)
분석의 방법
(How)
  Known Un-Known
Known Optimization Insight
Un-known Solution Discovery

3. 목표 시점별 분석 기획 방안

당면한 분석 주제의 해결
(과제 단위)
  지속적 분석 문화 내재화
(마스터 플랜 단위)
Speed & Test <= 1차 목표 => Accuracy & Deploy
Quick-Win <= 과제의 유형 => Long Term View
ProblemSolving <= 접근 방식 => Problem Definition

4. 분석 기획 시 고려사항

-분석의 기본인 가용 데이터에 대한 고려가 필요

-분석을 통해 가치가 창출될 수 있는 적절한 활용방안과 유즈 케이스 탐색이 필요

-분석 수행시 발생하는 장애요소드렝 대한 사전계획 수립이 필요

728x90
반응형
LIST
728x90
반응형
SMALL

1. 빅데이터의 시대

-빅데이터 분석은 선거결과에 결정적인 영향을 미칠 수도 있고, 기업들에게 비용절감,시간 절약, 매출 증대, 고객 서비스 향상, 신규 비즈니스 창출, 내부 의사결정 지원 등에 있어 상당한 가치를 발휘하고 있음.

 

2. 빅데이터 회의론을 넘어 가치 패러다임의 변화

과거 현재 미래
-아날로그 세상을 어떻게 효과적으로 디지털화하는가가 과거의 가치 창출 원천 -디지털화된 정보와 대상들은 서로 연결 시작.
-연결을 더 효과적이고 효율적으로 제공하는가가 성공요인
-복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가의 이슈
Digitalization Connection Agency

 

3. 데이터 사이언스의 한계와 인문학

1) 데이터 사이언스의 한계

- 분석과정에서는 가정 등 인간의 해석이 개입되는 단계를 반드시 거침

- 분석결과가 의미하는 바는 사람에 따라 전혀 다른 해석과 결론을 내릴 수 있음

- 아무리 정량적인 분석이라도 모든 분석은 가정에 근거함

 

2) 데이터 사이언스와 인문학

- 인문학을 이용하여 빅데이터와 데이터 사이언스가 데이터에 묻혀있는 잠재력을 풀어냄

- 새로운 기회를 찾고, 누구도 보지 못한 창조의 밑그림을 그릴 수 있는 힘을 발휘하게 될 것

728x90
반응형
LIST
728x90
반응형
SMALL

1. 데이터 사이언스의 의미

- 데이터 사이언스 : 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문.

 

2. 데이터 사이언스의 구성요소

1) 데이터 사이언스의 영역

2) 데이터 사이언티스트의 요구 역량

-스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화능력을 갖춰야 한다.

3. 데이터 사이언스 : 과학과 인문의 교차로

- 분석 기술보다 더 중요한 것은 소프트 스킬로 전략적 통찰을 주는 분석은 단순 통계 및 데이터 처리 능력보다 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 대화 능력 등의 인문학적 요소가 필요함.

 

4. 전략적 통찰력과 인문학의 부활

외부 환경적 측면에서 본 인문학 열풍의 이유
외부환경의 변화 내용 예시
컨버전스 -> 디버전스 단순 세계화에서 복잡한 세계화로 변화 규모의 경제, 세계화, 표준화, 이성화 -> 복잡한 세계, 다양성, 관계, 연결성, 창조성
생산 -> 서비스 비즈니스 중심이 제품생산에서 서비스로 이동 고장 나지 않는 제품의 생산 -> 뛰어난 서비스로 응대
생산 -> 시장창조 공급자 중심의 기술경쟁에서 무형자산의 경쟁으로 변화 생산에 관련된 기술 중심, 기술 중심의 대규모 투자 -> 현재 패러다임에 근거한 시장 창조 현지 사회와 문화에 관한 지식
728x90
반응형
LIST
728x90
반응형
SMALL

1. 빅데이터 회의록의 원인

-부정적 학습효과 -> 과거의 고객관계관리(CRM) : 공포 마케팅, 투자대비 효과 미흡

-부적절한 성공사례 -> 빅데이터가 필요 없는 분석사례, 기존 CRM의 분석 성과를 빅데이터 분석 성과로 과대 포장

 => 단순히 빅데이터에 포커스를 두지 말고, 분석을 통해 가치를 만드는 것에 집중해야 함.

 

2. 일차원적인 분석 vs 전략 도출을 위한 가치 기반 분석

1) 산업별 분석 애플리케이션

산업 일차원적 분석 애플리케이션
금융 서비스 신용점수 산성, 사기 탐지, 가격 책정, 프로그램트레이딩, 클레임 분삭, 고객 수익성분석
병원 가격 책정, 고객 로열티, 수익 관리
에너지 트레이딩, 공급/수요 예측
정부 사기 탐지, 사례 관리, 범죄 방지, 수익 최적화

=> 일차원적인 분석의 문제점 : 급변하는 환경에서는 새로운 기회를 포착하기 어렵다.

 

2) 전략 도출 가치 기반 분석

-전략적 통찰력의 창출에 포커스 -> 해당 사업에 중요한 기회를 발굴, 주요 경영진의 지원을 얻게 됨.

-분석의 활용 범위를 더 넓고 전략적으로 변화시키고, 전략적 인사이트를 주는 가치 기반의 분석 단계로 나아가야 함.

728x90
반응형
LIST
728x90
반응형
SMALL

3절. 비즈니스 모델

1. 빅데이터 활용사례

1) 기업

- 구글 : 사용자의 로그 데이터를 활용한 검색엔진 개발, 기존 페이지랭크 알고리즘 혁신

- 월마트 : 고객의 구매패턴을 분석해 상품 진열에 활용

 

2) 정부

- 실시간 교통정보 수집, 기후 정보, 소방 서비스 등을 위해 실시간 모니터링을 실시하여 국가 안전 확보에 활용.

 

3) 개인

- 정치인 : 선거 승리를 위해 사회관계망 분석을 활용해 유세 지역 선거

- 가수 : 팬들의 음악 청취 기록을 분석해 공연 시 노래 순서 선정

 

2. 빅데이터를 활용한 기본 테크닉

테크닉 내용 예시
연관규칙학습 상관관계가 있는지 커피를 구매하는 사람이 탄산을 더 사는가?
유형분석 특성에 따라 분류 이 사용자는 어떤 특성 집단에 속하는가?
유전자 알고리즘 최적화를 위해 자연선택, 돌연변이 같은 메커니즘을 통해 점진적으로 진화 최대 시청률을 위해 어떤 프로를 어떤 시간에 방송해야하나?
기계학습 훈련 데이터로부터 학습한 알려진 특성 이용 기존 시청 기록을 바탕으로 어떤 영화를 보고싶어할까?
회귀분석 독립변수에 따라 종속변수가 어떻게 변하는지 관계 파악 구매자의 나이가 구매 차량 타입에 어떤 영향을 미칠까?
감정분석 특정 주제에 대해 글을 쓴 사람의 감정 분석 새로운 환불 정책에 대한 고객의 평가는 어떤가?
소셜네트워크분석
(=사회관계망분석)
특정인과 다른 사람이 몇 촌인지 관계인가를 파악할 때 사용 고객들 간 관계망을 어떻게 구성되어 있나?

 

4절. 위기 요인과 통제 방안

1. 위기 요인에 따른 통제 방안

- 사생활 침해 -> 동의에서 책임으로

- 책임 원칙 훼손 -> 결과 기반 책임 원칙 고수

- 데이터 오용 -> 알고리즘 접근 허용

 

5절. 미래의 빅데이터

1. 빅데이터 활용의 3요소

- 데이터 : 모든 것의 데이터화

- 기술 : 진화하는 알고리즘, 인공지능

- 인력 : 데이터 사이언티스트, 알고리즈미스트

728x90
반응형
LIST
728x90
반응형
SMALL

1. 빅데이터의 가치 산정이 어려운 이유

- 데이터 활용방식

- 새로운 가치 창출

- 분석기술 발전

 

2. 빅데이터의 영향

분야 영향 내용
기업 혁신, 경쟁력제고, 생산성향상 빅데이터를 활용해 소비자의 행동 분석, 시장 변동 예측
정부 환경 탐색, 상황분석, 미래대응 기상, 인구이동, 각종 통계, 법제 데이터 등 수집해 사회 변화 추정 및 관련 정보 추출
개인 목적에 따른 활용 정치인이나 대중 가수 등과 같은 인지도 향상에 빅데이터 활용
=>생활 전반의 스마트화
728x90
반응형
LIST
728x90
반응형
SMALL

1. 빅데이터의 정의

1) 관점에 따른 정의와 범주

좁은 범위의 정의 중간 범위의 정의 넓은 관점 범위의 정의
가트너 그룹 더그 래니의 3V 분석 비용/기술에 초점을 둔 정의 데이터 규모에 중점을 둔 정의
-Volume : 데이터의 규모
-Variety : 데이터 유형과 소스
-Velocity : 데이터 수집과 처리
다양한 대규모 데이터로부터
저렴한 비용으로 가치 추출, 데이터 초고속 수집/발굴/분석을 지원하도록 고안된 차세대 기술 및 아키텍처
일반적인 DB SW로 저장/관리/분석할 수 있는 범위를 초과한 거대한 데이터

2) 빅데이터 효과

-기존 방식으로는 얻을 수 없는 통찰 및 가치 창출

-사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도

 

2. 출현 배경과 변화

-산업계의 출현배경 : 고객 데이터 축적, 보유를 통해 데이터에 숨어있는 가치를 발굴

-학계의 출현배경 : 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구의 발전

-기술발전으로 인한 출혀 배경 : 관련기술(저장 기술, 인터넷 보급, 클라우드 컴퓨팅, 모바일 혁명)의 발달

 

3. 빅데이터에 거는 기대의 비유적 표현

산업혁명의 석탄과철 제조업 뿐만 아니라 서비스 분야 생산성을 끌어올려 사회/경제/문화/생활 전반에 혁명적 변화가 있을것으로 기대됨
21세기의 원유 경제 성장에 필요한 정보를 제공함으로써 산업 전반 생산성을 향상시키고, 기존에 없던 새로운 산업을 만들어낼 것으로 전망됨.
렌즈 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼 산업 발전에 데이터가 영향을 미칠것으로 기대됨 ex)Ngram Viewer
플랫폼 '공동 활용의 목적으로 구축된 유무형의 구조물'
다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것 ex)카톡, 페북

 

4. 빅데이터가 만들어 내는 본질적 변화

사전처리 사후처리
표본조사 전수조사
인과관계 상관관계
728x90
반응형
LIST
728x90
반응형
SMALL

1. 기업내부 DB

-1980년대 기업내부 DB

OLTP(On-Line Transaction Processing) 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리 형태.
호스트 컴퓨터가 DB를 액세스하고, 바로 처리 결과를 돌려보내는 형태
OLAP(On-Line Analytical Processing) 정보 위주의 분석 처리를 의미.
다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술

-2020년대 기업내부 DB

CRM(Customer Relationship Management) 고객 관계 관리
고객중심자원을 극대화하고 고객특성에 맞게 마케팅 활동을 계획/지원/평가하는 과정
SCM(Supply Chain Management) 고급망 관리
기업에서 원재료 생산/유통 등 고급망 관리 단계를 최적화해 수요자가 원하는 제품을 원하는 시간/장소로 제공해주는 것

2. 분야별 DB 소개

분야 내용
제조분야 ERP
BI
CRM
RTE
금융부문 EAI
EDW
유통부문 KMS
RFID
728x90
반응형
LIST
728x90
반응형
SMALL

1. 데이터베이스 정의

EU 체계적이거나 조직적으로 정리되고 전자식 or 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물
국내 저작권법 소재를 체계적으로 배열 또는 구성한 편집물로 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것
국내 컴퓨터용어사전 동시의 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고 저장, 공급하기 위해 일정한 구조에 따라 편성된 데이터의 집합

 

2. 데이터베이스 특징

통합(Integrated) 동일한 데이터가 중복되어 있지 않음. 데이터 중복은 관리상 복잡한 부작용 초래
저장(Stored) 자기 디스크/테이프 등 컴퓨터가 접근할 수 있는 저장 매체에 저장. DB느 기보적으로 컴퓨터 기술을 바탕
공용(Shared) 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용. 대용량화되고 구조가 복잡함
변화(Changeable) DB에 저장된 내용은 현 시점에서의 상태를 나타냄. 이 상태는 새로운 데이터의 삽입/삭제/갱신으로 항상 변화하면서도 정확한 데이터를 유지해야 함
728x90
반응형
LIST

+ Recent posts