본문 바로가기

자격증/데이터분석준전문가(ADSP)

[방디] 데이터분석준전문가(ADSP) - 데이터분석 기획(2과목) - 데이터분석 기획의 이해

728x90

안녕하세요. 방디입니다.

 

이제 데이터분석준전문가(ADsP)의 2과목에 들어섰습니다. 2과목은 데이터분석 기획에 해당하는 내용으로, 1과목과 마찬가지로 객관식 8문제와 주관식 2문제로 구성되어 있습니다. 오늘 소개드리는 [데이터분석 기획의 이해] 부분은 내용이 조금 있어서 글이 기니, 참고 부탁드립니다.

 

그럼 안내드리면서 글 마무리하겠습니다.

 

감사합니다.

 

- 방디 -

 

 


데이터분석 기획

데이터분석 기획의 이해

1. 분석 기획 방향성 도출

. 분석 기획의 정의

- 실제 분석 수행에 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 관리방안을 사전에 계획하는 작업

 

. 분석 대상과 방법

- 분석은 분석의 대상(What)과 방법(How)에 따라 4가지로 구분

대상(What)

방법(How)

알고 있음

모름

알고 있음

최적화

(Optimization)

통찰

(Insight)

모름

해법

(Solution)

발견

(Discovery)

 

. 목표 시점 별 분석 기획 방안

- 과제 중심적 접근 방식: 당면한 과제를 빠르게 해결

- 장기적 마스터 플랜: 지속적인 분석 내재화

- 분석 기획은 단기적 접근방식(문제해결)과 장기적 접근방식(분석과제 정의)을 융합하여 적용하는 것이 중요

 

. 분석 기획 고려사항

- 가용 데이터 고려: 분석을 위한 데이터의 확보가 우선적으로 필요

- 분석을 통해 가치가 창출되는 적절한 유즈케이스(Use Case)와 활용방안 탐색

- 분석 수행에서 발생하는 장애요소에 대한 사전계획 수립

 

. 분석 데이터의 종류

- 정형 데이터: 데이터 그 자체로 분석이 가능하며, 데이터베이스로 관리되는 데이터(: ERP, OND )

- 반정형 데이터: 데이터로 분석은 가능하지만 해석에는 메타데이터를 활용하여야 하는 데이터(: 로그데이터, 모바일데이터, 센싱데이터, XML )

- 비정형 데이터: 데이터 자체로 분석이 불가능한 형태가 없는 데이터(: 영상, 문자, SNS )

 


2. 분석 방법론

. 분석 방법론의 개요

- 기업 내 데이터 분석의 효과적인 정착을 위해서는 체계화한 절차 및 방법, 그리고 데이터 분석 방법론의 수립이 필요

- 분석 방법론은 절차(Procedures), 방법(Methods), 도구 및 기법(Tools & Techniques), 템플릿 및 산출물(Templates & Outputs)로 구성

 

. 데이터 기반 의사결정

- 경험과 감에 따른 의사결정에서 데이터 기반 의사결정으로 이동하는 추세

- 합리적인 의사결정을 막는 장애요소로는 고정관념(Stereotype), 편견(Bias), 프레이밍 효과(Framing Effect)

 

. 분석 방법론 적용 모델

1) 폭포수 모델(Waterfall Model): 단계를 순차적으로 진행하는 방법

2) 프로토타입 모델(Prototype Model): 일부분을 먼저 개발하여 제공하고 그 결과를 통해 개선하는 방법

3) 나선형 모델(Spiral Model): 반복을 통해 점증적으로 개발하는 방법

 

. 분석 방법론의 구성

1) 단계: 단계별 산출물을 생성하며 단계별 완료 보고서를 해당

2) 태스크: 단계를 구성하는 단위 활동이며 보고서에 해당

3) 스텝: WBS의 워크 패키지이며 보고서 구성요소에 해당

 

. KDD 분석 방법론(Knowledge Discovery in Database)

- 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스

1) 분석 절차

- 데이터셋 선택(Selection): 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수, 목표데이터 구성

- 데이터 전처리(Preprocessing): 잡음이나 이상치, 결측치를 식별하여 제거하거나 재처리

- 데이터 변환(Transformation): 분석 목적에 맞춰 데이터의 차원을 축소하거나 데이터를 분리

- 데이터 마이닝(Data Mining): 분석목적에 맞는 데이터마이닝 기법 선택

- 데이터 마이닝 결과평가(Evaluation): 데이터마이닝 결과를 해석하고 평가

 

. CRISP-DM 분석 방법론(Cross Industry Process for Data Mining)

- 1996년 주요 5개 업체들이 주도한 계층적 프로세스 모델

1) 구조

- 페이즈(Phase)

- 일반화 태스크(Generic Task)

- 세분화 태스크(Specialized Task)

- 프로세스 실행(Process Instance)

2) 절차(Process)

- 업무이해(Business Understanding)

- 데이터 이해(Data Understanding)

- 데이터 준비(Data Preparation)

- 모델링(Modeling)

- 평가(Evaluation)

- 전개(Deployment)

 

. 빅데이터 분석 방법론

1) 계층

- 단계(Phase); 단계별 산출물 생성

- 태스크(Task): 단계를 구성하는 단위 활동

- 스텝(Step): WBS 워크 패키지에 해당

2) 절차(Process)

- 분석 기획(Planning)

- 데이터 준비(Preparing)

- 데이터 분석(Analyzing)

- 시스템 구현(Developing)

- 평가 및 전개(Lesson Learned)

 


3. 분석 과제 발굴

. 분석 과제 발굴 방법론

- 분석 과제는 하향식 접근 방법이나 상향식 접근 방법을 이용하여 풀어야 할 다양한 문제를 데이터 분석 문제로 변환, 관계자들이 이해하고 프로젝트로 수행할 수 있는 형태로 도출하는 이론

- 전통적으로는 하향식 접근 방식을 수행

- 하향식과 상향식 두 접근 방법이 상호 보완 관계에 있을 때 최적의 의사결정 가능

 

. 하향식 접근 방법(Top Down Approach)

- 분석 과제가 주어지고 그 해법을 찾기 위해 각 과정을 단계적으로 수행하는 방식

1) 문제 탐색

- 비즈니스 모델 기반 문제 탐색: 업무, 제품, 고객, 규제와 감사, 지원 인프라5가지 영역으로 단순화

- 분석 기회 발굴 범위 확장: 거시적 관점, 경쟁자 확대, 시장니즈 탐색, 역량의 재해석

- 외부사례 모델 기반 문제탐색: 유사사례 벤치마킹으로 아이디어를 얻고 브레인 스토밍을 통해 분석 테마 후보 목록을 도출하는 방법

2) 문제 정의

- 식별된 비즈니스 문제를 데이터의 문제로 변환하는 단계

- 분석의 관점으로 문제를 정확히 정의하는 것이 중요

3) 해결방안 탐색

- 데이터 분석 문제 해결방안 모색 및 사전 검토

4) 타당성 검토

- 경제적 타당성: 비용대비 편익 분석의 관점에서 접근

- 데이터 타당성: 데이터의 존재 여부, 분석 시스템 환경

- 기술적 타당성: 역량 확보 방안을 사전에 수립, 비즈니스 및 기술적 지식 필요

 

. 상향식 접근법(Bottom Up Approach)

- 가지고 있는 데이터를 분석하여 가치있는 문제를 도출하는 과정

- 하향식 접근법의 한계를 극복하기 위한 분석 방법론

1) 디자인 사고(Design Thinking)

- 상향식 방법의 발산 단계와 하향식 방법의 수렴 단계를 반복적으로 수행하여 최적의 의사결정을 찾는 방식

- 디자인 사고의 요소: 공감, 정의, 상상, 프로토타입, 테스트

2) 지도 학습과 비지도 학습

- 지도 학습: 명확한 목적 하에 데이터분석을 실시하는, 기계학습의 한 방법

- 비지도 학습: 정답을 알지 않는 상태에서 비슷한 데이터를 군집화하여 미래를 예측하는 방법으로, 상향식 접근법에서 일반적으로 사용

3) 프로토타이핑 접근법

- 데이터 규정이나 소스 파악이 어려운 상황에서 분석을 우선 시도한 후 그 결과를 통해 점진적으로 개선하는 방법

- 완벽하지는 않더라도 신속하게 해결책이나 모형을 제시하여 상향식 접근법에서 사용이 용이

- 장점: 사용자 중심의 개발 방법, 오류 초기 발견, 개발시간 단축, 변경 용이

- 단점: 유지보수 시스템의 문서화 부족, 시간과 비용이 소모

 

빅데이터 분석 환경에서 프로토타이핑의 필요성

- 문제에 대한 인식 수준: 문제 정의가 불명확할 때 이를 이해하고 구체화하기에 용이

- 필요 데이터 존재 여부의 불확실성: 문제해결에 필요한 데이터의 없을 시 대체데이터의 존재여부 확인 가능

- 데이터 사용 목적의 가변성: 기존의 데이터를 재검토하여 사용 목적이나 범위 조정 가능

 


4. 분석 프로젝트 관리 방안

. 분석 과제 관리를 위한 5가지 영역

- 데이터 복잡도(Data Complexity)

- 데이터 크기(Data Size)

- 속도(Speed)

- 정확도(Accuracy&Precision)

- 분석 복잡도(Analytic Complexity)

 

Accuracy: 타당도 / Precision: 신뢰도

 

. 분석 프로젝트 관리 항목

- 범위

- 시간

- 원가

- 품질

- 통합

- 조단

- 자원

- 리스크

- 의사소통

- 이해관계자

 

728x90