반응형
2. 데이터 분석 기획
1장 데이터 분석 기획의 이해
1절 분석 기획 방향성 도출
분석 기획
- 분석 수행 전 과제 정의, 의도했던 결과를 도출할 수 있도록 관리 방안을 사전에 계획
- 수학/통계학적 지식 + 정보기술 + 비즈니스에 대한 이해와 전문성 요구
분석 주제 유형
분석 주제 유형 | 대상(What) - 인지 | 대상(What) - 비인지 |
---|---|---|
방법(How) - 인지 | 최적화 | 통찰 |
방법(How) - 비인지 | 솔루션 | 발견 |
목표 시점 별 분석 기획 방안
- 과제 단위 : 속도, 빠른 해결, 문제 해결
- 마스터 플랜 단위 : 정확도, 지속적인 내제화, 분석 과제 정의
분석 기획 시 고려사항
- 가용 데이터 : 데이터 확보, 데이터 유형 분석
- 적절한 활용 방안과 유즈케이스
- 장애 요소에 대한 사전 계획 수립
2절 분석 방법론
분석 방법론 구성 요소
- 절차, 방법, 도구와 기법, 템플릿과 산출물
기업의 합리적 의사결정을 막는 장애 요소
- 고정 관념(Stereotype)
- 편견(Bias)
- 프레이밍 효과(Framing Effect)
방법론 적용 업무의 특성에 따른 모델
- 폭포수 모델 : 단계를 순차적으로 진행하는 방법
- 프로토타입 모델 : 일부분을 우선 개발하여 사용자에게 제공한 후 개선 작업을 시행한 모델
- 나선형 모델 : 반복을 통해 점증적으로 개발하는 방법
KDD 분석 방법론
- Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스
KDD 프로세스
- 데이터셋 선택 : 목표 데이터 구성
- 데이터 전처리 : 노이즈, 이상치, 결측치 재처리를 통한 데이터셋 정제
- 데이터 변환 : 학습용 데이터와 검증용 데이터로 데이터를 분리
- 데이터 마이닝 : 데이터 마이닝 기법 선택, 필요에 따라 데이터 전처리와 데이터 변환을 추가 실행
- 결과 평가 : 결과 해석 및 평가, 분석 목적과의 일치성 확인
CRISP-DM 분석 방법론
- 계층적 프로세스 모델, 4개 레벨로 구성
- 단계 > 일반화 태스크 > 세분화 태스크 > 프로세스 실행
CRISP-DM 프로세스
- 업무 이해 : 목적과 요구사항을 이해, 데이터 분석을 위한 문제 정의
- 데이터 이해 : 데이터 수집, 데이터 속성 이해, 데이터 품질 확인
- 데이터 준비 : 데이터 셋 선택, 데이터 정제
- 모델링 : 모델링 기법과 알고리즘 선택, 파라미터 최적화, 모델 평가
- 평가 : 분석 결과 평가, 모델링 과정 평가
- 전개 : 실 업무에 적용, 유지보수 계획
KDD와 CRISP-DM 프로세스 비교
KDD | CRISP-DM |
---|---|
분석 대상 비즈니스 이해 | 업무 이해 |
데이터셋 선택 | 데이터 이해 |
데이터 전처리 | 데이터 이해 |
데이터 변환 | 데이터 준비 |
데이터 마이닝 | 모델링 |
데이터 마이닝 결과 평가 | 평가 |
데이터 마이닝 활용 | 전개 |
빅데이터 분석의 계층적 프로세스
- 단계 : 프로세스 그룹을 통한 완성된 단계별 산출물 생성
- 태스크 : 단계를 구성하는 단위 활동
- 스텝 : WBS(Work Breakdown Structure - 업무 분업 구조)의 워크 패키지에 해당, 입출력 자료와 처리 및 도구로 구성된 단위 프로세스
빅데이터 분석 방법론
- 분석 기획
- 비즈니스 이해 및 범위 설정 : SOW(프로젝트 범위 정의서)
- 프로젝트 정의 및 계획 수립 : 프로젝트 정의서, WBS
- 프로젝트 위험계획 수립 : 회피, 전이, 완화, 수용
- 데이터 준비
- 필요 데이터 정의 : 데이터 정의서
- 데이터 스토어 설계 : 데이터베이스 논리, 물리 설계
- 데이터 수집 및 정합성 점검
- 데이터 분석
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석 : 데이터 시각화
- 모델링
- 모델 평가 및 검증
- 시스템 구현
- 설계 및 구현
- 시스템 테스트 및 운영
- 평가 및 전개
- 모델 발전 계획 수립
- 프로젝트 평가 및 보고
3절 분석 과제 발굴
하샹식 접근법
- 문제 탐색 : 문제 해결로 발생하는 가치에 중점
- 비즈니스 모델기반 문제 탐색
- 업무 : 내부 프로세스 및 주요 자원
- 제품 : 제품, 서비스를 개선
- 고객 : 제품, 서비스를 제공 받는 사용자 및 고객, 이를 제공하는 채널
- 규제와 감사 : 제품 생산 및 전달 과정 프로세스 중 발생하는 규제 및 보안
- 지원 인프라 : 분석을 수행하는 시스템 영역 및 인력
- 분석 기회 발굴 범위 확장
- 거시적 관점 : 사회, 기술, 경제, 환경, 정치(STEEP)
- 경쟁자 확대 : 대체제, 경쟁자, 신규 진입자
- 시장 니즈 탐색 : 고객, 채널, 영향자
- 역량 재해석 : 내부 역량, 파트너와 네트워크
- 외부 참조 모델 기반 문제 탐색 : 산업별, 업무 서비스별 분석 테마 후보 그룹을 통해 아이디어를 얻고, 브레인스토밍을 통해 분석 테마 목록을 빠르게 도출
- 분석 유즈 케이스 : 풀어야 할 문제에 대한 상세한 설명 및 문제 해결 시 발생하는 효과
- 비즈니스 모델기반 문제 탐색
- 문제 정의 : 식별된 비즈니스 문제를 데이터의 문제로 변환
- 해결 방안 탐색 : 분석 역량의 확보 여부와 신규 시스템 도입 필요 여부에 따른 해결 방안 탐색
- 타당성 검토
- 경제적 타당성
- 데이터 및 기술적 타당성
기존 하향식 접근법의 한계
- 새로운 문제 탐색에 한계
- 최근 복잡하고 다양한 환경에서 발생하는 문제에 부적합
상향식 접근법
- 지도 학습(분류) : 명확한 목적 하에 데이터 분석을 실시하는 것
- 비지도 학습(군집화) : 데이터 자체의 결합, 연관성, 유사성 등의 상태를 표현하는 것
프로토타이핑 필요성
- 불명확한 문제 정의에 대해 문제를 이해하고 구체화 하는데 도움
- 기존 데이터 정의를 재검토하여 데이터 사용 목적과 범위 확대
디자인 사고
- 상향식 접근 방식의 발산 단계와 하향식 접근 방식의 수렴 단계를 반복적으로 수행하는 상호 보완적인 환경을 통해 분석 가치를 높일 수 있는 의사 결정 방식
4절 분석 프로젝트 관리 방안
분석 과제 관리를 위한 주요 영역
- 데이터 양
- 데이터 복잡도
- 속도
- 분석 복잡도
- 정확도 & 정밀도
분석 프로젝트 특징
- 분석가 목표 : 분석도 향상, 프로젝트 관리
- 분석가 입장 : 분석 모델을 통한 데이터 영역과 비즈니스 영역 조정
- 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화
반응형
'자격증 > ADsP' 카테고리의 다른 글
3과목 데이터 분석 - 1장. 데이터 분석 개요 (1) | 2024.02.09 |
---|---|
2과목 데이터 분석 기획 - 2장. 분석 마스터 플랜 (0) | 2024.01.28 |
1과목 데이터 이해 - 최신 빅데이터 상식 (0) | 2024.01.27 |
1과목 데이터 이해 - 3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2024.01.27 |
1과목 데이터 이해 - 2장. 데이터의 가치와 미래 (0) | 2024.01.27 |