반응형

2. 데이터 분석 기획

1장 데이터 분석 기획의 이해

1절 분석 기획 방향성 도출

분석 기획

  • 분석 수행 전 과제 정의, 의도했던 결과를 도출할 수 있도록 관리 방안을 사전에 계획
  • 수학/통계학적 지식 + 정보기술 + 비즈니스에 대한 이해와 전문성 요구

 

분석 주제 유형

분석 주제 유형 대상(What) - 인지 대상(What) - 비인지
방법(How) - 인지 최적화 통찰
방법(How) - 비인지 솔루션 발견

 

목표 시점 별 분석 기획 방안

  • 과제 단위 : 속도, 빠른 해결, 문제 해결
  • 마스터 플랜 단위 : 정확도, 지속적인 내제화, 분석 과제 정의

 

분석 기획 시 고려사항

  1. 가용 데이터 : 데이터 확보, 데이터 유형 분석
  2. 적절한 활용 방안과 유즈케이스
  3. 장애 요소에 대한 사전 계획 수립

 

2절 분석 방법론

분석 방법론 구성 요소

  • 절차, 방법, 도구와 기법, 템플릿과 산출물

 

기업의 합리적 의사결정을 막는 장애 요소

  • 고정 관념(Stereotype)
  • 편견(Bias)
  • 프레이밍 효과(Framing Effect)

 

방법론 적용 업무의 특성에 따른 모델

  • 폭포수 모델 : 단계를 순차적으로 진행하는 방법
  • 프로토타입 모델 : 일부분을 우선 개발하여 사용자에게 제공한 후 개선 작업을 시행한 모델
  • 나선형 모델 : 반복을 통해 점증적으로 개발하는 방법

 

KDD 분석 방법론

  • Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스

 

KDD 프로세스

  1. 데이터셋 선택 : 목표 데이터 구성
  2. 데이터 전처리 : 노이즈, 이상치, 결측치 재처리를 통한 데이터셋 정제
  3. 데이터 변환 : 학습용 데이터와 검증용 데이터로 데이터를 분리
  4. 데이터 마이닝 : 데이터 마이닝 기법 선택, 필요에 따라 데이터 전처리와 데이터 변환을 추가 실행
  5. 결과 평가 : 결과 해석 및 평가, 분석 목적과의 일치성 확인

 

CRISP-DM 분석 방법론

  • 계층적 프로세스 모델, 4개 레벨로 구성
  • 단계 > 일반화 태스크 > 세분화 태스크 > 프로세스 실행

 

CRISP-DM 프로세스

  • 업무 이해 : 목적과 요구사항을 이해, 데이터 분석을 위한 문제 정의
  • 데이터 이해 : 데이터 수집, 데이터 속성 이해, 데이터 품질 확인
  • 데이터 준비 : 데이터 셋 선택, 데이터 정제
  • 모델링 : 모델링 기법과 알고리즘 선택, 파라미터 최적화, 모델 평가
  • 평가 : 분석 결과 평가, 모델링 과정 평가
  • 전개 : 실 업무에 적용, 유지보수 계획

 

KDD와 CRISP-DM 프로세스 비교

KDD CRISP-DM
분석 대상 비즈니스 이해 업무 이해
데이터셋 선택 데이터 이해
데이터 전처리 데이터 이해
데이터 변환 데이터 준비
데이터 마이닝 모델링
데이터 마이닝 결과 평가 평가
데이터 마이닝 활용 전개

 

빅데이터 분석의 계층적 프로세스

  1. 단계 : 프로세스 그룹을 통한 완성된 단계별 산출물 생성
  2. 태스크 : 단계를 구성하는 단위 활동
  3. 스텝 : WBS(Work Breakdown Structure - 업무 분업 구조)의 워크 패키지에 해당, 입출력 자료와 처리 및 도구로 구성된 단위 프로세스

 

빅데이터 분석 방법론

  1. 분석 기획
    • 비즈니스 이해 및 범위 설정 : SOW(프로젝트 범위 정의서)
    • 프로젝트 정의 및 계획 수립 : 프로젝트 정의서, WBS
    • 프로젝트 위험계획 수립 : 회피, 전이, 완화, 수용
  2. 데이터 준비
    • 필요 데이터 정의 : 데이터 정의서
    • 데이터 스토어 설계 : 데이터베이스 논리, 물리 설계
    • 데이터 수집 및 정합성 점검
  3. 데이터 분석
    • 분석용 데이터 준비
    • 텍스트 분석
    • 탐색적 분석 : 데이터 시각화
    • 모델링
    • 모델 평가 및 검증
  4. 시스템 구현
    • 설계 및 구현
    • 시스템 테스트 및 운영
  5. 평가 및 전개
    • 모델 발전 계획 수립
    • 프로젝트 평가 및 보고

 

3절 분석 과제 발굴

하샹식 접근법

  1. 문제 탐색 : 문제 해결로 발생하는 가치에 중점
    • 비즈니스 모델기반 문제 탐색
      • 업무 : 내부 프로세스 및 주요 자원
      • 제품 : 제품, 서비스를 개선
      • 고객 : 제품, 서비스를 제공 받는 사용자 및 고객, 이를 제공하는 채널
      • 규제와 감사 : 제품 생산 및 전달 과정 프로세스 중 발생하는 규제 및 보안
      • 지원 인프라 : 분석을 수행하는 시스템 영역 및 인력
    • 분석 기회 발굴 범위 확장
      • 거시적 관점 : 사회, 기술, 경제, 환경, 정치(STEEP)
      • 경쟁자 확대 : 대체제, 경쟁자, 신규 진입자
      • 시장 니즈 탐색 : 고객, 채널, 영향자
      • 역량 재해석 : 내부 역량, 파트너와 네트워크
    • 외부 참조 모델 기반 문제 탐색 : 산업별, 업무 서비스별 분석 테마 후보 그룹을 통해 아이디어를 얻고, 브레인스토밍을 통해 분석 테마 목록을 빠르게 도출
    • 분석 유즈 케이스 : 풀어야 할 문제에 대한 상세한 설명 및 문제 해결 시 발생하는 효과
  2. 문제 정의 : 식별된 비즈니스 문제를 데이터의 문제로 변환
  3. 해결 방안 탐색 : 분석 역량의 확보 여부와 신규 시스템 도입 필요 여부에 따른 해결 방안 탐색
  4. 타당성 검토
    • 경제적 타당성
    • 데이터 및 기술적 타당성

 

기존 하향식 접근법의 한계

  • 새로운 문제 탐색에 한계
  • 최근 복잡하고 다양한 환경에서 발생하는 문제에 부적합

 

상향식 접근법

  • 지도 학습(분류) : 명확한 목적 하에 데이터 분석을 실시하는 것
  • 비지도 학습(군집화) : 데이터 자체의 결합, 연관성, 유사성 등의 상태를 표현하는 것

 

프로토타이핑 필요성

  • 불명확한 문제 정의에 대해 문제를 이해하고 구체화 하는데 도움
  • 기존 데이터 정의를 재검토하여 데이터 사용 목적과 범위 확대

 

디자인 사고

  • 상향식 접근 방식의 발산 단계와 하향식 접근 방식의 수렴 단계를 반복적으로 수행하는 상호 보완적인 환경을 통해 분석 가치를 높일 수 있는 의사 결정 방식

 

4절 분석 프로젝트 관리 방안

분석 과제 관리를 위한 주요 영역

  • 데이터 양
  • 데이터 복잡도
  • 속도
  • 분석 복잡도
  • 정확도 & 정밀도

 

분석 프로젝트 특징

  • 분석가 목표 : 분석도 향상, 프로젝트 관리
  • 분석가 입장 : 분석 모델을 통한 데이터 영역과 비즈니스 영역 조정
  • 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화

 

반응형

+ Recent posts