반응형

2. 데이터 분석 기획

2장 분석 마스터 플랜

1절 마스터 플랜 수립 프레임워크

ISP

조직 내외부 환경을 분석하여 시스템 구축 우선순위를 결정하는 중장기 마스터 플랜 수립 절차

 

분석 마스터 플랜 수립

  • 우선순위 설정

    • 전략적 중요도
    • 비즈니스 성과/ROI
    • 실행 용이성
  • 로드맵 수립

    • 업무 내재화 적용 수준
    • 분석 데이터 적용 수준
    • 기술 적용 수준

 

ROI 관점에서 빅데이터의 핵심 특징

  • 투자비용 요소 : 양, 다양성, 속도 (3V)
  • 비즈니스 효과 요소 : 가치 (4V)

 

빅데이터 분석과제 추진 우선순위 평가 기준

  • 시급성 : 분석 과제의 목표 가치와 전략적 중요도를 현재 관점에 둘 것인지, 미래 관점에 둘 것인지를 함께 고려 (4V)
  • 난이도 : 과제 추진의 범위 측면과 비용 측면에서 고려 (3V)

 

2절 분석 거버넌스 체계 수립

구성 요소

  • 분석 기획 및 관리 수행 조직
  • 과제 기획 및 운영 프로세스
  • 분석 관련 시스템
  • 데이터
  • 분석 교육 육성 체계

 

데이터 분석 수준 진단

  • 분석 준비도

    • 분석 업무 파악, 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라
  • 분석 성숙도

    • 조직 성숙도 평가 도구 : CMMI(Capability Maturity Integration) 모델
    • 분석 성숙도 단계 : 도입(구축), 활용(적용), 확산(공유), 최적화(성과 향상)
사분면 분석준비도 ↓준비도 ↑
성숙도 ↓준비형도입형
성숙도 ↑정착형확산형

 

플랫폼

  • 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템

  • 광의의 분석 플랫폼 = 분석 서비스 + 협의의 분석 플랫폼 + OS + HW

    • 협의의 분석 플랫폼 : 데이터 처리 프레임워크, 분석 엔진, 분석 라이브러리
    • 광의의 분석 플랫폼 : 분석 서비스 제공 엔진, 분석 어플리케이션, 분석 서비스 제공 API
  • 중앙집중적 데이터 관리, 시스템 간 인터페이스 최소화

 

데이터 거버넌스

  • 전사 차원의 모든 데이터에 대하여 표준화된 관리체계 수립, 운영을 위한 프레임워크 및 저장소 구축

  • 구성 요소 : 원칙(지침), 조직(역할), 프로세스(활동)

  • 체계

    • 데이터 표준화 : 표준 용어 설정, 명명 규칙 수립, 메타 데이터 구축, 데이터 사전 구축
    • 데이터 관리 체계 : 메타 데이터와 데이터 사전 관리 원칙 수립, 항목별 상세 프로세스 설정, 운영 조직 역할 선정
    • 데이터 저장소 관리 : 데이터 관리 체계 지원 워크플로우 및 관리용 응용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제
    • 표준화 활동 : 표준 준수 여부 모니터링, 거버넌스 정착을 위한 교육, 개선 활동

 

분석 조직 구조

  • 집중 구조 : 전사 분석 업무를 별도의 분석 전담 조직에서 담당, 현업 업무 부서의 분석 업무와 이중화/이원화 가능성
  • 기능 구조 : 일반적인 분석 수행 구조, 별도의 분석 조직 없이 해당 업무 부서에서 분석 수행, 전사적 핵심분석이 어려움
  • 분산 구조 : 분석조직 인력들을 현업 부서로 직접 배치

 

분석 과제 관리 프로세스

  1. 과제 발굴

    1. 분석 아이디어 발굴
    2. 분석 과제 후보 제안
    3. 분석 과제 확정
  2. 과제 수행

    1. 팀 구성
    2. 분석 과제 실행
    3. 분석 과제 진행 관리
    4. 결과 공유 및 개선

 

반응형
반응형

2. 데이터 분석 기획

1장 데이터 분석 기획의 이해

1절 분석 기획 방향성 도출

분석 기획

  • 분석 수행 전 과제 정의, 의도했던 결과를 도출할 수 있도록 관리 방안을 사전에 계획
  • 수학/통계학적 지식 + 정보기술 + 비즈니스에 대한 이해와 전문성 요구

 

분석 주제 유형

분석 주제 유형 대상(What) - 인지 대상(What) - 비인지
방법(How) - 인지 최적화 통찰
방법(How) - 비인지 솔루션 발견

 

목표 시점 별 분석 기획 방안

  • 과제 단위 : 속도, 빠른 해결, 문제 해결
  • 마스터 플랜 단위 : 정확도, 지속적인 내제화, 분석 과제 정의

 

분석 기획 시 고려사항

  1. 가용 데이터 : 데이터 확보, 데이터 유형 분석
  2. 적절한 활용 방안과 유즈케이스
  3. 장애 요소에 대한 사전 계획 수립

 

2절 분석 방법론

분석 방법론 구성 요소

  • 절차, 방법, 도구와 기법, 템플릿과 산출물

 

기업의 합리적 의사결정을 막는 장애 요소

  • 고정 관념(Stereotype)
  • 편견(Bias)
  • 프레이밍 효과(Framing Effect)

 

방법론 적용 업무의 특성에 따른 모델

  • 폭포수 모델 : 단계를 순차적으로 진행하는 방법
  • 프로토타입 모델 : 일부분을 우선 개발하여 사용자에게 제공한 후 개선 작업을 시행한 모델
  • 나선형 모델 : 반복을 통해 점증적으로 개발하는 방법

 

KDD 분석 방법론

  • Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스

 

KDD 프로세스

  1. 데이터셋 선택 : 목표 데이터 구성
  2. 데이터 전처리 : 노이즈, 이상치, 결측치 재처리를 통한 데이터셋 정제
  3. 데이터 변환 : 학습용 데이터와 검증용 데이터로 데이터를 분리
  4. 데이터 마이닝 : 데이터 마이닝 기법 선택, 필요에 따라 데이터 전처리와 데이터 변환을 추가 실행
  5. 결과 평가 : 결과 해석 및 평가, 분석 목적과의 일치성 확인

 

CRISP-DM 분석 방법론

  • 계층적 프로세스 모델, 4개 레벨로 구성
  • 단계 > 일반화 태스크 > 세분화 태스크 > 프로세스 실행

 

CRISP-DM 프로세스

  • 업무 이해 : 목적과 요구사항을 이해, 데이터 분석을 위한 문제 정의
  • 데이터 이해 : 데이터 수집, 데이터 속성 이해, 데이터 품질 확인
  • 데이터 준비 : 데이터 셋 선택, 데이터 정제
  • 모델링 : 모델링 기법과 알고리즘 선택, 파라미터 최적화, 모델 평가
  • 평가 : 분석 결과 평가, 모델링 과정 평가
  • 전개 : 실 업무에 적용, 유지보수 계획

 

KDD와 CRISP-DM 프로세스 비교

KDD CRISP-DM
분석 대상 비즈니스 이해 업무 이해
데이터셋 선택 데이터 이해
데이터 전처리 데이터 이해
데이터 변환 데이터 준비
데이터 마이닝 모델링
데이터 마이닝 결과 평가 평가
데이터 마이닝 활용 전개

 

빅데이터 분석의 계층적 프로세스

  1. 단계 : 프로세스 그룹을 통한 완성된 단계별 산출물 생성
  2. 태스크 : 단계를 구성하는 단위 활동
  3. 스텝 : WBS(Work Breakdown Structure - 업무 분업 구조)의 워크 패키지에 해당, 입출력 자료와 처리 및 도구로 구성된 단위 프로세스

 

빅데이터 분석 방법론

  1. 분석 기획
    • 비즈니스 이해 및 범위 설정 : SOW(프로젝트 범위 정의서)
    • 프로젝트 정의 및 계획 수립 : 프로젝트 정의서, WBS
    • 프로젝트 위험계획 수립 : 회피, 전이, 완화, 수용
  2. 데이터 준비
    • 필요 데이터 정의 : 데이터 정의서
    • 데이터 스토어 설계 : 데이터베이스 논리, 물리 설계
    • 데이터 수집 및 정합성 점검
  3. 데이터 분석
    • 분석용 데이터 준비
    • 텍스트 분석
    • 탐색적 분석 : 데이터 시각화
    • 모델링
    • 모델 평가 및 검증
  4. 시스템 구현
    • 설계 및 구현
    • 시스템 테스트 및 운영
  5. 평가 및 전개
    • 모델 발전 계획 수립
    • 프로젝트 평가 및 보고

 

3절 분석 과제 발굴

하샹식 접근법

  1. 문제 탐색 : 문제 해결로 발생하는 가치에 중점
    • 비즈니스 모델기반 문제 탐색
      • 업무 : 내부 프로세스 및 주요 자원
      • 제품 : 제품, 서비스를 개선
      • 고객 : 제품, 서비스를 제공 받는 사용자 및 고객, 이를 제공하는 채널
      • 규제와 감사 : 제품 생산 및 전달 과정 프로세스 중 발생하는 규제 및 보안
      • 지원 인프라 : 분석을 수행하는 시스템 영역 및 인력
    • 분석 기회 발굴 범위 확장
      • 거시적 관점 : 사회, 기술, 경제, 환경, 정치(STEEP)
      • 경쟁자 확대 : 대체제, 경쟁자, 신규 진입자
      • 시장 니즈 탐색 : 고객, 채널, 영향자
      • 역량 재해석 : 내부 역량, 파트너와 네트워크
    • 외부 참조 모델 기반 문제 탐색 : 산업별, 업무 서비스별 분석 테마 후보 그룹을 통해 아이디어를 얻고, 브레인스토밍을 통해 분석 테마 목록을 빠르게 도출
    • 분석 유즈 케이스 : 풀어야 할 문제에 대한 상세한 설명 및 문제 해결 시 발생하는 효과
  2. 문제 정의 : 식별된 비즈니스 문제를 데이터의 문제로 변환
  3. 해결 방안 탐색 : 분석 역량의 확보 여부와 신규 시스템 도입 필요 여부에 따른 해결 방안 탐색
  4. 타당성 검토
    • 경제적 타당성
    • 데이터 및 기술적 타당성

 

기존 하향식 접근법의 한계

  • 새로운 문제 탐색에 한계
  • 최근 복잡하고 다양한 환경에서 발생하는 문제에 부적합

 

상향식 접근법

  • 지도 학습(분류) : 명확한 목적 하에 데이터 분석을 실시하는 것
  • 비지도 학습(군집화) : 데이터 자체의 결합, 연관성, 유사성 등의 상태를 표현하는 것

 

프로토타이핑 필요성

  • 불명확한 문제 정의에 대해 문제를 이해하고 구체화 하는데 도움
  • 기존 데이터 정의를 재검토하여 데이터 사용 목적과 범위 확대

 

디자인 사고

  • 상향식 접근 방식의 발산 단계와 하향식 접근 방식의 수렴 단계를 반복적으로 수행하는 상호 보완적인 환경을 통해 분석 가치를 높일 수 있는 의사 결정 방식

 

4절 분석 프로젝트 관리 방안

분석 과제 관리를 위한 주요 영역

  • 데이터 양
  • 데이터 복잡도
  • 속도
  • 분석 복잡도
  • 정확도 & 정밀도

 

분석 프로젝트 특징

  • 분석가 목표 : 분석도 향상, 프로젝트 관리
  • 분석가 입장 : 분석 모델을 통한 데이터 영역과 비즈니스 영역 조정
  • 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화

 

반응형
반응형

1. 데이터의 이해

최신 빅데이터 상식

1. DBMS와 SQL

DBMS 정의

데이터베이스 사용 환경 제공 소프트웨어

 

DBMS 종류

  • 관계형 DBMS : 테이블 기반
  • 객체지향 DBMS : 복잡한 데이터 구조 표현, 객체 기반
  • 네트워크 DBMS : 그래프 기반
  • 계층형 DBMS : 트리 구조 기반

 

SQL

질의 기능, 데이터 정의 및 조작

 

SQL 집계함수

  • AVG
  • COUNT
  • SUM
  • STDDEV
  • MIN
  • MAX

 

2. Data에 관련한 기술

개인정보 비식별 기술

  • 데이터 마스킹 : 데이터 길이, 유형, 형식 유지
  • 가명처리 : 개인정보 주체의 이름을 다른 이름으로 변경
  • 총계처리 : 데이터의 총합
  • 데이터값 삭제 : 필요 없는 값 또는 중요 값 삭제
  • 데이터 범주화 : 데이터 값을 범주로 변환

 

데이터 무결성

데이터 수정 시 제한을 두어 데이터의 일관성, 유효성, 신뢰성을 보장

  • 개체 무결성 : 기본키는 NULL이나 중복값 불가
  • 참조 무결성 : 외래키 값은 NULL이거나 참조 릴레이션의 기본키 값과 일치
  • 도메인 무결성 : 특정 속성 값이 정의된 도메인 값만 가능 ex) 여부 - Y/N

 

데이터 레이크

의미 있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템

 

3. 빅데이터 분석 기술

  • 하둡 : 분산 파일 시스템(HDFS)을 통해 여러 장비에 대용량 파일 저장, 맵리듀스로 HDFS에 저장된 대용량 데이터를 SQL 실시간 처리
  • Apache Spark : 실시간 분산형 컴퓨팅 플랫폼, In-Memory 방식 처리로 인한 빠른 처리속도
  • Smart Factory : 공장 내 설비와 기계에 IoT가 설치되어 생산성 극대화
  • Machine Learning : 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현 (Anaconda)
  • Deep Learning : 인공신경망 등의 기술을 기반으로 구축한 기계학습 기술 중 하나 (Caffe, Tensorflow, Theano)

 

4. 기타

데이터 양 단위

  • B < KB < MB < GB < TB < PB(페타) < EB(엑사) < ZB(제타) < YB(요타)

 

블록체인

거래정보를 하나의 덩어리로 보고 이를 차례로 연결

 

데이터 유형

  • 정형 데이터 : 형태가 있으며 연산가능, 주로 RDBMS에 저장
  • 반정형 데이터 : 형태가 있으며 연산 불가능, 주로 파일로 저장
  • 비정형 데이터 : 형태가 없으며 연산 불가능, 주로 NoSQL에 저장

 

반응형
반응형

1. 데이터 이해

3장 가치 창조를 위한 데이터 사이언스와 전략 인사이트

1절 빅데이터 분석과 전략 인사이트

단순한 빅데이터가 아닌 분석을 통한 가치 창출에 집중

분석의 양이 아닌 전략적 통찰 필요

일차적인 분석은 해당 업무 영역에서는 효과를 얻을 수 있지만 변화에 대응하거나 새로운 기회 포착에 어려움

 

산업별 분석 애플리케이션

  • 금융 서비스 : 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석
  • 병원 : 가격 책정, 고객 로열티, 수익 관리
  • 에너지 : 트레이딩, 공급/수요 예측
  • 정부 : 사기 탐지, 사례 관리, 범죄 방지, 수익 최적화

 

2절 전략 인사이트 도출을 위한 필요 역량

데이터 사이언스의 의미와 역할

  • 의미 : 데이터로부터 의미있는 정보를 추출, 분석하여 효과적으로 구현, 전달하는 과정
  • 역할 : 비즈니스 핵심 이슈에 대한 답, 사업 성과 견인

 

데이터 사이언스 영역

  • 분석적 영역 : 수학, 기계학습
  • 데이터 처리와 관련된 IT영역 : 프로그래밍, 데이터 웨어하우스
  • 비즈니스 컨설팅 영역 : 커뮤니케이션, 프레젠테이션, 시각화

 

데이터 웨어하우스

주제 중심적으로 통합적이며 시간성을 가지는 비휘발성 데이터 집합

  • 데이터의 주제 지향성
  • 데이터 통합
  • 데이터 시계열성
  • 데이터 비휘발성

무결성은 상대적으로 덜 중요

 

데이터 사이언티스트 요구 역량

  • 하드 스킬 : 빅데이터 관련 이론적 지식, 분석 기술에 대한 숙련
  • 소프트 스킬 : 통찰력 있는 분석, 설득력 있는 전달, 다분야간 협력

 

3절 빅데이터 그리고 데이터 사이언스의 미래

빅데이터 패러다임의 변화

  1. 과거 - 디지털화 : 아날로그의 디지털화
  2. 현재 - 연결 : 디지털화된 정보와 대상 연결
  3. 미래 - 관리 : 복잡한 연결의 관리

 

데이터 사이언스의 한계

  • 분석 과정에서 인간의 해석 개입
  • 분석 결과에 대한 다른 해석과 결론 도출 가능성

 

데이터 사이언스와 인문학

인문학을 이용하여 빅데이터와 데이터 사이언스가 데이터의 잠재력 해석

반응형
반응형

1. 데이터 이해

2장 데이터의 가치와 미래

1절 빅데이터의 이해

빅데이터 규모에 따른 정의

  1. 좁은 범위 : 데이터 변화 (3V - 규모, 다양성, 속도)
  2. 중간 범위 : 기술 변화 (데이터 처리, 저장, 분석 기술 및 아키텍쳐)
  3. 넓은 범위 : 인재, 조직 변화 (Data Scientist, 데이터 중심 조직)

 

빅데이터 출연 배경

  • 산업계 : 고객 데이터 축적에 따른 데이터 가치 발굴
  • 학계 : 아키텍처 및 통계 도구 발전
  • 기술발전 : 디지털화, 인터넷 보급

 

빅데이터로 인한 변화

  • 사전처리 -> 사후처리 : 필요한 데이터만 수집 -> 가능한 한 많은 데이터를 다양한 방식으로 조합해 숨은 정보 탐색
  • 표본조사 -> 전수조사 : 데이터 수집 비용 및 처리 비용 감소
  • -> 양
  • 인과관계 -> 상관관계 : 상관관계를 통해 특정 현상의 발전 가능성 포착, 상응하는 행동 추천

 

2절 빅데이터의 가치와 영향

빅데이터 가치 산정이 어려운 이유

  • 데이터의 재사용, 재조합(Mashup)이 일반화되면서 특정 데이터 활용 목적을 알 수 없음.
  • 기존에 없던 가치 창출
  • 분석 기술의 발전에 따라 현재 가치가 없더라고 가치 있는 데이터가 될 수 있음.

 

빅데이터의 영향

생활 전반의 스마트화

  • 기업 : 비즈니스 모델 혁신, 신사업 발굴
  • 정부 : 사회 변화 추정, 관련 정보 추출
  • 개인 : 데이터 분석 비용의 지속적이 하락에 따른 다양한 활용

 

3절 비즈니스 모델

빅데이터 활용 기본 테크닉

  • 연관규칙학습 : 변인 간 상관관계 탐색
  • 유형분석 : 분류
  • 유전자 알고리즘 : 최적화가 필요한 해결책 진화
  • 기계학습 : 훈련 데이터로부터 학습한 특성을 활용해 예측
  • 회귀분석 : 독립변수 조작에 따른 종속변수 변화를 보면서 변인의 관계 파악
  • 감정분석 : 설문조사 및 고객 평가
  • 소셜네트워크분석 : 특정인과의 관계 또는 영향력 있는 사람 탐색

 

4절 위기 요인과 통제 방안

위기 요인통제 방안
사생활 침해 : 익명화 기술 발전 필요 제공자 동의 -> 사용자 책임
책임 원칙 훼손 : 점재적 위협이 아닌 행동한 결과에 대한 책임결과 기반 책임 원칙 고수
데이터 오용 : 미래 예측 정확도는 높으나 항상 맞지는 않음.알고리즘에 대한 접근권 제공

 

5절 미래의 빅데이터

빅데이터 활용 3요소

  • 데이터 : 모든 것의 데이터화
  • 기술 : 진화하는 알고리즘, 인공지능
  • 인력 : 데이터 사이언티스트, 알고리즈미스트

 

반응형
반응형

1. 데이터 이해

1장 데이터와 정보

1절 데이터와 정보

데이터 정의

객관적 사실, 추론과 추정의 근거

 

데이터 유형

  • 정성적 데이터 : 비정형 데이터, 주관적, 통계 분석이 어려움
  • 정량적 데이터 : 정형 데이터, 객관적, 통계 분석이 쉬움

 

지식경영 핵심이슈

  • 암묵지 : 체화, 내면화된 지식 -> 조직으로 공통화
  • 형식지 : 문서화, 표출화된 지식 -> 개인으로 연결화

* 암묵지와 형식지의 상호작용 관계 : 공통화 -> 표출화 -> 연결화 -> 내면화

 

DIKW 피라미드

  1. 데이터 : 객관적 사실
  2. 정보 : 데이터 가공, 의미 도출
  3. 지식 : 정보 구조화, 유의미한 정보
  4. 지혜 : 창의적 산출물

 

2절 데이터베이스 정의와 특징

데이터베이스 정의

  • 일정 구조에 따라 편성된 데이터 집합

 

데이터베이스 특징

  • 통합(중복 X)
  • 저장
  • 공용
  • 변화(최신화)

 

3절 데이터베이스 활용

시대별 기업내부 데이터베이스

  • 1980년대

    • OLTP(On-Line Transaction Processing) : 데이터 갱신 위주, 동적 데이터 갱신, 빠른 응답 시간
    • OLAP(On-Line Analytical Processing) : 데이터 조회 위주, 정적 데이터 갱신, 느린 응답 시간
  • 2000년대

    • CRM(Customer Relationship Management) : 고객 데이터 세분화를 통한 효율적인 마케팅 전략 개발 관리 체계
    • SCM(Supply Chain Management) : 공급망 단계 최적화를 통한 수요자의 요구에 기민한 대응

 

분야별 기업내부 데이터베이스

  • 제조분야 : CS 기반 -> 웹 기반, ERP -> CRM, RTE를 통한 협업적 IT화 비중 확대

    • ERP(Enterprise Resource Planning) : 경영자원 통합 시스템
    • BI(Business Intelligence) : 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
    • CRM(Customer Relationship Management) : 고객 중심 자원 극대화
    • RTE(Real-Time Enterprise) : 실시간 기업경영시스템, 회사 전 부문 정보 통합
  • 금융부문 : 업무 프로세스 효율화, 통합 시스템 구축

    • EAI(Enterprise Application Integration) : 정보를 중앙 집중적으로 통합, 관리, 사용할 수 있는 환경 구현
    • EDW(Enterprise Data Warehouse) : DW를 전사적으로 확장한 모델, 분석 애플리케이션 원천
  • 유통부문

    • KMS(Knowledge Management System) : 기업 경영을 지식이라는 관점에서 접근
    • RFID(Radio Frequency) : 전자태그, 주파수를 이용해 ID 식별

 

사회기반구조 기업내부 데이터베이스

사회간접자본(SOC) 차원에서 EDI를 활용하여 VAN을 통해 정보망 구축

  • EDI(Electronic Data Interchange) : 각종 서류를 표준화된 양식을 통해 전자 신호로 바꿔 전송하는 시스템
  • VAN(Value Added Network) : 통신회선을 차용하여 독자적인 네트워크 형성
  • CALS(Commerce At Light Speed) : 제품의 라이프 사이클 관련 데이터를 통합, 공유, 교환할 수 있도록 한 경영통합정보시스템

 

반응형

+ Recent posts