반응형

3과목 데이터 분석

3장 데이터 마트

1절 데이터 변경 및 요약

데이터 마트

  • 데이터 웨어하우스와 사용자 사이의 중간층
  • 하나의 주제 중심 데이터 웨어하우스

 

요약변수

  • 수집된 정보를 분석에 맞게 종합한 변수
  • 높은 재활용성

 

파생변수

  • 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
  • 주관적일 수 있으므로 논리적 타당성 필요

 

2절 데이터 가공

변수의 구간화

  • 연속형 변수를 분석 목적에 맞게 활용하기 위해 구간화
  • 구간화 방법
    • binning : 정렬 후 구간화
    • 의사결정나무

 

3절 기초 분석 및 데이터 관리

결측값 처리

  • 단순 대치법
    • completes analysis : 삭제
    • 평균대치법
      • 비조건부 평균 대치법 : 관측 데이터의 평균으로 대치
      • 조건부 평균 대치법 : 회귀분석을 활용한 대치
    • 단순 확률 대치법
  • 다중 대치법 : m번의 대치를 통해 m개의 가상 완전 자료 생성
    • 절차 : 1. 대치 2. 분석 3. 결합

 

이상값

  • 활용 가능한 데이터 : 의도하지 않은 현상이지만 분석에 포함해야 하는 경우, 의도된 이상값
  • 활용 불가능한 데이터 : 의도하지 않게 잘못 입력한 경우, 의도하지 않게 입력되었으나 분석 목적에 부합하지 않는 경우

 

이상값 인식 방법

  • ESD : 평균으로부터 3 표준편차 떨어진 값(99.7% 초과)
  • 기하평균으로부터 표준편차의 2.5배 떨어진 값
  • 사분위수 활용 : Q1과 Q3으로부터 (Q3-Q1)의 1.5배 떨어진 값
반응형

+ Recent posts