반응형
3과목 데이터 분석
3장 데이터 마트
1절 데이터 변경 및 요약
데이터 마트
- 데이터 웨어하우스와 사용자 사이의 중간층
- 하나의 주제 중심 데이터 웨어하우스
요약변수
- 수집된 정보를 분석에 맞게 종합한 변수
- 높은 재활용성
파생변수
- 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
- 주관적일 수 있으므로 논리적 타당성 필요
2절 데이터 가공
변수의 구간화
- 연속형 변수를 분석 목적에 맞게 활용하기 위해 구간화
- 구간화 방법
- binning : 정렬 후 구간화
- 의사결정나무
3절 기초 분석 및 데이터 관리
결측값 처리
- 단순 대치법
- completes analysis : 삭제
- 평균대치법
- 비조건부 평균 대치법 : 관측 데이터의 평균으로 대치
- 조건부 평균 대치법 : 회귀분석을 활용한 대치
- 단순 확률 대치법
- 다중 대치법 : m번의 대치를 통해 m개의 가상 완전 자료 생성
- 절차 : 1. 대치 2. 분석 3. 결합
이상값
- 활용 가능한 데이터 : 의도하지 않은 현상이지만 분석에 포함해야 하는 경우, 의도된 이상값
- 활용 불가능한 데이터 : 의도하지 않게 잘못 입력한 경우, 의도하지 않게 입력되었으나 분석 목적에 부합하지 않는 경우
이상값 인식 방법
- ESD : 평균으로부터 3 표준편차 떨어진 값(99.7% 초과)
- 기하평균으로부터 표준편차의 2.5배 떨어진 값
- 사분위수 활용 : Q1과 Q3으로부터 (Q3-Q1)의 1.5배 떨어진 값
반응형
'자격증(IT) > ADsP' 카테고리의 다른 글
3과목 데이터 분석 - 5장. 정형 데이터 마이닝 (1) | 2024.02.19 |
---|---|
3과목 데이터 분석 - 4장. 통계분석 (1) | 2024.02.17 |
3과목 데이터 분석 - 1장. 데이터 분석 개요 (1) | 2024.02.09 |
2과목 데이터 분석 기획 - 2장. 분석 마스터 플랜 (0) | 2024.01.28 |
2과목 데이터 분석 기획 - 1장. 데이터 분석 기획의 이해 (2) | 2024.01.28 |