3과목 데이터 분석
5장 정형 데이터 마이닝
1절 데이터마이닝 개요
분석 목적에 따른 작업 유형과 기법
예측
분류규칙 : 과거 데이터로부터 분류모형을 만들어 이를 토대로 새로운 레코드 결과값 예측
- 회귀분석, 판별분석, 신경망, 의사결정나무
설명
연관규칙 : 항목간 종속관계 탐색
- 동시발생 매트릭스
연속규칙 : 연관 규칙에 대한 시간 관련 정보가 포함된 형태
- 동시발생 매트릭스
데이터 군집화 : 유사한 특성을 지닌 소그룹으로 분할
- K-Means Clustering
추진 단계
- 목적 설명
- 데이터 준비
- 가공
- 기법 적용
- 검증
데이터 분할
구축용(50%) : 훈련용 데이터
검정용(30%) : 미세조정
시험용(20%) : 모델 성능 검증
데이터 양이 충분하거나 입력 변수 설명이 부족한 경우
- 홀드아웃 : 주어진 데이터를 랜덤하게 두 개의 데이터로 구분
- 교차확인 : 주어진 데이터를 k개의 하부집단으로 구분, k-1개의 학습용와 나머지의 검증용 집단으로 평균값 측정하여 사용
성과분석
조건 O (Positive) | 조건 X (Negative) | |
---|---|---|
예측 O (Positive) | TP (맞춤) | FP |
예측 X (Negative) | FN | TN (맞춤) |
- 정분류율 : TP+TN / 전체
- 오분류율 : FP+FN / 전체
- 특이도 : TN / FP+TN (거짓 중에 맞출 확률)
- 민감도 : TP / TP + FN (참 중에 맞을 확률)
- 정확도 : TP / TP + FP (참으로 예측한 것이 맞을 확률)
- 재현율 : TP / TP + FN
- F1 Score = 2*정확도*재현율 / (정확도+재현율)
ROCP Curve
- 가로축을 FPR(1-특이도), 세로축을 TPR(민감도) 값으로 두고 시각화
- 곡선 아래 면적이 클수록 성능이 좋은 모형
이익도표
분류모형의 성능을 평가하기 위한 척도, 구간별 반응검출율, 반응률, 향상도 고려
- 기본 향상도 = 구매자 비율
- 반응검출율 = 해당 등급 구매자 / 전체 구매자
- 반응률 = 해당 등급 구매자 비율
- 향상도 = 반응률 / 기본 향상도, 좋은 모델일 경우 빠른 속도로 감소
2절 분류분석
분류분석과 예측분석의 정의
- 분류분석 : 데이터의 그룹 예측, 범주형 속성 값
- 예측분석 : 시간에 따른 값 예측, 연속형 속성 값
로지스틱 회귀분석
- 새로운 설명변수가 주어질 때 반응변수의 각 범주에 속할 확률을 추정하여 분류
- 사후확률 : 모형의 적합을 통해 추정된 확률
- 종속변수 = 0, 1
- 계수 추정법 : 최대우도추정법
- 모형 검정 = 카이제곱 검정
오즈
- 오즈 : 성공할 확률이 실패할 확률의 몇 배인지 나타내는 확률
- 오즈비 : 오즈의 비율
의사결정나무
분류함수를 의사결정 규칙으로 이루어진 나무 모양으로 그리는 방법
활용
- 세분화
- 분류
- 예측
- 차원 축소 및 변수 선택
- 범주 병합 및 연속형 변수 이산화
특징
장점
- 설명 용이
- 단순 계산
- 빠른 생성
- 수치형 변수와 범주형 변수 모두 사용 가능
- 높은 정확도
단점
- 과대적합 가능성
- 경계선 부근 자료값의 큰 오차
- 중요도 판단에 어려움
과정
성장 : 각 마디마다 최적의 분리규칙을 찾아 나무 성장, 적절한 정지규칙 만족 시 중단
분리기준
- 이산형 목표변수 : 카이제곱 통계량 p값, 지니 지수, 엔트로피 지수
- 연속형 목표변수 : F 통계량 P값, 분산의 감소량
정지기준 : 의사결정나무의 깊이 지정, 끝마디 레코드 수의 최소 개수 지정
가지치기 : 불필요한 가지 제거
타당성 평가 : 이익도표, 위험도표, 시험자료를 이용하여 평가
해석 및 예측 : 구축된 나무모형 해석, 예측모형 설정 후 적용
의사결정나무 알고리즘
- CART : 변수가 범주형인 경우 지니지수, 연속형인 경우 이진분리 사용
- C4.5와 C5.0 : 다지분리 가능, 엔트로피지수 사용
- CHAID : 범주형 변수, 카이제곱 통계량 사용
3절 앙상블 분석
주어진 자료로부터 여러 개의 예측모형을 만든 후 예측모형을 조합하여 하나의 최종 예측 모형을 만드는 방법
종류
배깅 : 여러개의 부트스트랩 자료를 생성하고 각 부트스르랩 자료에 예측모델을 만든 후 결합하여 최종 예측 모델 생성
부트스트랩 : 주어진 자료에서 동일한 크기의 표본을 랜덤복원추출
보팅 : 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과로 선정하는 것
가지치기를 하지 않고 최대로 성장한 의사결정나무 활용
훈련자료의 모집단의 분포를 모르기 때문에 실제 평균예측모형 산출 불가
=> 훈련자료를 모집단으로 생각하고 평균예측모형을 구하여 분산을 줄이고 예측력 향상
부스팅 : 예측력이 약한 모형을 결합하여 강한 예측 모형을 만드는 방법
- Adaboost : 분류기에 각각 가중치를 설정하여 결합(가중치합 1)
- 예측오차 향상
랜덤 포레스트 : 더 많은 무작위성을 주어 약한 삭습기를 생성한 후 선형으로 결합하여 최종 학습기 생성
- 변수제거 없이 실행되므로 정확한 측면에서 좋은 성과
- 어려운 해석, 높은 예측력
4절 인공신경망 분석
인공 신경망 학습
신경망은 가중치를 반복적으로 조정하며 학습
뉴런은 가중치가 있는 링크로 연결
입력 링크에서 여러 신호를 받아 출력 링크로 출력 신호 출력
활성화 함수 사용 : 가중치 합이 임계값보다 작으면 -1, 크거나 같으면 +1 출력
- softmax함수 : 표준화지수 함수, 출력값이 여러개
- relu함수 : 입력이 0 이하는 0, 0 이상은 x값을 가지는 함수
단일 뉴런 학습(단층 퍼셉트론)
선형 결합기와 하드 리미터로 구성
신경망 모형 구축 시 고려사항
입력 변수
- 범주형 변수 : 가변수화 적용(0 또는 1, -1 또는 1)
- 연속형 변수 : 변환(로그변환), 범주화
가중치의 초기값과 다중 최소값 문제
- 역전파 알고리즘은 초기값에 따라 결과가 많이 달라지므로 초기값 선택이 중요
- 초기값은 0 근처로 랜덤하게 선택하므로 초기 모형은 선형 모형에 가깝고, 가중치 값이 증가할수록 비선형 모형이 됨.
학습모드
- 온라인 학습 모드 : 관측값을 순차적으로 하나씩 신경망에 투입하여 가중치 추정값 변화
- 확률적 학습 모드 : 신경망에 투입되는 관측값의 순서가 랜덤
- 배치 학습 모드 : 전체 훈련자료를 동시에 신경망에 투입
은닉층과 은닉노드 수
- 은닉층과 은닉노드가 많으면 과대 적합 문제 발생
- 은닉층과 은닉노드가 적으면 과소 적합 문제 발생
- 은닉층 수가 하나인 신경망은 매끄러운 함수를 근사적으로 표현 가능
과대 적합 문제 : 조기종료와 가중치 감소 기법으로 해결
5절 군집분석
각 객체의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 다른 군집에 속한 객체간의 상이성을 규명
거리
연속형 변수
- 유클리디안 거리
- 표준화 거리 : 표준편차로 척도 변환한 후 유클리디안 거리 계산
- 마할라노비스 거리 : 통계적 개념이 포함된 거리
- 체비셰프 거리
- 맨하탄 거리
- 캔버라 거리
- 민코우스키 거리 : 맨하탄 거리와 유클리디안 거리를 한번에 표현한 공식
범주형 변수
- 자카드 거리
- 자카드 계수
- 코사인 거리 : 문서를 유사도를 기준으로 분류할 때 사용
- 코사인 유사도
계층적 군집분석
n개의 군집으로 시작해 군집 개수를 줄역 나가는 방식
최단연결법 : 거리가 가장 가까운 데이터를 묶어서 군집 형성
최장연결법
평균연결법
와드연결법 : 군집내 편차들의 제곱합을 고려한 방법
군집화
- 거리행렬을 통해 가장 가까운 거리의 객체들 간의 관계를 규명하고 덴드로그램을 그림.
- 덴드로그램을 보고 군집 개수 선택
비계층적 군집분석
K-평균 군집분석 : 주어진 데이터를 k개의 클러스터로 묶고, 각 클러스터와 거리 차이의 분산을 최소화
과정
- 원하는 군집의 개수와 초기값(seed)을 정해 seed 중심으로 군집 형성
- 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
- 군집의 seed 값 다시 계산
특징
- 연속형 변수에 활용 가능
- 초기 중심값의 선정에 따라 결과가 달라질 수 있음.
- 탐욕적 알고리즘이므로 최적 보장 불가
- 잡음이나 이상값의 영향을 많이 받음.
혼합 분포 군집
모형 기반 군집 방법
각 데이터가 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집 분류가 이루어짐.
EM 알고리즘
- E - 단계 : 잠재변수 Z의 기대치 계산
- Z - 단계 : 잠재변수 Z의 기대치를 이용하여 파라미터 추정
특징
- 확률분포를 도입하여 군집 수행
- 데이터가 커지면 수렴에 시간 소요
- 이상치 자료에 민감
자기조직화지도SOM
비지도 신경망으로 고차원 데이터를 저차원 뉴런으로 정렬
구성
- 입력층 : 입력 변수의 개수와 동일한 뉴런 수 존재
- 경쟁층 : 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층
특징
- 시각적으로 이해가 쉬움
- 패턴 발견, 이미지 분석에 뛰어난 성능
- 빠른 속도
6절 연관분석
조건과 반응의 형태로 거래 또는 사건 간의 규칙 발견
측도
- 지지도 P(A ∩ B) : 항목 A와 항목 B를 동시에 포함하는 거래
- 신뢰도 P(A ∩ B) / P(A) = P(B | A) : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률
- 향상도 P(B | A) / P(B) : 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률 증가비
절차
- 최소 지지도 선정
- 최소 지지도를 넘는 품목 분류
- 2가지 품목 집합 생성
- 반복 수행
특징
장점
- 탐색적 기법
- 비목적성 분석기법
- 사용이 편한 데이터 형태
- 계산이 용이
단점
- 품목 증가에 따른 급격한 계산 수 증가
- 너무 세분화 시 무의미해질 수 있음.
- 거래량이 적은 품목의 비중
'자격증(IT) > ADsP' 카테고리의 다른 글
3과목 데이터 분석 - 4장. 통계분석 (1) | 2024.02.17 |
---|---|
3과목 데이터 분석 - 3장. 데이터 마트 (0) | 2024.02.09 |
3과목 데이터 분석 - 1장. 데이터 분석 개요 (1) | 2024.02.09 |
2과목 데이터 분석 기획 - 2장. 분석 마스터 플랜 (0) | 2024.01.28 |
2과목 데이터 분석 기획 - 1장. 데이터 분석 기획의 이해 (2) | 2024.01.28 |