반응형

3과목 데이터 분석

5장 정형 데이터 마이닝

1절 데이터마이닝 개요

분석 목적에 따른 작업 유형과 기법

  • 예측

    • 분류규칙 : 과거 데이터로부터 분류모형을 만들어 이를 토대로 새로운 레코드 결과값 예측

      • 회귀분석, 판별분석, 신경망, 의사결정나무
  • 설명

    • 연관규칙 : 항목간 종속관계 탐색

      • 동시발생 매트릭스
    • 연속규칙 : 연관 규칙에 대한 시간 관련 정보가 포함된 형태

      • 동시발생 매트릭스
    • 데이터 군집화 : 유사한 특성을 지닌 소그룹으로 분할

      • K-Means Clustering

 

추진 단계

  1. 목적 설명
  2. 데이터 준비
  3. 가공
  4. 기법 적용
  5. 검증

 

데이터 분할

  • 구축용(50%) : 훈련용 데이터

  • 검정용(30%) : 미세조정

  • 시험용(20%) : 모델 성능 검증

  • 데이터 양이 충분하거나 입력 변수 설명이 부족한 경우

    • 홀드아웃 : 주어진 데이터를 랜덤하게 두 개의 데이터로 구분
    • 교차확인 : 주어진 데이터를 k개의 하부집단으로 구분, k-1개의 학습용와 나머지의 검증용 집단으로 평균값 측정하여 사용

 

성과분석

 조건 O (Positive)조건 X (Negative)
예측 O (Positive)TP (맞춤)FP
예측 X (Negative)FNTN (맞춤)
  • 정분류율 : TP+TN / 전체
  • 오분류율 : FP+FN / 전체
  • 특이도 : TN / FP+TN (거짓 중에 맞출 확률)
  • 민감도 : TP / TP + FN (참 중에 맞을 확률)
  • 정확도 : TP / TP + FP (참으로 예측한 것이 맞을 확률)
  • 재현율 : TP / TP + FN
  • F1 Score = 2*정확도*재현율 / (정확도+재현율)

 

ROCP Curve

  • 가로축을 FPR(1-특이도), 세로축을 TPR(민감도) 값으로 두고 시각화
  • 곡선 아래 면적이 클수록 성능이 좋은 모형

 

이익도표

분류모형의 성능을 평가하기 위한 척도, 구간별 반응검출율, 반응률, 향상도 고려

  • 기본 향상도 = 구매자 비율
  • 반응검출율 = 해당 등급 구매자 / 전체 구매자
  • 반응률 = 해당 등급 구매자 비율
  • 향상도 = 반응률 / 기본 향상도, 좋은 모델일 경우 빠른 속도로 감소

 

2절 분류분석

분류분석과 예측분석의 정의

  • 분류분석 : 데이터의 그룹 예측, 범주형 속성 값
  • 예측분석 : 시간에 따른 값 예측, 연속형 속성 값

 

로지스틱 회귀분석

  • 새로운 설명변수가 주어질 때 반응변수의 각 범주에 속할 확률을 추정하여 분류
  • 사후확률 : 모형의 적합을 통해 추정된 확률
  • 종속변수 = 0, 1
  • 계수 추정법 : 최대우도추정법
  • 모형 검정 = 카이제곱 검정

 

오즈

  • 오즈 : 성공할 확률이 실패할 확률의 몇 배인지 나타내는 확률
  • 오즈비 : 오즈의 비율

 

의사결정나무

분류함수를 의사결정 규칙으로 이루어진 나무 모양으로 그리는 방법

 

  • 활용

    • 세분화
    • 분류
    • 예측
    • 차원 축소 및 변수 선택
    • 범주 병합 및 연속형 변수 이산화
  • 특징

    • 장점

      • 설명 용이
      • 단순 계산
      • 빠른 생성
      • 수치형 변수와 범주형 변수 모두 사용 가능
      • 높은 정확도
    • 단점

      • 과대적합 가능성
      • 경계선 부근 자료값의 큰 오차
      • 중요도 판단에 어려움
  • 과정

    1. 성장 : 각 마디마다 최적의 분리규칙을 찾아 나무 성장, 적절한 정지규칙 만족 시 중단

      • 분리기준

        • 이산형 목표변수 : 카이제곱 통계량 p값, 지니 지수, 엔트로피 지수
        • 연속형 목표변수 : F 통계량 P값, 분산의 감소량
      • 정지기준 : 의사결정나무의 깊이 지정, 끝마디 레코드 수의 최소 개수 지정

    2. 가지치기 : 불필요한 가지 제거

    3. 타당성 평가 : 이익도표, 위험도표, 시험자료를 이용하여 평가

    4. 해석 및 예측 : 구축된 나무모형 해석, 예측모형 설정 후 적용

 

의사결정나무 알고리즘

  • CART : 변수가 범주형인 경우 지니지수, 연속형인 경우 이진분리 사용
  • C4.5와 C5.0 : 다지분리 가능, 엔트로피지수 사용
  • CHAID : 범주형 변수, 카이제곱 통계량 사용

 

3절 앙상블 분석

주어진 자료로부터 여러 개의 예측모형을 만든 후 예측모형을 조합하여 하나의 최종 예측 모형을 만드는 방법

 

종류

  • 배깅 : 여러개의 부트스트랩 자료를 생성하고 각 부트스르랩 자료에 예측모델을 만든 후 결합하여 최종 예측 모델 생성

    • 부트스트랩 : 주어진 자료에서 동일한 크기의 표본을 랜덤복원추출

    • 보팅 : 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과로 선정하는 것

    • 가지치기를 하지 않고 최대로 성장한 의사결정나무 활용

    • 훈련자료의 모집단의 분포를 모르기 때문에 실제 평균예측모형 산출 불가

      => 훈련자료를 모집단으로 생각하고 평균예측모형을 구하여 분산을 줄이고 예측력 향상

  • 부스팅 : 예측력이 약한 모형을 결합하여 강한 예측 모형을 만드는 방법

    • Adaboost : 분류기에 각각 가중치를 설정하여 결합(가중치합 1)
    • 예측오차 향상
  • 랜덤 포레스트 : 더 많은 무작위성을 주어 약한 삭습기를 생성한 후 선형으로 결합하여 최종 학습기 생성

    • 변수제거 없이 실행되므로 정확한 측면에서 좋은 성과
    • 어려운 해석, 높은 예측력

 

4절 인공신경망 분석

인공 신경망 학습

  • 신경망은 가중치를 반복적으로 조정하며 학습

  • 뉴런은 가중치가 있는 링크로 연결

  • 입력 링크에서 여러 신호를 받아 출력 링크로 출력 신호 출력

  • 활성화 함수 사용 : 가중치 합이 임계값보다 작으면 -1, 크거나 같으면 +1 출력

    • softmax함수 : 표준화지수 함수, 출력값이 여러개
    • relu함수 : 입력이 0 이하는 0, 0 이상은 x값을 가지는 함수

 

단일 뉴런 학습(단층 퍼셉트론)

선형 결합기와 하드 리미터로 구성

 

신경망 모형 구축 시 고려사항

  • 입력 변수

    • 범주형 변수 : 가변수화 적용(0 또는 1, -1 또는 1)
    • 연속형 변수 : 변환(로그변환), 범주화
  • 가중치의 초기값과 다중 최소값 문제

    • 역전파 알고리즘은 초기값에 따라 결과가 많이 달라지므로 초기값 선택이 중요
    • 초기값은 0 근처로 랜덤하게 선택하므로 초기 모형은 선형 모형에 가깝고, 가중치 값이 증가할수록 비선형 모형이 됨.
  • 학습모드

    • 온라인 학습 모드 : 관측값을 순차적으로 하나씩 신경망에 투입하여 가중치 추정값 변화
    • 확률적 학습 모드 : 신경망에 투입되는 관측값의 순서가 랜덤
    • 배치 학습 모드 : 전체 훈련자료를 동시에 신경망에 투입
  • 은닉층과 은닉노드 수

    • 은닉층과 은닉노드가 많으면 과대 적합 문제 발생
    • 은닉층과 은닉노드가 적으면 과소 적합 문제 발생
    • 은닉층 수가 하나인 신경망은 매끄러운 함수를 근사적으로 표현 가능
  • 과대 적합 문제 : 조기종료와 가중치 감소 기법으로 해결

 

5절 군집분석

각 객체의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 다른 군집에 속한 객체간의 상이성을 규명

 

거리

  • 연속형 변수

    • 유클리디안 거리
    • 표준화 거리 : 표준편차로 척도 변환한 후 유클리디안 거리 계산
    • 마할라노비스 거리 : 통계적 개념이 포함된 거리
    • 체비셰프 거리
    • 맨하탄 거리
    • 캔버라 거리
    • 민코우스키 거리 : 맨하탄 거리와 유클리디안 거리를 한번에 표현한 공식
  • 범주형 변수

    • 자카드 거리
    • 자카드 계수
    • 코사인 거리 : 문서를 유사도를 기준으로 분류할 때 사용
    • 코사인 유사도

 

계층적 군집분석

n개의 군집으로 시작해 군집 개수를 줄역 나가는 방식

  • 최단연결법 : 거리가 가장 가까운 데이터를 묶어서 군집 형성

  • 최장연결법

  • 평균연결법

  • 와드연결법 : 군집내 편차들의 제곱합을 고려한 방법

  • 군집화

    1. 거리행렬을 통해 가장 가까운 거리의 객체들 간의 관계를 규명하고 덴드로그램을 그림.
    2. 덴드로그램을 보고 군집 개수 선택

 

비계층적 군집분석

  • K-평균 군집분석 : 주어진 데이터를 k개의 클러스터로 묶고, 각 클러스터와 거리 차이의 분산을 최소화

  • 과정

    1. 원하는 군집의 개수와 초기값(seed)을 정해 seed 중심으로 군집 형성
    2. 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
    3. 군집의 seed 값 다시 계산
  • 특징

    • 연속형 변수에 활용 가능
    • 초기 중심값의 선정에 따라 결과가 달라질 수 있음.
    • 탐욕적 알고리즘이므로 최적 보장 불가
    • 잡음이나 이상값의 영향을 많이 받음.

 

혼합 분포 군집

  • 모형 기반 군집 방법

  • 각 데이터가 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집 분류가 이루어짐.

  • EM 알고리즘

    1. E - 단계 : 잠재변수 Z의 기대치 계산
    2. Z - 단계 : 잠재변수 Z의 기대치를 이용하여 파라미터 추정
  • 특징

    • 확률분포를 도입하여 군집 수행
    • 데이터가 커지면 수렴에 시간 소요
    • 이상치 자료에 민감

 

자기조직화지도SOM

  • 비지도 신경망으로 고차원 데이터를 저차원 뉴런으로 정렬

  • 구성

    • 입력층 : 입력 변수의 개수와 동일한 뉴런 수 존재
    • 경쟁층 : 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층
  • 특징

    • 시각적으로 이해가 쉬움
    • 패턴 발견, 이미지 분석에 뛰어난 성능
    • 빠른 속도

 

6절 연관분석

조건과 반응의 형태로 거래 또는 사건 간의 규칙 발견

 

측도

  • 지지도 P(A ∩ B) : 항목 A와 항목 B를 동시에 포함하는 거래
  • 신뢰도 P(A ∩ B) / P(A) = P(B | A) : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률
  • 향상도 P(B | A) / P(B) : 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률 증가비

 

절차

  1. 최소 지지도 선정
  2. 최소 지지도를 넘는 품목 분류
  3. 2가지 품목 집합 생성
  4. 반복 수행

 

특징

  • 장점

    • 탐색적 기법
    • 비목적성 분석기법
    • 사용이 편한 데이터 형태
    • 계산이 용이
  • 단점

    • 품목 증가에 따른 급격한 계산 수 증가
    • 너무 세분화 시 무의미해질 수 있음.
    • 거래량이 적은 품목의 비중
반응형

+ Recent posts