반응형

 



2월 24일에 치뤄진 40회 ADsP에 합격했다.

1과목은 풀면서 거의 다 맞는 느낌이었고, 2과목은 과락만 면하자는 느낌으로 풀었다.

3과목은 긴가민가한 선지가 많았지만 4개의 선지에서 확실히 답이 아닌 선지를 지운 후 후보를 줄여서 찍어서 맞추면 된다. 100점짜리 시험이 아니니까. 확실한 문제만 챙기자.

점수는 아슬아슬했지만 과락없이 60점만 넘기면 되는 시험이니 상관없다.

 

준비과정

  • 1과목
    • 고득점 과목
    • 용어를 익히고 내용을 한번 정리하면 쉽게 점수를 취득할 수 있는 쉬운 과목.
    • 고득점을 위한 개인정보 비식별 기술, 데이터 양 단위 크기 순서 등 상식 문제 준비
  • 2과목
    • 과락 방지 과목
    • 암기가 많이 필요한 과목이다. 범위는 좁지만 범위가 좁은 만큼 암기할 부분이 많다.
    • 분석방법론(KDD, CRISP-DM) 프로세스 비교, 빅데이터 분석 방법론, 각종 산출물, 분석 성숙도에 대한 암기 필수
  • 3과목
    • 전체 50문항 중 30문항을 차지하는 가장 중요하고 많은 시간이 필요한 과목, 전체 준비 시간의 절반 이상 소요
    • R에 대한 문제는 별도 대비 필요가 없다.
    • 3장 데이터 마트, 4장 통계분석, 5장 데이터 마이닝 각각 기본 용어 및 개념에 대한 숙지가 필요하며 공식이 나오는 경우 공식 암기도 필요하다.
    • 확률분포에 경우 t분포, 카이제곱분포, F분포와 같이 한 두줄의 설명으로 이해가 안되는 경우 유튜브 등 영상을 보는게 나을 수 있다.
    • 여러 용어가 나오므로 비교를 통한 구분 필요
    • 3장 : 데이터 마트 개념, 결측치, 이상값
    • 4장 : 표본조사, 확률분포, 가설점정, 상관분석, 회귀분석, 결정계수, 시계열 분석, 다차원척도법
    • 5장 : 성과분석, 분류분석, 앙상블 분석, 군집분석, 연관분석
반응형
반응형

3과목 데이터 분석

5장 정형 데이터 마이닝

1절 데이터마이닝 개요

분석 목적에 따른 작업 유형과 기법

  • 예측

    • 분류규칙 : 과거 데이터로부터 분류모형을 만들어 이를 토대로 새로운 레코드 결과값 예측

      • 회귀분석, 판별분석, 신경망, 의사결정나무
  • 설명

    • 연관규칙 : 항목간 종속관계 탐색

      • 동시발생 매트릭스
    • 연속규칙 : 연관 규칙에 대한 시간 관련 정보가 포함된 형태

      • 동시발생 매트릭스
    • 데이터 군집화 : 유사한 특성을 지닌 소그룹으로 분할

      • K-Means Clustering

 

추진 단계

  1. 목적 설명
  2. 데이터 준비
  3. 가공
  4. 기법 적용
  5. 검증

 

데이터 분할

  • 구축용(50%) : 훈련용 데이터

  • 검정용(30%) : 미세조정

  • 시험용(20%) : 모델 성능 검증

  • 데이터 양이 충분하거나 입력 변수 설명이 부족한 경우

    • 홀드아웃 : 주어진 데이터를 랜덤하게 두 개의 데이터로 구분
    • 교차확인 : 주어진 데이터를 k개의 하부집단으로 구분, k-1개의 학습용와 나머지의 검증용 집단으로 평균값 측정하여 사용

 

성과분석

 조건 O (Positive)조건 X (Negative)
예측 O (Positive)TP (맞춤)FP
예측 X (Negative)FNTN (맞춤)
  • 정분류율 : TP+TN / 전체
  • 오분류율 : FP+FN / 전체
  • 특이도 : TN / FP+TN (거짓 중에 맞출 확률)
  • 민감도 : TP / TP + FN (참 중에 맞을 확률)
  • 정확도 : TP / TP + FP (참으로 예측한 것이 맞을 확률)
  • 재현율 : TP / TP + FN
  • F1 Score = 2*정확도*재현율 / (정확도+재현율)

 

ROCP Curve

  • 가로축을 FPR(1-특이도), 세로축을 TPR(민감도) 값으로 두고 시각화
  • 곡선 아래 면적이 클수록 성능이 좋은 모형

 

이익도표

분류모형의 성능을 평가하기 위한 척도, 구간별 반응검출율, 반응률, 향상도 고려

  • 기본 향상도 = 구매자 비율
  • 반응검출율 = 해당 등급 구매자 / 전체 구매자
  • 반응률 = 해당 등급 구매자 비율
  • 향상도 = 반응률 / 기본 향상도, 좋은 모델일 경우 빠른 속도로 감소

 

2절 분류분석

분류분석과 예측분석의 정의

  • 분류분석 : 데이터의 그룹 예측, 범주형 속성 값
  • 예측분석 : 시간에 따른 값 예측, 연속형 속성 값

 

로지스틱 회귀분석

  • 새로운 설명변수가 주어질 때 반응변수의 각 범주에 속할 확률을 추정하여 분류
  • 사후확률 : 모형의 적합을 통해 추정된 확률
  • 종속변수 = 0, 1
  • 계수 추정법 : 최대우도추정법
  • 모형 검정 = 카이제곱 검정

 

오즈

  • 오즈 : 성공할 확률이 실패할 확률의 몇 배인지 나타내는 확률
  • 오즈비 : 오즈의 비율

 

의사결정나무

분류함수를 의사결정 규칙으로 이루어진 나무 모양으로 그리는 방법

 

  • 활용

    • 세분화
    • 분류
    • 예측
    • 차원 축소 및 변수 선택
    • 범주 병합 및 연속형 변수 이산화
  • 특징

    • 장점

      • 설명 용이
      • 단순 계산
      • 빠른 생성
      • 수치형 변수와 범주형 변수 모두 사용 가능
      • 높은 정확도
    • 단점

      • 과대적합 가능성
      • 경계선 부근 자료값의 큰 오차
      • 중요도 판단에 어려움
  • 과정

    1. 성장 : 각 마디마다 최적의 분리규칙을 찾아 나무 성장, 적절한 정지규칙 만족 시 중단

      • 분리기준

        • 이산형 목표변수 : 카이제곱 통계량 p값, 지니 지수, 엔트로피 지수
        • 연속형 목표변수 : F 통계량 P값, 분산의 감소량
      • 정지기준 : 의사결정나무의 깊이 지정, 끝마디 레코드 수의 최소 개수 지정

    2. 가지치기 : 불필요한 가지 제거

    3. 타당성 평가 : 이익도표, 위험도표, 시험자료를 이용하여 평가

    4. 해석 및 예측 : 구축된 나무모형 해석, 예측모형 설정 후 적용

 

의사결정나무 알고리즘

  • CART : 변수가 범주형인 경우 지니지수, 연속형인 경우 이진분리 사용
  • C4.5와 C5.0 : 다지분리 가능, 엔트로피지수 사용
  • CHAID : 범주형 변수, 카이제곱 통계량 사용

 

3절 앙상블 분석

주어진 자료로부터 여러 개의 예측모형을 만든 후 예측모형을 조합하여 하나의 최종 예측 모형을 만드는 방법

 

종류

  • 배깅 : 여러개의 부트스트랩 자료를 생성하고 각 부트스르랩 자료에 예측모델을 만든 후 결합하여 최종 예측 모델 생성

    • 부트스트랩 : 주어진 자료에서 동일한 크기의 표본을 랜덤복원추출

    • 보팅 : 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과로 선정하는 것

    • 가지치기를 하지 않고 최대로 성장한 의사결정나무 활용

    • 훈련자료의 모집단의 분포를 모르기 때문에 실제 평균예측모형 산출 불가

      => 훈련자료를 모집단으로 생각하고 평균예측모형을 구하여 분산을 줄이고 예측력 향상

  • 부스팅 : 예측력이 약한 모형을 결합하여 강한 예측 모형을 만드는 방법

    • Adaboost : 분류기에 각각 가중치를 설정하여 결합(가중치합 1)
    • 예측오차 향상
  • 랜덤 포레스트 : 더 많은 무작위성을 주어 약한 삭습기를 생성한 후 선형으로 결합하여 최종 학습기 생성

    • 변수제거 없이 실행되므로 정확한 측면에서 좋은 성과
    • 어려운 해석, 높은 예측력

 

4절 인공신경망 분석

인공 신경망 학습

  • 신경망은 가중치를 반복적으로 조정하며 학습

  • 뉴런은 가중치가 있는 링크로 연결

  • 입력 링크에서 여러 신호를 받아 출력 링크로 출력 신호 출력

  • 활성화 함수 사용 : 가중치 합이 임계값보다 작으면 -1, 크거나 같으면 +1 출력

    • softmax함수 : 표준화지수 함수, 출력값이 여러개
    • relu함수 : 입력이 0 이하는 0, 0 이상은 x값을 가지는 함수

 

단일 뉴런 학습(단층 퍼셉트론)

선형 결합기와 하드 리미터로 구성

 

신경망 모형 구축 시 고려사항

  • 입력 변수

    • 범주형 변수 : 가변수화 적용(0 또는 1, -1 또는 1)
    • 연속형 변수 : 변환(로그변환), 범주화
  • 가중치의 초기값과 다중 최소값 문제

    • 역전파 알고리즘은 초기값에 따라 결과가 많이 달라지므로 초기값 선택이 중요
    • 초기값은 0 근처로 랜덤하게 선택하므로 초기 모형은 선형 모형에 가깝고, 가중치 값이 증가할수록 비선형 모형이 됨.
  • 학습모드

    • 온라인 학습 모드 : 관측값을 순차적으로 하나씩 신경망에 투입하여 가중치 추정값 변화
    • 확률적 학습 모드 : 신경망에 투입되는 관측값의 순서가 랜덤
    • 배치 학습 모드 : 전체 훈련자료를 동시에 신경망에 투입
  • 은닉층과 은닉노드 수

    • 은닉층과 은닉노드가 많으면 과대 적합 문제 발생
    • 은닉층과 은닉노드가 적으면 과소 적합 문제 발생
    • 은닉층 수가 하나인 신경망은 매끄러운 함수를 근사적으로 표현 가능
  • 과대 적합 문제 : 조기종료와 가중치 감소 기법으로 해결

 

5절 군집분석

각 객체의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 다른 군집에 속한 객체간의 상이성을 규명

 

거리

  • 연속형 변수

    • 유클리디안 거리
    • 표준화 거리 : 표준편차로 척도 변환한 후 유클리디안 거리 계산
    • 마할라노비스 거리 : 통계적 개념이 포함된 거리
    • 체비셰프 거리
    • 맨하탄 거리
    • 캔버라 거리
    • 민코우스키 거리 : 맨하탄 거리와 유클리디안 거리를 한번에 표현한 공식
  • 범주형 변수

    • 자카드 거리
    • 자카드 계수
    • 코사인 거리 : 문서를 유사도를 기준으로 분류할 때 사용
    • 코사인 유사도

 

계층적 군집분석

n개의 군집으로 시작해 군집 개수를 줄역 나가는 방식

  • 최단연결법 : 거리가 가장 가까운 데이터를 묶어서 군집 형성

  • 최장연결법

  • 평균연결법

  • 와드연결법 : 군집내 편차들의 제곱합을 고려한 방법

  • 군집화

    1. 거리행렬을 통해 가장 가까운 거리의 객체들 간의 관계를 규명하고 덴드로그램을 그림.
    2. 덴드로그램을 보고 군집 개수 선택

 

비계층적 군집분석

  • K-평균 군집분석 : 주어진 데이터를 k개의 클러스터로 묶고, 각 클러스터와 거리 차이의 분산을 최소화

  • 과정

    1. 원하는 군집의 개수와 초기값(seed)을 정해 seed 중심으로 군집 형성
    2. 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
    3. 군집의 seed 값 다시 계산
  • 특징

    • 연속형 변수에 활용 가능
    • 초기 중심값의 선정에 따라 결과가 달라질 수 있음.
    • 탐욕적 알고리즘이므로 최적 보장 불가
    • 잡음이나 이상값의 영향을 많이 받음.

 

혼합 분포 군집

  • 모형 기반 군집 방법

  • 각 데이터가 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집 분류가 이루어짐.

  • EM 알고리즘

    1. E - 단계 : 잠재변수 Z의 기대치 계산
    2. Z - 단계 : 잠재변수 Z의 기대치를 이용하여 파라미터 추정
  • 특징

    • 확률분포를 도입하여 군집 수행
    • 데이터가 커지면 수렴에 시간 소요
    • 이상치 자료에 민감

 

자기조직화지도SOM

  • 비지도 신경망으로 고차원 데이터를 저차원 뉴런으로 정렬

  • 구성

    • 입력층 : 입력 변수의 개수와 동일한 뉴런 수 존재
    • 경쟁층 : 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층
  • 특징

    • 시각적으로 이해가 쉬움
    • 패턴 발견, 이미지 분석에 뛰어난 성능
    • 빠른 속도

 

6절 연관분석

조건과 반응의 형태로 거래 또는 사건 간의 규칙 발견

 

측도

  • 지지도 P(A ∩ B) : 항목 A와 항목 B를 동시에 포함하는 거래
  • 신뢰도 P(A ∩ B) / P(A) = P(B | A) : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률
  • 향상도 P(B | A) / P(B) : 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률 증가비

 

절차

  1. 최소 지지도 선정
  2. 최소 지지도를 넘는 품목 분류
  3. 2가지 품목 집합 생성
  4. 반복 수행

 

특징

  • 장점

    • 탐색적 기법
    • 비목적성 분석기법
    • 사용이 편한 데이터 형태
    • 계산이 용이
  • 단점

    • 품목 증가에 따른 급격한 계산 수 증가
    • 너무 세분화 시 무의미해질 수 있음.
    • 거래량이 적은 품목의 비중
반응형
반응형

3과목 데이터 분석

4장 통계분석

1절 통계분석의 이해

통계자료 획득 방법

  • 전수조사
  • 표본조사

 

표본 추출 방법

  • 단순랜덤 추출법 : 복원/비복원 추출
  • 계통추출법 : 샘플 나열 후 동일 간격으로 나눈 후 각 구간 마지막 항목 추출
  • 집락추출법 : 군집 구분 후 군집별 단순랜덤 추출법 수행
  • 층화추출법 : 유사한 원소끼리 층을 이룬 후 각 층에서 랜덤 추출

 

측정방법

  • 명목척도 : 분류(숫자로 바꿔도 의미 없음)
  • 순서척도 : 서열관계(양적 비교 불가)
  • 구간척도 : 측정된 양을 의미있는 구간으로 구간화, 원점 없음
  • 비율척도 : 간격에 대한 비율이 의미를 가지는 자료, 사칙연산 가능

 

통계분석

  • 기술 통계 : 주관이 섞일 수 있는 과정 배제

  • 추측 통계 : 표본으로부터 모집단에 관한 정보를 얻고 도출하는 과정

    • 추정 : 모수를 분석하여 모집단 추론
    • 가설검정 : 가설 설정 후 책택 여부 결정

 

확률

표본 공간에서 어떤 사건이 발생하는 비율
 

  • 확률 변수 : 특정값이 나타날 가능성이 확률적으로 주어지는 변수
  • 확률 변수 구분 : 이산형 확률 변수, 연속형 확률 변수
  • 확률 변수 X의 기대값 E(X) = xf(x) 누적합
  • 확률 변수 X의 k차 적률 E(Xk) = xkf(x) 누적합
  • 확률 변수 X의 k차 중심적률 E[(X-μ)k] = (x-μ)kf(x) 누적합
  • 모분산 σ2 = 2차 중심적률 = 2차 적률 - (1차 적률)2

 

  • 덧셈정리(배반사건이 아닐 때) : P(A∪B) = P(A) + P(B) - P(A∩B), P(A|B) = P(A∩B) / P(B)
  • 덧셈정리(배반사건일 때) : P(A∪B) = P(A) + P(B)
  • 곱셈정리 : 사건 A와 B가 서로 무관할 때 P(A∩B) = P(A) * P(B), P(A|B) = P(A)

 

확률분포

  • 이산형 확률분포

    • 베르누이 확률분포 : 결과가 2개만 나오는 경우
    • 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
    • 기하분포 : 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
    • 다항분포 : 이항분포 확장
    • 포아송분포 : 시간과 공간 내에서 발생하는 사건의 발생횟수
  • 연속형 확률분포

    • 균일분포 : 모든 확률변수 X가 균일한 확률을 가지는 확률분포

    • 정규분포 : 평균이 μ이고, 표준편차가 σ인 x의 확률밀도함수

    • 지수분포 : 어떤 사건이 발생할 때까지 경과 시간

    • t-분포 : 두 집단의 평균이 동일한지 알고자 할 때 활용

      • 정규분포보다 퍼져있고 자유도가 커질수록 정규분포
    • x2-분포 : 두 집단의 동질성 검정에 활용

      • 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정
    • F-분포 : 두 집단의 분산이 동일한지 알고자 할 때 활용

      • 2개의 자유도, 자유도가 커질수록 정규분포

 

추정

표본으로부터 미지의 모수 추측

  • 점추정 : 모수가 특정한 값이라고 추정하는 것
  • 구간추정 : 모수가 특정한 구간에 있을 것이라고 선언

 

점추정의 조건

  • 불편성 : 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없다.
  • 효율성 : 추정량의 분산이 작을수록 좋다.
  • 일치성(비편향성) : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다.
  • 충족성 : 추정량은 모수에 대하여 모든 정보 제공

 

추정방법

  • 적률법 : 표본의 기댓값을 통해 모수 추정
  • 최대가능도추정법 : 기대함수의 기울기가 0인 지점
  • 최소제곱법 : 측정값의 제곱의 합이 최소인 함수

 

가설검정

  • 정의 : 표본을 통해 귀무가설과 대립가설 중 하나를 선택하는 과정
  • 귀무가설 : 동일하다 개념
  • 대립가설 : 증거가 있을 때 주장
  • 유의수준 : 귀무가설을 기각하게 되는 확률의 크기
  • 제1종 오류 : 귀무가설이 옳은데 귀무가설을 기각하게 되는 오류

 

비모수 검정

  • 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정 실시
  • 특정분포를 따른다고 가정할 수 없는 경우 이용
  • 분포의 형태에 대한 설정
  • 관측값의 절대적인 크기에 의존하지 않음.(표본평균, 표본분산 사용 X)

 

2절 기초 통계분석

중심위치

  • 표본평균
  • 중앙값

 

산포

  • 분산
  • 표준편차
  • 사분위수
  • 평균의 표준오차

 

분포형태

  • 왜도
  • 첨도

 

그래프

  • 히스토그램
  • 막대그래프
  • 줄기-잎 그림
  • 상자그림

 

인과관계

  • 종속변수
  • 독립변수
  • 산점도
  • 공분산 : 두 확률변수의 방향성, 서로 독립이면 0

 

상관분석

  • 상관계수를 이용하여 두 변수 간의 관계 정도 분석

  • 유형

    • 피어슨 : 등간척도, 연속형 변수, 선형적인 크기만 측정
    • 스피어만 : 서열척도, 순서형 변수, 비선형적인 관계도 표현 가능

 

3절 회귀분석

하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
 

변수

  • 영향을 받는 변수(y) : 반응변수, 종속변수, 결과변수
  • 영향을 주는 변수(x) : 설명변수, 독립변수, 예측변수

 

선형회기분석의 가정

  • 선형성 : 입력변수와 출력변수의 관계가 선형

  • 등분산성 : 오차의 분산이 일정

  • 독립성 : 입력변수와 오차는 무관

  • 비상관성 : 오차 간 무관

  • 정상성(정규성) : 오차의 분포가 정규분포

    • Q-Q Plot 출력 시 잔차(기울기)가 대각방향 직선

 

가정에 대한 검증

  • 단순선형회귀분석 : 입력변수와 출력변수 간의 선형성을 점검하기 위해 산점도 확인
  • 다중선형회귀분석 : 선형회귀분석의 가정을 모두 만족하는지 확인

 

회귀분석 종류

  • 단순선형회귀 : 하나의 독립변수가 종속변수에 미치는 영향 추정
  • 다중선형회귀 : 통계적 유의성은 F 통계량으로 확인
  • 로지스틱회귀 : 종속변수가 범주형
  • 다항회귀
  • 곡선회귀
  • 비선형회귀

 

검토사항

  • 회귀계수 유의성 : 회귀계수의 t통계량의 p-값이 0.05(유의수준) 미만
  • 모형 설명력 : 결정계수 확인(결정 계수가 높을 수록 높은 설명력)
  • 데이터 적합 : 잔차 통계량, 회귀진단

 

회귀계수의 추정

  • 최소제곱법
  • 회귀계수가 0이면 입력 변수와 출력 변수 인과관계 없음.

 

결정계수

  • 결정계수(R2) = SSR/SST

    • 전체제곱합(SST)
    • 회귀제곱합(SSR)
    • 오차제곱합(SSE) = SST - SSR
  • 회귀직선의 적합도 검토

  • 독립변수 수가 많아지면 결정계수가 높아지므로 수정된 결정계수 활용

 

최적회귀방정식

  • 단계적 변수선택

    • 전진선택법 : 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
    • 후진제거법 : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거
    • 단계선택법 : 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당 변수 제거
  • 벌점화된 선택기준

    • AIC 또는 BIC가 최소가 되는 모형 선택

 

4절 시계열 분석

시계열 자료

  • 정의 : 시간의 흐름에 따라 관찰된 값들

  • 종류

    • 비정상성 시계열 자료
    • 정상성 시계열 자료

 

정상성 조건

  • 평균 일정 : 차분을 통해 정상화
  • 분산 일정 : 변환을 통해 정상화
  • 공분산이 시차에만 의존(시점에 의존 X)

 

정상 시계열 특징

  • 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 같는 자기공분산을 측정하더라도 동일한 값
  • 평균값으로 회귀하려는 경향
  • 평균값 주변에서의 변동 폭 일정

 

시계열 자료 분석방법

  • 이동평균법

    • 개념 : 일정기간별 이동평균을 계산하고, 다음 기간을 예측
    • 특징 : 뚜렷한 추세가 있거나 불규칙변동이 심하지 않은 경우 짧은 기간, 반대는 긴 기간 평균 사용
  • 지수평활법

    • 개념 : 모든 시계열 자료를 사용하며, 최근 시계열에 더 많은 가중치를 부여하여 미래 예측

    • 특징

      • 단기간에 발생하는 불규칙변동을 평활하는 방법
      • 지수평활계수는 불규칙변동이 큰 경우 작은값, 불규칙변동이 작은 경우 큰 값 적용
      • 중기 예측 이상에 주로 사용(장기추세나 계절변동 포함 시 부적합)

 

시계열 모형

  • 자기회귀 모형(AR 모형) : p 시점 전의 자료가 현재 자료에 영향을 주는 모형

  • 이동평균 모형(MA 모형) : 유한 개의 백색잡음의 결합으로 항상 정상성

  • 자기회귀누적이동평균 모형(ARIMA(p, d, q) 모형) : 차분이나 변환을 통해 AR 모형이나 MA 모형, 또는 ARMA 모형으로 정상화

  • 분해 시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리하여 분석

    • 경향(추세)요인 : 추세
    • 계절요인 : 고정된 주기
    • 순환요인 : 알려지지 않은 주기
    • 불규칙요인 : 그 외

 

5절 다차원척도법

  • 객체간 근접성을 시각화
  • 데이터 축소 목적
  • 유클리드 거리행렬 활용
  • 적합도를 스트레스 값으로 표현

 

다차원척도법 종류

  • 계량적 MDS : 데이터가 구간척도나 비율척도인 경우 활용
  • 비계량적 MDS : 데이터가 순서척도인 경우 활용

 

6절 주성분 분석

변수 간 상관 관계, 연관성을 이용해 소수의 주성분으로 차원 축소
 

주성분 선택법

  • 상관 행렬을 이용한 누적기여율
  • scree plot을 활용하여 고유값 수평 유지 전단계
반응형
반응형

3과목 데이터 분석

3장 데이터 마트

1절 데이터 변경 및 요약

데이터 마트

  • 데이터 웨어하우스와 사용자 사이의 중간층
  • 하나의 주제 중심 데이터 웨어하우스

 

요약변수

  • 수집된 정보를 분석에 맞게 종합한 변수
  • 높은 재활용성

 

파생변수

  • 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
  • 주관적일 수 있으므로 논리적 타당성 필요

 

2절 데이터 가공

변수의 구간화

  • 연속형 변수를 분석 목적에 맞게 활용하기 위해 구간화
  • 구간화 방법
    • binning : 정렬 후 구간화
    • 의사결정나무

 

3절 기초 분석 및 데이터 관리

결측값 처리

  • 단순 대치법
    • completes analysis : 삭제
    • 평균대치법
      • 비조건부 평균 대치법 : 관측 데이터의 평균으로 대치
      • 조건부 평균 대치법 : 회귀분석을 활용한 대치
    • 단순 확률 대치법
  • 다중 대치법 : m번의 대치를 통해 m개의 가상 완전 자료 생성
    • 절차 : 1. 대치 2. 분석 3. 결합

 

이상값

  • 활용 가능한 데이터 : 의도하지 않은 현상이지만 분석에 포함해야 하는 경우, 의도된 이상값
  • 활용 불가능한 데이터 : 의도하지 않게 잘못 입력한 경우, 의도하지 않게 입력되었으나 분석 목적에 부합하지 않는 경우

 

이상값 인식 방법

  • ESD : 평균으로부터 3 표준편차 떨어진 값(99.7% 초과)
  • 기하평균으로부터 표준편차의 2.5배 떨어진 값
  • 사분위수 활용 : Q1과 Q3으로부터 (Q3-Q1)의 1.5배 떨어진 값
반응형
반응형

3. 데이터 분석

1장 데이터 분석 개요

1절 데이터 분석 기법의 이해

데이터 처리

데이터웨어하우스와 데이터마트를 통해 분석 데이터를 가져와 사용

 

시각화

  • 낮은 수준의 분석이지만 효율적
  • 탐색적 분석 시 필수

 

공간분석

  • 공간적 차원과 관련된 속성을 시각화

 

탐색적 자료 분석(EDA)

  • 다양한 차원과 값을 조합하여 정보 도출 및 분석
  • 주제 : 저항성 강조, 잔차 계산, 자료변수 재표현, 그래프를 통한 현시성

 

통계분석

어떤 현상을 숫자와 표, 그림의 형태로 나타내는 것

 

데이터마이닝

  • 정보의 관계, 패턴, 규칙을 탐색하여 미래에 대한 예측
  • 방법론 : 기계학습, 패턴인식
  • 평가기준 : 정확도, 정밀도, 디텍트 레이트, 리프트
반응형
반응형

2. 데이터 분석 기획

2장 분석 마스터 플랜

1절 마스터 플랜 수립 프레임워크

ISP

조직 내외부 환경을 분석하여 시스템 구축 우선순위를 결정하는 중장기 마스터 플랜 수립 절차

 

분석 마스터 플랜 수립

  • 우선순위 설정

    • 전략적 중요도
    • 비즈니스 성과/ROI
    • 실행 용이성
  • 로드맵 수립

    • 업무 내재화 적용 수준
    • 분석 데이터 적용 수준
    • 기술 적용 수준

 

ROI 관점에서 빅데이터의 핵심 특징

  • 투자비용 요소 : 양, 다양성, 속도 (3V)
  • 비즈니스 효과 요소 : 가치 (4V)

 

빅데이터 분석과제 추진 우선순위 평가 기준

  • 시급성 : 분석 과제의 목표 가치와 전략적 중요도를 현재 관점에 둘 것인지, 미래 관점에 둘 것인지를 함께 고려 (4V)
  • 난이도 : 과제 추진의 범위 측면과 비용 측면에서 고려 (3V)

 

2절 분석 거버넌스 체계 수립

구성 요소

  • 분석 기획 및 관리 수행 조직
  • 과제 기획 및 운영 프로세스
  • 분석 관련 시스템
  • 데이터
  • 분석 교육 육성 체계

 

데이터 분석 수준 진단

  • 분석 준비도

    • 분석 업무 파악, 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라
  • 분석 성숙도

    • 조직 성숙도 평가 도구 : CMMI(Capability Maturity Integration) 모델
    • 분석 성숙도 단계 : 도입(구축), 활용(적용), 확산(공유), 최적화(성과 향상)
사분면 분석준비도 ↓준비도 ↑
성숙도 ↓준비형도입형
성숙도 ↑정착형확산형

 

플랫폼

  • 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템

  • 광의의 분석 플랫폼 = 분석 서비스 + 협의의 분석 플랫폼 + OS + HW

    • 협의의 분석 플랫폼 : 데이터 처리 프레임워크, 분석 엔진, 분석 라이브러리
    • 광의의 분석 플랫폼 : 분석 서비스 제공 엔진, 분석 어플리케이션, 분석 서비스 제공 API
  • 중앙집중적 데이터 관리, 시스템 간 인터페이스 최소화

 

데이터 거버넌스

  • 전사 차원의 모든 데이터에 대하여 표준화된 관리체계 수립, 운영을 위한 프레임워크 및 저장소 구축

  • 구성 요소 : 원칙(지침), 조직(역할), 프로세스(활동)

  • 체계

    • 데이터 표준화 : 표준 용어 설정, 명명 규칙 수립, 메타 데이터 구축, 데이터 사전 구축
    • 데이터 관리 체계 : 메타 데이터와 데이터 사전 관리 원칙 수립, 항목별 상세 프로세스 설정, 운영 조직 역할 선정
    • 데이터 저장소 관리 : 데이터 관리 체계 지원 워크플로우 및 관리용 응용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제
    • 표준화 활동 : 표준 준수 여부 모니터링, 거버넌스 정착을 위한 교육, 개선 활동

 

분석 조직 구조

  • 집중 구조 : 전사 분석 업무를 별도의 분석 전담 조직에서 담당, 현업 업무 부서의 분석 업무와 이중화/이원화 가능성
  • 기능 구조 : 일반적인 분석 수행 구조, 별도의 분석 조직 없이 해당 업무 부서에서 분석 수행, 전사적 핵심분석이 어려움
  • 분산 구조 : 분석조직 인력들을 현업 부서로 직접 배치

 

분석 과제 관리 프로세스

  1. 과제 발굴

    1. 분석 아이디어 발굴
    2. 분석 과제 후보 제안
    3. 분석 과제 확정
  2. 과제 수행

    1. 팀 구성
    2. 분석 과제 실행
    3. 분석 과제 진행 관리
    4. 결과 공유 및 개선

 

반응형

+ Recent posts