반응형



3월 9일에 치뤄진 52회 SQLD에 합격했다.

흔히들 노랭이라고 부르는 SQL 자격검점 실전문제 책으로 준비를 했다. 책은 아래에 이미지와 교보문고 링크를 첨부하겠다.

실질적인 준비시간은 3일정도 걸린 것 같은데, 쿼리가 눈에 익는다면 2과목 준비가 편해서 부족하진 않은 것 같다. 다만 비전공자나 평소에 쿼리를 보지 않으면 배 이상 소요됐을 것 같다.

 

https://product.kyobobook.co.kr/detail/S000212021705

준비과정

  • 1과목
    • 기본적인 데이터 모델링 관련 개념이 나오는 부분이다.
    • 책에 있는 핵심정리를 보고 문제를 풀면서 옳지 않은 선지를 옳은 선지로 고치고 이해 안되는 것은 한번 더 보고 넘어가는 수준으로 공부했다.
    • 다만 정규형, 정규화는 한번 더 공부하고 시험을 치뤘다.
    • 이해가 안되는 문제의 수가 많지 않으면 넘어간다. 100점 맞는 시험이 아니다.
  • 2과목
    • 크게 1 2 3장으로 구성되어있다.
    • 1장과 3장은 문제를 풀고 틀린 문제를 한 번 더 보는 정도로 커버할 수 있었다. 환경에 따른 언어차이는 크게 중요하지 않은 것 같다. 모르는 함수가 나온다면 암기는 필요하다.
    • 문제는 2장이다. 윈도우 함수 등 사용해본적 없는 쿼리가 나오지만 한 두번 읽고 이해가 안되면 과감히 포기한다. 100점을 위한 시험이 아니기 때문이다. 물론 나머지로 이 부족한 점수를 채울 수 있어야하기 때문에 자신이 없으면 충분히 공부해야된다.

어렵지 않은 쿼리를 보면서 해석할 수 있었기에 이전 ADsP를 준비했을 때보다 시간도 훨씬 덜 들었고, 점수는 생각 이상으로 높게 나왔다. 전공자 혹은 SQL을 사용하는 개발자라면 일과 병행했을 때 1~2주, 아니라면 3~4주면 안정적으로 합격할 수 있을 것 같다.

반응형
반응형

 



2월 24일에 치뤄진 40회 ADsP에 합격했다.

1과목은 풀면서 거의 다 맞는 느낌이었고, 2과목은 과락만 면하자는 느낌으로 풀었다.

3과목은 긴가민가한 선지가 많았지만 4개의 선지에서 확실히 답이 아닌 선지를 지운 후 후보를 줄여서 찍어서 맞추면 된다. 100점짜리 시험이 아니니까. 확실한 문제만 챙기자.

점수는 아슬아슬했지만 과락없이 60점만 넘기면 되는 시험이니 상관없다.

 

준비과정

  • 1과목
    • 고득점 과목
    • 용어를 익히고 내용을 한번 정리하면 쉽게 점수를 취득할 수 있는 쉬운 과목.
    • 고득점을 위한 개인정보 비식별 기술, 데이터 양 단위 크기 순서 등 상식 문제 준비
  • 2과목
    • 과락 방지 과목
    • 암기가 많이 필요한 과목이다. 범위는 좁지만 범위가 좁은 만큼 암기할 부분이 많다.
    • 분석방법론(KDD, CRISP-DM) 프로세스 비교, 빅데이터 분석 방법론, 각종 산출물, 분석 성숙도에 대한 암기 필수
  • 3과목
    • 전체 50문항 중 30문항을 차지하는 가장 중요하고 많은 시간이 필요한 과목, 전체 준비 시간의 절반 이상 소요
    • R에 대한 문제는 별도 대비 필요가 없다.
    • 3장 데이터 마트, 4장 통계분석, 5장 데이터 마이닝 각각 기본 용어 및 개념에 대한 숙지가 필요하며 공식이 나오는 경우 공식 암기도 필요하다.
    • 확률분포에 경우 t분포, 카이제곱분포, F분포와 같이 한 두줄의 설명으로 이해가 안되는 경우 유튜브 등 영상을 보는게 나을 수 있다.
    • 여러 용어가 나오므로 비교를 통한 구분 필요
    • 3장 : 데이터 마트 개념, 결측치, 이상값
    • 4장 : 표본조사, 확률분포, 가설점정, 상관분석, 회귀분석, 결정계수, 시계열 분석, 다차원척도법
    • 5장 : 성과분석, 분류분석, 앙상블 분석, 군집분석, 연관분석
반응형
반응형

3과목 데이터 분석

5장 정형 데이터 마이닝

1절 데이터마이닝 개요

분석 목적에 따른 작업 유형과 기법

  • 예측

    • 분류규칙 : 과거 데이터로부터 분류모형을 만들어 이를 토대로 새로운 레코드 결과값 예측

      • 회귀분석, 판별분석, 신경망, 의사결정나무
  • 설명

    • 연관규칙 : 항목간 종속관계 탐색

      • 동시발생 매트릭스
    • 연속규칙 : 연관 규칙에 대한 시간 관련 정보가 포함된 형태

      • 동시발생 매트릭스
    • 데이터 군집화 : 유사한 특성을 지닌 소그룹으로 분할

      • K-Means Clustering

 

추진 단계

  1. 목적 설명
  2. 데이터 준비
  3. 가공
  4. 기법 적용
  5. 검증

 

데이터 분할

  • 구축용(50%) : 훈련용 데이터

  • 검정용(30%) : 미세조정

  • 시험용(20%) : 모델 성능 검증

  • 데이터 양이 충분하거나 입력 변수 설명이 부족한 경우

    • 홀드아웃 : 주어진 데이터를 랜덤하게 두 개의 데이터로 구분
    • 교차확인 : 주어진 데이터를 k개의 하부집단으로 구분, k-1개의 학습용와 나머지의 검증용 집단으로 평균값 측정하여 사용

 

성과분석

 조건 O (Positive)조건 X (Negative)
예측 O (Positive)TP (맞춤)FP
예측 X (Negative)FNTN (맞춤)
  • 정분류율 : TP+TN / 전체
  • 오분류율 : FP+FN / 전체
  • 특이도 : TN / FP+TN (거짓 중에 맞출 확률)
  • 민감도 : TP / TP + FN (참 중에 맞을 확률)
  • 정확도 : TP / TP + FP (참으로 예측한 것이 맞을 확률)
  • 재현율 : TP / TP + FN
  • F1 Score = 2*정확도*재현율 / (정확도+재현율)

 

ROCP Curve

  • 가로축을 FPR(1-특이도), 세로축을 TPR(민감도) 값으로 두고 시각화
  • 곡선 아래 면적이 클수록 성능이 좋은 모형

 

이익도표

분류모형의 성능을 평가하기 위한 척도, 구간별 반응검출율, 반응률, 향상도 고려

  • 기본 향상도 = 구매자 비율
  • 반응검출율 = 해당 등급 구매자 / 전체 구매자
  • 반응률 = 해당 등급 구매자 비율
  • 향상도 = 반응률 / 기본 향상도, 좋은 모델일 경우 빠른 속도로 감소

 

2절 분류분석

분류분석과 예측분석의 정의

  • 분류분석 : 데이터의 그룹 예측, 범주형 속성 값
  • 예측분석 : 시간에 따른 값 예측, 연속형 속성 값

 

로지스틱 회귀분석

  • 새로운 설명변수가 주어질 때 반응변수의 각 범주에 속할 확률을 추정하여 분류
  • 사후확률 : 모형의 적합을 통해 추정된 확률
  • 종속변수 = 0, 1
  • 계수 추정법 : 최대우도추정법
  • 모형 검정 = 카이제곱 검정

 

오즈

  • 오즈 : 성공할 확률이 실패할 확률의 몇 배인지 나타내는 확률
  • 오즈비 : 오즈의 비율

 

의사결정나무

분류함수를 의사결정 규칙으로 이루어진 나무 모양으로 그리는 방법

 

  • 활용

    • 세분화
    • 분류
    • 예측
    • 차원 축소 및 변수 선택
    • 범주 병합 및 연속형 변수 이산화
  • 특징

    • 장점

      • 설명 용이
      • 단순 계산
      • 빠른 생성
      • 수치형 변수와 범주형 변수 모두 사용 가능
      • 높은 정확도
    • 단점

      • 과대적합 가능성
      • 경계선 부근 자료값의 큰 오차
      • 중요도 판단에 어려움
  • 과정

    1. 성장 : 각 마디마다 최적의 분리규칙을 찾아 나무 성장, 적절한 정지규칙 만족 시 중단

      • 분리기준

        • 이산형 목표변수 : 카이제곱 통계량 p값, 지니 지수, 엔트로피 지수
        • 연속형 목표변수 : F 통계량 P값, 분산의 감소량
      • 정지기준 : 의사결정나무의 깊이 지정, 끝마디 레코드 수의 최소 개수 지정

    2. 가지치기 : 불필요한 가지 제거

    3. 타당성 평가 : 이익도표, 위험도표, 시험자료를 이용하여 평가

    4. 해석 및 예측 : 구축된 나무모형 해석, 예측모형 설정 후 적용

 

의사결정나무 알고리즘

  • CART : 변수가 범주형인 경우 지니지수, 연속형인 경우 이진분리 사용
  • C4.5와 C5.0 : 다지분리 가능, 엔트로피지수 사용
  • CHAID : 범주형 변수, 카이제곱 통계량 사용

 

3절 앙상블 분석

주어진 자료로부터 여러 개의 예측모형을 만든 후 예측모형을 조합하여 하나의 최종 예측 모형을 만드는 방법

 

종류

  • 배깅 : 여러개의 부트스트랩 자료를 생성하고 각 부트스르랩 자료에 예측모델을 만든 후 결합하여 최종 예측 모델 생성

    • 부트스트랩 : 주어진 자료에서 동일한 크기의 표본을 랜덤복원추출

    • 보팅 : 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과로 선정하는 것

    • 가지치기를 하지 않고 최대로 성장한 의사결정나무 활용

    • 훈련자료의 모집단의 분포를 모르기 때문에 실제 평균예측모형 산출 불가

      => 훈련자료를 모집단으로 생각하고 평균예측모형을 구하여 분산을 줄이고 예측력 향상

  • 부스팅 : 예측력이 약한 모형을 결합하여 강한 예측 모형을 만드는 방법

    • Adaboost : 분류기에 각각 가중치를 설정하여 결합(가중치합 1)
    • 예측오차 향상
  • 랜덤 포레스트 : 더 많은 무작위성을 주어 약한 삭습기를 생성한 후 선형으로 결합하여 최종 학습기 생성

    • 변수제거 없이 실행되므로 정확한 측면에서 좋은 성과
    • 어려운 해석, 높은 예측력

 

4절 인공신경망 분석

인공 신경망 학습

  • 신경망은 가중치를 반복적으로 조정하며 학습

  • 뉴런은 가중치가 있는 링크로 연결

  • 입력 링크에서 여러 신호를 받아 출력 링크로 출력 신호 출력

  • 활성화 함수 사용 : 가중치 합이 임계값보다 작으면 -1, 크거나 같으면 +1 출력

    • softmax함수 : 표준화지수 함수, 출력값이 여러개
    • relu함수 : 입력이 0 이하는 0, 0 이상은 x값을 가지는 함수

 

단일 뉴런 학습(단층 퍼셉트론)

선형 결합기와 하드 리미터로 구성

 

신경망 모형 구축 시 고려사항

  • 입력 변수

    • 범주형 변수 : 가변수화 적용(0 또는 1, -1 또는 1)
    • 연속형 변수 : 변환(로그변환), 범주화
  • 가중치의 초기값과 다중 최소값 문제

    • 역전파 알고리즘은 초기값에 따라 결과가 많이 달라지므로 초기값 선택이 중요
    • 초기값은 0 근처로 랜덤하게 선택하므로 초기 모형은 선형 모형에 가깝고, 가중치 값이 증가할수록 비선형 모형이 됨.
  • 학습모드

    • 온라인 학습 모드 : 관측값을 순차적으로 하나씩 신경망에 투입하여 가중치 추정값 변화
    • 확률적 학습 모드 : 신경망에 투입되는 관측값의 순서가 랜덤
    • 배치 학습 모드 : 전체 훈련자료를 동시에 신경망에 투입
  • 은닉층과 은닉노드 수

    • 은닉층과 은닉노드가 많으면 과대 적합 문제 발생
    • 은닉층과 은닉노드가 적으면 과소 적합 문제 발생
    • 은닉층 수가 하나인 신경망은 매끄러운 함수를 근사적으로 표현 가능
  • 과대 적합 문제 : 조기종료와 가중치 감소 기법으로 해결

 

5절 군집분석

각 객체의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 다른 군집에 속한 객체간의 상이성을 규명

 

거리

  • 연속형 변수

    • 유클리디안 거리
    • 표준화 거리 : 표준편차로 척도 변환한 후 유클리디안 거리 계산
    • 마할라노비스 거리 : 통계적 개념이 포함된 거리
    • 체비셰프 거리
    • 맨하탄 거리
    • 캔버라 거리
    • 민코우스키 거리 : 맨하탄 거리와 유클리디안 거리를 한번에 표현한 공식
  • 범주형 변수

    • 자카드 거리
    • 자카드 계수
    • 코사인 거리 : 문서를 유사도를 기준으로 분류할 때 사용
    • 코사인 유사도

 

계층적 군집분석

n개의 군집으로 시작해 군집 개수를 줄역 나가는 방식

  • 최단연결법 : 거리가 가장 가까운 데이터를 묶어서 군집 형성

  • 최장연결법

  • 평균연결법

  • 와드연결법 : 군집내 편차들의 제곱합을 고려한 방법

  • 군집화

    1. 거리행렬을 통해 가장 가까운 거리의 객체들 간의 관계를 규명하고 덴드로그램을 그림.
    2. 덴드로그램을 보고 군집 개수 선택

 

비계층적 군집분석

  • K-평균 군집분석 : 주어진 데이터를 k개의 클러스터로 묶고, 각 클러스터와 거리 차이의 분산을 최소화

  • 과정

    1. 원하는 군집의 개수와 초기값(seed)을 정해 seed 중심으로 군집 형성
    2. 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
    3. 군집의 seed 값 다시 계산
  • 특징

    • 연속형 변수에 활용 가능
    • 초기 중심값의 선정에 따라 결과가 달라질 수 있음.
    • 탐욕적 알고리즘이므로 최적 보장 불가
    • 잡음이나 이상값의 영향을 많이 받음.

 

혼합 분포 군집

  • 모형 기반 군집 방법

  • 각 데이터가 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집 분류가 이루어짐.

  • EM 알고리즘

    1. E - 단계 : 잠재변수 Z의 기대치 계산
    2. Z - 단계 : 잠재변수 Z의 기대치를 이용하여 파라미터 추정
  • 특징

    • 확률분포를 도입하여 군집 수행
    • 데이터가 커지면 수렴에 시간 소요
    • 이상치 자료에 민감

 

자기조직화지도SOM

  • 비지도 신경망으로 고차원 데이터를 저차원 뉴런으로 정렬

  • 구성

    • 입력층 : 입력 변수의 개수와 동일한 뉴런 수 존재
    • 경쟁층 : 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층
  • 특징

    • 시각적으로 이해가 쉬움
    • 패턴 발견, 이미지 분석에 뛰어난 성능
    • 빠른 속도

 

6절 연관분석

조건과 반응의 형태로 거래 또는 사건 간의 규칙 발견

 

측도

  • 지지도 P(A ∩ B) : 항목 A와 항목 B를 동시에 포함하는 거래
  • 신뢰도 P(A ∩ B) / P(A) = P(B | A) : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률
  • 향상도 P(B | A) / P(B) : 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률 증가비

 

절차

  1. 최소 지지도 선정
  2. 최소 지지도를 넘는 품목 분류
  3. 2가지 품목 집합 생성
  4. 반복 수행

 

특징

  • 장점

    • 탐색적 기법
    • 비목적성 분석기법
    • 사용이 편한 데이터 형태
    • 계산이 용이
  • 단점

    • 품목 증가에 따른 급격한 계산 수 증가
    • 너무 세분화 시 무의미해질 수 있음.
    • 거래량이 적은 품목의 비중
반응형
반응형

3과목 데이터 분석

4장 통계분석

1절 통계분석의 이해

통계자료 획득 방법

  • 전수조사
  • 표본조사

 

표본 추출 방법

  • 단순랜덤 추출법 : 복원/비복원 추출
  • 계통추출법 : 샘플 나열 후 동일 간격으로 나눈 후 각 구간 마지막 항목 추출
  • 집락추출법 : 군집 구분 후 군집별 단순랜덤 추출법 수행
  • 층화추출법 : 유사한 원소끼리 층을 이룬 후 각 층에서 랜덤 추출

 

측정방법

  • 명목척도 : 분류(숫자로 바꿔도 의미 없음)
  • 순서척도 : 서열관계(양적 비교 불가)
  • 구간척도 : 측정된 양을 의미있는 구간으로 구간화, 원점 없음
  • 비율척도 : 간격에 대한 비율이 의미를 가지는 자료, 사칙연산 가능

 

통계분석

  • 기술 통계 : 주관이 섞일 수 있는 과정 배제

  • 추측 통계 : 표본으로부터 모집단에 관한 정보를 얻고 도출하는 과정

    • 추정 : 모수를 분석하여 모집단 추론
    • 가설검정 : 가설 설정 후 책택 여부 결정

 

확률

표본 공간에서 어떤 사건이 발생하는 비율
 

  • 확률 변수 : 특정값이 나타날 가능성이 확률적으로 주어지는 변수
  • 확률 변수 구분 : 이산형 확률 변수, 연속형 확률 변수
  • 확률 변수 X의 기대값 E(X) = xf(x) 누적합
  • 확률 변수 X의 k차 적률 E(Xk) = xkf(x) 누적합
  • 확률 변수 X의 k차 중심적률 E[(X-μ)k] = (x-μ)kf(x) 누적합
  • 모분산 σ2 = 2차 중심적률 = 2차 적률 - (1차 적률)2

 

  • 덧셈정리(배반사건이 아닐 때) : P(A∪B) = P(A) + P(B) - P(A∩B), P(A|B) = P(A∩B) / P(B)
  • 덧셈정리(배반사건일 때) : P(A∪B) = P(A) + P(B)
  • 곱셈정리 : 사건 A와 B가 서로 무관할 때 P(A∩B) = P(A) * P(B), P(A|B) = P(A)

 

확률분포

  • 이산형 확률분포

    • 베르누이 확률분포 : 결과가 2개만 나오는 경우
    • 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
    • 기하분포 : 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
    • 다항분포 : 이항분포 확장
    • 포아송분포 : 시간과 공간 내에서 발생하는 사건의 발생횟수
  • 연속형 확률분포

    • 균일분포 : 모든 확률변수 X가 균일한 확률을 가지는 확률분포

    • 정규분포 : 평균이 μ이고, 표준편차가 σ인 x의 확률밀도함수

    • 지수분포 : 어떤 사건이 발생할 때까지 경과 시간

    • t-분포 : 두 집단의 평균이 동일한지 알고자 할 때 활용

      • 정규분포보다 퍼져있고 자유도가 커질수록 정규분포
    • x2-분포 : 두 집단의 동질성 검정에 활용

      • 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정
    • F-분포 : 두 집단의 분산이 동일한지 알고자 할 때 활용

      • 2개의 자유도, 자유도가 커질수록 정규분포

 

추정

표본으로부터 미지의 모수 추측

  • 점추정 : 모수가 특정한 값이라고 추정하는 것
  • 구간추정 : 모수가 특정한 구간에 있을 것이라고 선언

 

점추정의 조건

  • 불편성 : 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없다.
  • 효율성 : 추정량의 분산이 작을수록 좋다.
  • 일치성(비편향성) : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다.
  • 충족성 : 추정량은 모수에 대하여 모든 정보 제공

 

추정방법

  • 적률법 : 표본의 기댓값을 통해 모수 추정
  • 최대가능도추정법 : 기대함수의 기울기가 0인 지점
  • 최소제곱법 : 측정값의 제곱의 합이 최소인 함수

 

가설검정

  • 정의 : 표본을 통해 귀무가설과 대립가설 중 하나를 선택하는 과정
  • 귀무가설 : 동일하다 개념
  • 대립가설 : 증거가 있을 때 주장
  • 유의수준 : 귀무가설을 기각하게 되는 확률의 크기
  • 제1종 오류 : 귀무가설이 옳은데 귀무가설을 기각하게 되는 오류

 

비모수 검정

  • 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정 실시
  • 특정분포를 따른다고 가정할 수 없는 경우 이용
  • 분포의 형태에 대한 설정
  • 관측값의 절대적인 크기에 의존하지 않음.(표본평균, 표본분산 사용 X)

 

2절 기초 통계분석

중심위치

  • 표본평균
  • 중앙값

 

산포

  • 분산
  • 표준편차
  • 사분위수
  • 평균의 표준오차

 

분포형태

  • 왜도
  • 첨도

 

그래프

  • 히스토그램
  • 막대그래프
  • 줄기-잎 그림
  • 상자그림

 

인과관계

  • 종속변수
  • 독립변수
  • 산점도
  • 공분산 : 두 확률변수의 방향성, 서로 독립이면 0

 

상관분석

  • 상관계수를 이용하여 두 변수 간의 관계 정도 분석

  • 유형

    • 피어슨 : 등간척도, 연속형 변수, 선형적인 크기만 측정
    • 스피어만 : 서열척도, 순서형 변수, 비선형적인 관계도 표현 가능

 

3절 회귀분석

하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
 

변수

  • 영향을 받는 변수(y) : 반응변수, 종속변수, 결과변수
  • 영향을 주는 변수(x) : 설명변수, 독립변수, 예측변수

 

선형회기분석의 가정

  • 선형성 : 입력변수와 출력변수의 관계가 선형

  • 등분산성 : 오차의 분산이 일정

  • 독립성 : 입력변수와 오차는 무관

  • 비상관성 : 오차 간 무관

  • 정상성(정규성) : 오차의 분포가 정규분포

    • Q-Q Plot 출력 시 잔차(기울기)가 대각방향 직선

 

가정에 대한 검증

  • 단순선형회귀분석 : 입력변수와 출력변수 간의 선형성을 점검하기 위해 산점도 확인
  • 다중선형회귀분석 : 선형회귀분석의 가정을 모두 만족하는지 확인

 

회귀분석 종류

  • 단순선형회귀 : 하나의 독립변수가 종속변수에 미치는 영향 추정
  • 다중선형회귀 : 통계적 유의성은 F 통계량으로 확인
  • 로지스틱회귀 : 종속변수가 범주형
  • 다항회귀
  • 곡선회귀
  • 비선형회귀

 

검토사항

  • 회귀계수 유의성 : 회귀계수의 t통계량의 p-값이 0.05(유의수준) 미만
  • 모형 설명력 : 결정계수 확인(결정 계수가 높을 수록 높은 설명력)
  • 데이터 적합 : 잔차 통계량, 회귀진단

 

회귀계수의 추정

  • 최소제곱법
  • 회귀계수가 0이면 입력 변수와 출력 변수 인과관계 없음.

 

결정계수

  • 결정계수(R2) = SSR/SST

    • 전체제곱합(SST)
    • 회귀제곱합(SSR)
    • 오차제곱합(SSE) = SST - SSR
  • 회귀직선의 적합도 검토

  • 독립변수 수가 많아지면 결정계수가 높아지므로 수정된 결정계수 활용

 

최적회귀방정식

  • 단계적 변수선택

    • 전진선택법 : 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
    • 후진제거법 : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거
    • 단계선택법 : 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당 변수 제거
  • 벌점화된 선택기준

    • AIC 또는 BIC가 최소가 되는 모형 선택

 

4절 시계열 분석

시계열 자료

  • 정의 : 시간의 흐름에 따라 관찰된 값들

  • 종류

    • 비정상성 시계열 자료
    • 정상성 시계열 자료

 

정상성 조건

  • 평균 일정 : 차분을 통해 정상화
  • 분산 일정 : 변환을 통해 정상화
  • 공분산이 시차에만 의존(시점에 의존 X)

 

정상 시계열 특징

  • 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 같는 자기공분산을 측정하더라도 동일한 값
  • 평균값으로 회귀하려는 경향
  • 평균값 주변에서의 변동 폭 일정

 

시계열 자료 분석방법

  • 이동평균법

    • 개념 : 일정기간별 이동평균을 계산하고, 다음 기간을 예측
    • 특징 : 뚜렷한 추세가 있거나 불규칙변동이 심하지 않은 경우 짧은 기간, 반대는 긴 기간 평균 사용
  • 지수평활법

    • 개념 : 모든 시계열 자료를 사용하며, 최근 시계열에 더 많은 가중치를 부여하여 미래 예측

    • 특징

      • 단기간에 발생하는 불규칙변동을 평활하는 방법
      • 지수평활계수는 불규칙변동이 큰 경우 작은값, 불규칙변동이 작은 경우 큰 값 적용
      • 중기 예측 이상에 주로 사용(장기추세나 계절변동 포함 시 부적합)

 

시계열 모형

  • 자기회귀 모형(AR 모형) : p 시점 전의 자료가 현재 자료에 영향을 주는 모형

  • 이동평균 모형(MA 모형) : 유한 개의 백색잡음의 결합으로 항상 정상성

  • 자기회귀누적이동평균 모형(ARIMA(p, d, q) 모형) : 차분이나 변환을 통해 AR 모형이나 MA 모형, 또는 ARMA 모형으로 정상화

  • 분해 시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리하여 분석

    • 경향(추세)요인 : 추세
    • 계절요인 : 고정된 주기
    • 순환요인 : 알려지지 않은 주기
    • 불규칙요인 : 그 외

 

5절 다차원척도법

  • 객체간 근접성을 시각화
  • 데이터 축소 목적
  • 유클리드 거리행렬 활용
  • 적합도를 스트레스 값으로 표현

 

다차원척도법 종류

  • 계량적 MDS : 데이터가 구간척도나 비율척도인 경우 활용
  • 비계량적 MDS : 데이터가 순서척도인 경우 활용

 

6절 주성분 분석

변수 간 상관 관계, 연관성을 이용해 소수의 주성분으로 차원 축소
 

주성분 선택법

  • 상관 행렬을 이용한 누적기여율
  • scree plot을 활용하여 고유값 수평 유지 전단계
반응형
반응형

3과목 데이터 분석

3장 데이터 마트

1절 데이터 변경 및 요약

데이터 마트

  • 데이터 웨어하우스와 사용자 사이의 중간층
  • 하나의 주제 중심 데이터 웨어하우스

 

요약변수

  • 수집된 정보를 분석에 맞게 종합한 변수
  • 높은 재활용성

 

파생변수

  • 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
  • 주관적일 수 있으므로 논리적 타당성 필요

 

2절 데이터 가공

변수의 구간화

  • 연속형 변수를 분석 목적에 맞게 활용하기 위해 구간화
  • 구간화 방법
    • binning : 정렬 후 구간화
    • 의사결정나무

 

3절 기초 분석 및 데이터 관리

결측값 처리

  • 단순 대치법
    • completes analysis : 삭제
    • 평균대치법
      • 비조건부 평균 대치법 : 관측 데이터의 평균으로 대치
      • 조건부 평균 대치법 : 회귀분석을 활용한 대치
    • 단순 확률 대치법
  • 다중 대치법 : m번의 대치를 통해 m개의 가상 완전 자료 생성
    • 절차 : 1. 대치 2. 분석 3. 결합

 

이상값

  • 활용 가능한 데이터 : 의도하지 않은 현상이지만 분석에 포함해야 하는 경우, 의도된 이상값
  • 활용 불가능한 데이터 : 의도하지 않게 잘못 입력한 경우, 의도하지 않게 입력되었으나 분석 목적에 부합하지 않는 경우

 

이상값 인식 방법

  • ESD : 평균으로부터 3 표준편차 떨어진 값(99.7% 초과)
  • 기하평균으로부터 표준편차의 2.5배 떨어진 값
  • 사분위수 활용 : Q1과 Q3으로부터 (Q3-Q1)의 1.5배 떨어진 값
반응형
반응형

3. 데이터 분석

1장 데이터 분석 개요

1절 데이터 분석 기법의 이해

데이터 처리

데이터웨어하우스와 데이터마트를 통해 분석 데이터를 가져와 사용

 

시각화

  • 낮은 수준의 분석이지만 효율적
  • 탐색적 분석 시 필수

 

공간분석

  • 공간적 차원과 관련된 속성을 시각화

 

탐색적 자료 분석(EDA)

  • 다양한 차원과 값을 조합하여 정보 도출 및 분석
  • 주제 : 저항성 강조, 잔차 계산, 자료변수 재표현, 그래프를 통한 현시성

 

통계분석

어떤 현상을 숫자와 표, 그림의 형태로 나타내는 것

 

데이터마이닝

  • 정보의 관계, 패턴, 규칙을 탐색하여 미래에 대한 예측
  • 방법론 : 기계학습, 패턴인식
  • 평가기준 : 정확도, 정밀도, 디텍트 레이트, 리프트
반응형

+ Recent posts