반응형

대안투자상품 특징

  • 전통적인 투자상품과 낮은 상관관계 -> 높은 분산투자효과
  • 대부분 장외시장에서 거래 -> 환금성 부족, 환매금지기간, 긴 투자기간
  • 차입, 공매도, 파생상품 활용 -> 위험관리 중요 (cf. 기존 투자전략 - 매수중심)
  • 운용자 스킬 중요 -> 높은 보수율, 성공보수(2-20Rule : 운용보수 2%, 성공보수 20%)

 

대안투자상품 종류

  • 전통투자 : 주식 또는 채권에 투자하는 상품, MMF(단기금융펀드)
  • 대안투자 : 부동산펀드, 인프라스트럭처펀드, 상품펀드, 헤지펀드, PEF(사모펀드)

 

PEF

  무한책임사원(GP) 유한책임사원(LP)
역할 PEF 운용자, 무한책임부담 PEF 투자자, 유한책임부담
내역 공개 여부 공개 비공개
취급기관 PEF 전문 운용사, 은행계 자회사 등 연기금, 은행, 보험사 등

 

PEF Exit 방안

  • 매각 : 일반기업에 매각 / 다른 PEF에 매각
  • 공모상장 : 직접매각의 후순위 전략, 복잡한 공모절차와 심사
  • 유상감자 : 기업의 수명단축, 성장저해, 공격적인 회수전략
  • 자체상장 : 공격적인 회수전략

 

부동산금융

  • 주택금융 : 담보대출
  • 수익형 부동산금융 : 투자대상 부동산의 미래현금흐름을 상환 재원으로 하여 자금 조달
    • 부동산 증권형
      • ABS : 조기 현금흐름 창출 -> 유동성위험 회피
      • MBS : 저당권을 기초자산
      • REITs : 다수의 투자자로부터 자금을 모아 부동산 및 관련 사업에 투자한 후 배당 분배 / 증권시장에 상장 -> 유동성 확보 / 일반투자자들도 소액으로 부동산투자 가능
      • 부동산펀드
    • 부동산 개발형 : PF

 

헤지펀드 운용 전략

  • 차익거래
    • long / short equity : 주식시장 중립형(long : short = 5 : 5) (cf. 주식의 롱숏 - 방향성)
    • 전환사채 차익거래 : 저평가 전환사채 매수, 전환사채의 델타만큼 기초자산 주식 매도
      • 기초자산의 변동성이 크고 볼록성이 큰 전환사채
      • 유동성이 높은 전환사채와 기초주식을 쉽게 빌릴 수 있는 전환사채
      • 낮은 전환프리미엄을 가진 전환사채
      • 낮은 배당률을 갖는 기초자산의 전환사채
      • 낮은 내재변동성
    • 채권차익거래
      • 단기채와 장기채 간의 기울기 : 단스장플(스티프닝 단기채매수, 플랫 장기채매수)
        • Yield Curve Steepener 전략 : 단기채 매수 + 장기채 매도(내제 변동성 매도 포지션)
        • Yield Curve Flattener 전략 : 단기채 매도 + 장기채 매수(내제 변동성 매수 포지션)
      • 단기채, 중기채, 장기채 간의 수익률곡선 변화
        • Yield Curve Butterfly 전략(hump형 - 중기채 매수 / trough형 - 중기채 매도)
  • 상황의존형
    • 합병차익 : 인수주식 매도 + 피인수기업 주식 매수 (합병무산 리스크)
    • 부실채권투자 : 재무적 어려움을 격는 기업의 주식이나 채권 매입 + 이후 구조조정 등을 통해 차익
  • 방향성
    • 주식의 롱숏
    • 글로벌 매크로 전략 : 세계경제에 대한 거시경제 분석 바탕(탑다운 분석), 가장 고위험 고수익, 환위험 헤지 X(환율변동도 수익원으로 인식)
    • 이머징마켓 헤지펀드
    • 섹터헤지펀드
    • 매도전문펀드
    • 선물거래
  • 기타
    • Carry Trade : 낮은 금리로 자본 조달 + 높은 금리에 투자(금리차 수익, 환율변동 위험)
    • Break-even inflation trade : 물가연동채권(TIPS)과 국채를 이용한 차익거래
      • 인플레이션 예상 : TIPS 매수 + 동일만기 국채 매도
      • 디플레이션 예상 : TIPS 매도 + 동일만기 국채 매수
    • 무상증자 이벤트 전략 : 무상증자 권리락일에 해당 종목의 주가 상승 기대

 

CDO(부채담보부증권) 분류

  • 발행목적 기준
    • Arbitrage CDO : 기초자산 수익률과 유동화증권 수익률 간 차익
    • Balace Sheet CDO : 대차대조표에서 위험자산 감소 -> 재무비율 개선
  • 위험전이방법
    • Cash Flow CDO : 자산을 SPC에게 양도(위험전가), SPC는 CDO 증권 발행하여 자금조달
    • Synthetic CDO : CDS를 활용하여 위험 전가(기초자산 양도 없이 신용 위험 전가)
  • 기초자산 운용방법
    • Static CDO : 포트폴리오 운용 없이 만기까지 보유
    • Dynamic CDO : 지정된 운용자에 의해 자산 운용

 

CDO의 세가지 트랜치

  • Equity : up-front 방식(일정 수익 선지급, 만기에 남아있는 담보자산 수령)
  • Mezzanine : 잔여이익에 대한 권리 없음.
  • Senior : mark to market 위험(신용 등급 하락 시 환가 하락 가능), 재보험사의 분산투자 도구
  • Super Senior : 신용평가 X(회사채 등급 AAA보다 우량자산)

 

신용파생상품

구분 CDS TRS CLN
위험전가자 보장매수자 TRS매도자 CLN발행자
위험인수자 보장매입자 TRS매수자 CLN투자자
전가위험 신용위험 신용위험 + 시장위험 신용위험
특징 Basket Default Swap 현금흐름 복제효과 일반채권에 CDS 결합

준거자산 양도 여부

  • O : ABS, CDO
  • X : CDS, CLN, TRS, 합성CDO
반응형
반응형

3월 16일에 치뤄진 56회 DAsP에 합격했다.

항상 이론을 먼저 보려고하지만 시간이 없어서 하루 이틀을 남기고 문제만 보고 응시하는 것 같다.

sqld를 응시하고 이어서 응시했기 때문에 모델링 부분에 겹치는 부분이 있었다. 며칠 준비 안했지만 아슬아슬하게 점수를 맞춰서 합격할 수 있어서 다행이었다. 내가 준비하는 입장인데 sqld가 없다면 이 자격증과 같이 준비를 해서 가성비 있게 두 자격증을 취득하는 방향으로 준비할 것 같다.

아래는 참고한 책이다.

https://product.kyobobook.co.kr/detail/S000001937368

 

데이터아키텍처 준전문가(DAsP) 한 권으로끝내기 | 김상목 - 교보문고

데이터아키텍처 준전문가(DAsP) 한 권으로끝내기 | 우리는 지금 데이터 폭증의 시대를 살고 있다고 해도 과언이 아니다. 데이터가 폭발적으로 증가하면서 전 세계의 학교, 회사 등 다양한 곳에서

product.kyobobook.co.kr

https://product.kyobobook.co.kr/detail/S000001399857

 

데이터아키텍처 자격검정 실전문제 | 한국데이터베이스진흥원 - 교보문고

데이터아키텍처 자격검정 실전문제 | 데이터아키텍처 전문자격(DAP, DATA ARCHITECTURE PROFESSIONAL) 대비 실전문제집 『데이터 아키텍처 자격검정 실전문제』. 전사 아키텍처, 데이터 품질 관리, 데이터

product.kyobobook.co.kr

 

반응형

'자격증(IT) > 후기' 카테고리의 다른 글

SQLD 52회 합격 후기 및 준비 과정  (0) 2024.04.08
ADsP 40회 합격 후기 및 준비 과정  (0) 2024.03.30
반응형



3월 9일에 치뤄진 52회 SQLD에 합격했다.

흔히들 노랭이라고 부르는 SQL 자격검점 실전문제 책으로 준비를 했다. 책은 아래에 이미지와 교보문고 링크를 첨부하겠다.

실질적인 준비시간은 3일정도 걸린 것 같은데, 쿼리가 눈에 익는다면 2과목 준비가 편해서 부족하진 않은 것 같다. 다만 비전공자나 평소에 쿼리를 보지 않으면 배 이상 소요됐을 것 같다.

 

https://product.kyobobook.co.kr/detail/S000212021705

준비과정

  • 1과목
    • 기본적인 데이터 모델링 관련 개념이 나오는 부분이다.
    • 책에 있는 핵심정리를 보고 문제를 풀면서 옳지 않은 선지를 옳은 선지로 고치고 이해 안되는 것은 한번 더 보고 넘어가는 수준으로 공부했다.
    • 다만 정규형, 정규화는 한번 더 공부하고 시험을 치뤘다.
    • 이해가 안되는 문제의 수가 많지 않으면 넘어간다. 100점 맞는 시험이 아니다.
  • 2과목
    • 크게 1 2 3장으로 구성되어있다.
    • 1장과 3장은 문제를 풀고 틀린 문제를 한 번 더 보는 정도로 커버할 수 있었다. 환경에 따른 언어차이는 크게 중요하지 않은 것 같다. 모르는 함수가 나온다면 암기는 필요하다.
    • 문제는 2장이다. 윈도우 함수 등 사용해본적 없는 쿼리가 나오지만 한 두번 읽고 이해가 안되면 과감히 포기한다. 100점을 위한 시험이 아니기 때문이다. 물론 나머지로 이 부족한 점수를 채울 수 있어야하기 때문에 자신이 없으면 충분히 공부해야된다.

어렵지 않은 쿼리를 보면서 해석할 수 있었기에 이전 ADsP를 준비했을 때보다 시간도 훨씬 덜 들었고, 점수는 생각 이상으로 높게 나왔다. 전공자 혹은 SQL을 사용하는 개발자라면 일과 병행했을 때 1~2주, 아니라면 3~4주면 안정적으로 합격할 수 있을 것 같다.

반응형

'자격증(IT) > 후기' 카테고리의 다른 글

DAsP 5회 합격 후기 및 준비 과정  (0) 2025.04.09
ADsP 40회 합격 후기 및 준비 과정  (0) 2024.03.30
반응형

 



2월 24일에 치뤄진 40회 ADsP에 합격했다.

1과목은 풀면서 거의 다 맞는 느낌이었고, 2과목은 과락만 면하자는 느낌으로 풀었다.

3과목은 긴가민가한 선지가 많았지만 4개의 선지에서 확실히 답이 아닌 선지를 지운 후 후보를 줄여서 찍어서 맞추면 된다. 100점짜리 시험이 아니니까. 확실한 문제만 챙기자.

점수는 아슬아슬했지만 과락없이 60점만 넘기면 되는 시험이니 상관없다.

 

준비과정

  • 1과목
    • 고득점 과목
    • 용어를 익히고 내용을 한번 정리하면 쉽게 점수를 취득할 수 있는 쉬운 과목.
    • 고득점을 위한 개인정보 비식별 기술, 데이터 양 단위 크기 순서 등 상식 문제 준비
  • 2과목
    • 과락 방지 과목
    • 암기가 많이 필요한 과목이다. 범위는 좁지만 범위가 좁은 만큼 암기할 부분이 많다.
    • 분석방법론(KDD, CRISP-DM) 프로세스 비교, 빅데이터 분석 방법론, 각종 산출물, 분석 성숙도에 대한 암기 필수
  • 3과목
    • 전체 50문항 중 30문항을 차지하는 가장 중요하고 많은 시간이 필요한 과목, 전체 준비 시간의 절반 이상 소요
    • R에 대한 문제는 별도 대비 필요가 없다.
    • 3장 데이터 마트, 4장 통계분석, 5장 데이터 마이닝 각각 기본 용어 및 개념에 대한 숙지가 필요하며 공식이 나오는 경우 공식 암기도 필요하다.
    • 확률분포에 경우 t분포, 카이제곱분포, F분포와 같이 한 두줄의 설명으로 이해가 안되는 경우 유튜브 등 영상을 보는게 나을 수 있다.
    • 여러 용어가 나오므로 비교를 통한 구분 필요
    • 3장 : 데이터 마트 개념, 결측치, 이상값
    • 4장 : 표본조사, 확률분포, 가설점정, 상관분석, 회귀분석, 결정계수, 시계열 분석, 다차원척도법
    • 5장 : 성과분석, 분류분석, 앙상블 분석, 군집분석, 연관분석
반응형

'자격증(IT) > 후기' 카테고리의 다른 글

DAsP 5회 합격 후기 및 준비 과정  (0) 2025.04.09
SQLD 52회 합격 후기 및 준비 과정  (0) 2024.04.08
반응형

3과목 데이터 분석

5장 정형 데이터 마이닝

1절 데이터마이닝 개요

분석 목적에 따른 작업 유형과 기법

  • 예측

    • 분류규칙 : 과거 데이터로부터 분류모형을 만들어 이를 토대로 새로운 레코드 결과값 예측

      • 회귀분석, 판별분석, 신경망, 의사결정나무
  • 설명

    • 연관규칙 : 항목간 종속관계 탐색

      • 동시발생 매트릭스
    • 연속규칙 : 연관 규칙에 대한 시간 관련 정보가 포함된 형태

      • 동시발생 매트릭스
    • 데이터 군집화 : 유사한 특성을 지닌 소그룹으로 분할

      • K-Means Clustering

 

추진 단계

  1. 목적 설명
  2. 데이터 준비
  3. 가공
  4. 기법 적용
  5. 검증

 

데이터 분할

  • 구축용(50%) : 훈련용 데이터

  • 검정용(30%) : 미세조정

  • 시험용(20%) : 모델 성능 검증

  • 데이터 양이 충분하거나 입력 변수 설명이 부족한 경우

    • 홀드아웃 : 주어진 데이터를 랜덤하게 두 개의 데이터로 구분
    • 교차확인 : 주어진 데이터를 k개의 하부집단으로 구분, k-1개의 학습용와 나머지의 검증용 집단으로 평균값 측정하여 사용

 

성과분석

 조건 O (Positive)조건 X (Negative)
예측 O (Positive)TP (맞춤)FP
예측 X (Negative)FNTN (맞춤)
  • 정분류율 : TP+TN / 전체
  • 오분류율 : FP+FN / 전체
  • 특이도 : TN / FP+TN (거짓 중에 맞출 확률)
  • 민감도 : TP / TP + FN (참 중에 맞을 확률)
  • 정확도 : TP / TP + FP (참으로 예측한 것이 맞을 확률)
  • 재현율 : TP / TP + FN
  • F1 Score = 2*정확도*재현율 / (정확도+재현율)

 

ROCP Curve

  • 가로축을 FPR(1-특이도), 세로축을 TPR(민감도) 값으로 두고 시각화
  • 곡선 아래 면적이 클수록 성능이 좋은 모형

 

이익도표

분류모형의 성능을 평가하기 위한 척도, 구간별 반응검출율, 반응률, 향상도 고려

  • 기본 향상도 = 구매자 비율
  • 반응검출율 = 해당 등급 구매자 / 전체 구매자
  • 반응률 = 해당 등급 구매자 비율
  • 향상도 = 반응률 / 기본 향상도, 좋은 모델일 경우 빠른 속도로 감소

 

2절 분류분석

분류분석과 예측분석의 정의

  • 분류분석 : 데이터의 그룹 예측, 범주형 속성 값
  • 예측분석 : 시간에 따른 값 예측, 연속형 속성 값

 

로지스틱 회귀분석

  • 새로운 설명변수가 주어질 때 반응변수의 각 범주에 속할 확률을 추정하여 분류
  • 사후확률 : 모형의 적합을 통해 추정된 확률
  • 종속변수 = 0, 1
  • 계수 추정법 : 최대우도추정법
  • 모형 검정 = 카이제곱 검정

 

오즈

  • 오즈 : 성공할 확률이 실패할 확률의 몇 배인지 나타내는 확률
  • 오즈비 : 오즈의 비율

 

의사결정나무

분류함수를 의사결정 규칙으로 이루어진 나무 모양으로 그리는 방법

 

  • 활용

    • 세분화
    • 분류
    • 예측
    • 차원 축소 및 변수 선택
    • 범주 병합 및 연속형 변수 이산화
  • 특징

    • 장점

      • 설명 용이
      • 단순 계산
      • 빠른 생성
      • 수치형 변수와 범주형 변수 모두 사용 가능
      • 높은 정확도
    • 단점

      • 과대적합 가능성
      • 경계선 부근 자료값의 큰 오차
      • 중요도 판단에 어려움
  • 과정

    1. 성장 : 각 마디마다 최적의 분리규칙을 찾아 나무 성장, 적절한 정지규칙 만족 시 중단

      • 분리기준

        • 이산형 목표변수 : 카이제곱 통계량 p값, 지니 지수, 엔트로피 지수
        • 연속형 목표변수 : F 통계량 P값, 분산의 감소량
      • 정지기준 : 의사결정나무의 깊이 지정, 끝마디 레코드 수의 최소 개수 지정

    2. 가지치기 : 불필요한 가지 제거

    3. 타당성 평가 : 이익도표, 위험도표, 시험자료를 이용하여 평가

    4. 해석 및 예측 : 구축된 나무모형 해석, 예측모형 설정 후 적용

 

의사결정나무 알고리즘

  • CART : 변수가 범주형인 경우 지니지수, 연속형인 경우 이진분리 사용
  • C4.5와 C5.0 : 다지분리 가능, 엔트로피지수 사용
  • CHAID : 범주형 변수, 카이제곱 통계량 사용

 

3절 앙상블 분석

주어진 자료로부터 여러 개의 예측모형을 만든 후 예측모형을 조합하여 하나의 최종 예측 모형을 만드는 방법

 

종류

  • 배깅 : 여러개의 부트스트랩 자료를 생성하고 각 부트스르랩 자료에 예측모델을 만든 후 결합하여 최종 예측 모델 생성

    • 부트스트랩 : 주어진 자료에서 동일한 크기의 표본을 랜덤복원추출

    • 보팅 : 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과로 선정하는 것

    • 가지치기를 하지 않고 최대로 성장한 의사결정나무 활용

    • 훈련자료의 모집단의 분포를 모르기 때문에 실제 평균예측모형 산출 불가

      => 훈련자료를 모집단으로 생각하고 평균예측모형을 구하여 분산을 줄이고 예측력 향상

  • 부스팅 : 예측력이 약한 모형을 결합하여 강한 예측 모형을 만드는 방법

    • Adaboost : 분류기에 각각 가중치를 설정하여 결합(가중치합 1)
    • 예측오차 향상
  • 랜덤 포레스트 : 더 많은 무작위성을 주어 약한 삭습기를 생성한 후 선형으로 결합하여 최종 학습기 생성

    • 변수제거 없이 실행되므로 정확한 측면에서 좋은 성과
    • 어려운 해석, 높은 예측력

 

4절 인공신경망 분석

인공 신경망 학습

  • 신경망은 가중치를 반복적으로 조정하며 학습

  • 뉴런은 가중치가 있는 링크로 연결

  • 입력 링크에서 여러 신호를 받아 출력 링크로 출력 신호 출력

  • 활성화 함수 사용 : 가중치 합이 임계값보다 작으면 -1, 크거나 같으면 +1 출력

    • softmax함수 : 표준화지수 함수, 출력값이 여러개
    • relu함수 : 입력이 0 이하는 0, 0 이상은 x값을 가지는 함수

 

단일 뉴런 학습(단층 퍼셉트론)

선형 결합기와 하드 리미터로 구성

 

신경망 모형 구축 시 고려사항

  • 입력 변수

    • 범주형 변수 : 가변수화 적용(0 또는 1, -1 또는 1)
    • 연속형 변수 : 변환(로그변환), 범주화
  • 가중치의 초기값과 다중 최소값 문제

    • 역전파 알고리즘은 초기값에 따라 결과가 많이 달라지므로 초기값 선택이 중요
    • 초기값은 0 근처로 랜덤하게 선택하므로 초기 모형은 선형 모형에 가깝고, 가중치 값이 증가할수록 비선형 모형이 됨.
  • 학습모드

    • 온라인 학습 모드 : 관측값을 순차적으로 하나씩 신경망에 투입하여 가중치 추정값 변화
    • 확률적 학습 모드 : 신경망에 투입되는 관측값의 순서가 랜덤
    • 배치 학습 모드 : 전체 훈련자료를 동시에 신경망에 투입
  • 은닉층과 은닉노드 수

    • 은닉층과 은닉노드가 많으면 과대 적합 문제 발생
    • 은닉층과 은닉노드가 적으면 과소 적합 문제 발생
    • 은닉층 수가 하나인 신경망은 매끄러운 함수를 근사적으로 표현 가능
  • 과대 적합 문제 : 조기종료와 가중치 감소 기법으로 해결

 

5절 군집분석

각 객체의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 다른 군집에 속한 객체간의 상이성을 규명

 

거리

  • 연속형 변수

    • 유클리디안 거리
    • 표준화 거리 : 표준편차로 척도 변환한 후 유클리디안 거리 계산
    • 마할라노비스 거리 : 통계적 개념이 포함된 거리
    • 체비셰프 거리
    • 맨하탄 거리
    • 캔버라 거리
    • 민코우스키 거리 : 맨하탄 거리와 유클리디안 거리를 한번에 표현한 공식
  • 범주형 변수

    • 자카드 거리
    • 자카드 계수
    • 코사인 거리 : 문서를 유사도를 기준으로 분류할 때 사용
    • 코사인 유사도

 

계층적 군집분석

n개의 군집으로 시작해 군집 개수를 줄역 나가는 방식

  • 최단연결법 : 거리가 가장 가까운 데이터를 묶어서 군집 형성

  • 최장연결법

  • 평균연결법

  • 와드연결법 : 군집내 편차들의 제곱합을 고려한 방법

  • 군집화

    1. 거리행렬을 통해 가장 가까운 거리의 객체들 간의 관계를 규명하고 덴드로그램을 그림.
    2. 덴드로그램을 보고 군집 개수 선택

 

비계층적 군집분석

  • K-평균 군집분석 : 주어진 데이터를 k개의 클러스터로 묶고, 각 클러스터와 거리 차이의 분산을 최소화

  • 과정

    1. 원하는 군집의 개수와 초기값(seed)을 정해 seed 중심으로 군집 형성
    2. 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류
    3. 군집의 seed 값 다시 계산
  • 특징

    • 연속형 변수에 활용 가능
    • 초기 중심값의 선정에 따라 결과가 달라질 수 있음.
    • 탐욕적 알고리즘이므로 최적 보장 불가
    • 잡음이나 이상값의 영향을 많이 받음.

 

혼합 분포 군집

  • 모형 기반 군집 방법

  • 각 데이터가 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집 분류가 이루어짐.

  • EM 알고리즘

    1. E - 단계 : 잠재변수 Z의 기대치 계산
    2. Z - 단계 : 잠재변수 Z의 기대치를 이용하여 파라미터 추정
  • 특징

    • 확률분포를 도입하여 군집 수행
    • 데이터가 커지면 수렴에 시간 소요
    • 이상치 자료에 민감

 

자기조직화지도SOM

  • 비지도 신경망으로 고차원 데이터를 저차원 뉴런으로 정렬

  • 구성

    • 입력층 : 입력 변수의 개수와 동일한 뉴런 수 존재
    • 경쟁층 : 입력벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층
  • 특징

    • 시각적으로 이해가 쉬움
    • 패턴 발견, 이미지 분석에 뛰어난 성능
    • 빠른 속도

 

6절 연관분석

조건과 반응의 형태로 거래 또는 사건 간의 규칙 발견

 

측도

  • 지지도 P(A ∩ B) : 항목 A와 항목 B를 동시에 포함하는 거래
  • 신뢰도 P(A ∩ B) / P(A) = P(B | A) : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률
  • 향상도 P(B | A) / P(B) : 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률 증가비

 

절차

  1. 최소 지지도 선정
  2. 최소 지지도를 넘는 품목 분류
  3. 2가지 품목 집합 생성
  4. 반복 수행

 

특징

  • 장점

    • 탐색적 기법
    • 비목적성 분석기법
    • 사용이 편한 데이터 형태
    • 계산이 용이
  • 단점

    • 품목 증가에 따른 급격한 계산 수 증가
    • 너무 세분화 시 무의미해질 수 있음.
    • 거래량이 적은 품목의 비중
반응형
반응형

3과목 데이터 분석

4장 통계분석

1절 통계분석의 이해

통계자료 획득 방법

  • 전수조사
  • 표본조사

 

표본 추출 방법

  • 단순랜덤 추출법 : 복원/비복원 추출
  • 계통추출법 : 샘플 나열 후 동일 간격으로 나눈 후 각 구간 마지막 항목 추출
  • 집락추출법 : 군집 구분 후 군집별 단순랜덤 추출법 수행
  • 층화추출법 : 유사한 원소끼리 층을 이룬 후 각 층에서 랜덤 추출

 

측정방법

  • 명목척도 : 분류(숫자로 바꿔도 의미 없음)
  • 순서척도 : 서열관계(양적 비교 불가)
  • 구간척도 : 측정된 양을 의미있는 구간으로 구간화, 원점 없음
  • 비율척도 : 간격에 대한 비율이 의미를 가지는 자료, 사칙연산 가능

 

통계분석

  • 기술 통계 : 주관이 섞일 수 있는 과정 배제

  • 추측 통계 : 표본으로부터 모집단에 관한 정보를 얻고 도출하는 과정

    • 추정 : 모수를 분석하여 모집단 추론
    • 가설검정 : 가설 설정 후 책택 여부 결정

 

확률

표본 공간에서 어떤 사건이 발생하는 비율
 

  • 확률 변수 : 특정값이 나타날 가능성이 확률적으로 주어지는 변수
  • 확률 변수 구분 : 이산형 확률 변수, 연속형 확률 변수
  • 확률 변수 X의 기대값 E(X) = xf(x) 누적합
  • 확률 변수 X의 k차 적률 E(Xk) = xkf(x) 누적합
  • 확률 변수 X의 k차 중심적률 E[(X-μ)k] = (x-μ)kf(x) 누적합
  • 모분산 σ2 = 2차 중심적률 = 2차 적률 - (1차 적률)2

 

  • 덧셈정리(배반사건이 아닐 때) : P(A∪B) = P(A) + P(B) - P(A∩B), P(A|B) = P(A∩B) / P(B)
  • 덧셈정리(배반사건일 때) : P(A∪B) = P(A) + P(B)
  • 곱셈정리 : 사건 A와 B가 서로 무관할 때 P(A∩B) = P(A) * P(B), P(A|B) = P(A)

 

확률분포

  • 이산형 확률분포

    • 베르누이 확률분포 : 결과가 2개만 나오는 경우
    • 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
    • 기하분포 : 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
    • 다항분포 : 이항분포 확장
    • 포아송분포 : 시간과 공간 내에서 발생하는 사건의 발생횟수
  • 연속형 확률분포

    • 균일분포 : 모든 확률변수 X가 균일한 확률을 가지는 확률분포

    • 정규분포 : 평균이 μ이고, 표준편차가 σ인 x의 확률밀도함수

    • 지수분포 : 어떤 사건이 발생할 때까지 경과 시간

    • t-분포 : 두 집단의 평균이 동일한지 알고자 할 때 활용

      • 정규분포보다 퍼져있고 자유도가 커질수록 정규분포
    • x2-분포 : 두 집단의 동질성 검정에 활용

      • 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정
    • F-분포 : 두 집단의 분산이 동일한지 알고자 할 때 활용

      • 2개의 자유도, 자유도가 커질수록 정규분포

 

추정

표본으로부터 미지의 모수 추측

  • 점추정 : 모수가 특정한 값이라고 추정하는 것
  • 구간추정 : 모수가 특정한 구간에 있을 것이라고 선언

 

점추정의 조건

  • 불편성 : 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없다.
  • 효율성 : 추정량의 분산이 작을수록 좋다.
  • 일치성(비편향성) : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다.
  • 충족성 : 추정량은 모수에 대하여 모든 정보 제공

 

추정방법

  • 적률법 : 표본의 기댓값을 통해 모수 추정
  • 최대가능도추정법 : 기대함수의 기울기가 0인 지점
  • 최소제곱법 : 측정값의 제곱의 합이 최소인 함수

 

가설검정

  • 정의 : 표본을 통해 귀무가설과 대립가설 중 하나를 선택하는 과정
  • 귀무가설 : 동일하다 개념
  • 대립가설 : 증거가 있을 때 주장
  • 유의수준 : 귀무가설을 기각하게 되는 확률의 크기
  • 제1종 오류 : 귀무가설이 옳은데 귀무가설을 기각하게 되는 오류

 

비모수 검정

  • 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정 실시
  • 특정분포를 따른다고 가정할 수 없는 경우 이용
  • 분포의 형태에 대한 설정
  • 관측값의 절대적인 크기에 의존하지 않음.(표본평균, 표본분산 사용 X)

 

2절 기초 통계분석

중심위치

  • 표본평균
  • 중앙값

 

산포

  • 분산
  • 표준편차
  • 사분위수
  • 평균의 표준오차

 

분포형태

  • 왜도
  • 첨도

 

그래프

  • 히스토그램
  • 막대그래프
  • 줄기-잎 그림
  • 상자그림

 

인과관계

  • 종속변수
  • 독립변수
  • 산점도
  • 공분산 : 두 확률변수의 방향성, 서로 독립이면 0

 

상관분석

  • 상관계수를 이용하여 두 변수 간의 관계 정도 분석

  • 유형

    • 피어슨 : 등간척도, 연속형 변수, 선형적인 크기만 측정
    • 스피어만 : 서열척도, 순서형 변수, 비선형적인 관계도 표현 가능

 

3절 회귀분석

하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
 

변수

  • 영향을 받는 변수(y) : 반응변수, 종속변수, 결과변수
  • 영향을 주는 변수(x) : 설명변수, 독립변수, 예측변수

 

선형회기분석의 가정

  • 선형성 : 입력변수와 출력변수의 관계가 선형

  • 등분산성 : 오차의 분산이 일정

  • 독립성 : 입력변수와 오차는 무관

  • 비상관성 : 오차 간 무관

  • 정상성(정규성) : 오차의 분포가 정규분포

    • Q-Q Plot 출력 시 잔차(기울기)가 대각방향 직선

 

가정에 대한 검증

  • 단순선형회귀분석 : 입력변수와 출력변수 간의 선형성을 점검하기 위해 산점도 확인
  • 다중선형회귀분석 : 선형회귀분석의 가정을 모두 만족하는지 확인

 

회귀분석 종류

  • 단순선형회귀 : 하나의 독립변수가 종속변수에 미치는 영향 추정
  • 다중선형회귀 : 통계적 유의성은 F 통계량으로 확인
  • 로지스틱회귀 : 종속변수가 범주형
  • 다항회귀
  • 곡선회귀
  • 비선형회귀

 

검토사항

  • 회귀계수 유의성 : 회귀계수의 t통계량의 p-값이 0.05(유의수준) 미만
  • 모형 설명력 : 결정계수 확인(결정 계수가 높을 수록 높은 설명력)
  • 데이터 적합 : 잔차 통계량, 회귀진단

 

회귀계수의 추정

  • 최소제곱법
  • 회귀계수가 0이면 입력 변수와 출력 변수 인과관계 없음.

 

결정계수

  • 결정계수(R2) = SSR/SST

    • 전체제곱합(SST)
    • 회귀제곱합(SSR)
    • 오차제곱합(SSE) = SST - SSR
  • 회귀직선의 적합도 검토

  • 독립변수 수가 많아지면 결정계수가 높아지므로 수정된 결정계수 활용

 

최적회귀방정식

  • 단계적 변수선택

    • 전진선택법 : 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
    • 후진제거법 : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거
    • 단계선택법 : 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당 변수 제거
  • 벌점화된 선택기준

    • AIC 또는 BIC가 최소가 되는 모형 선택

 

4절 시계열 분석

시계열 자료

  • 정의 : 시간의 흐름에 따라 관찰된 값들

  • 종류

    • 비정상성 시계열 자료
    • 정상성 시계열 자료

 

정상성 조건

  • 평균 일정 : 차분을 통해 정상화
  • 분산 일정 : 변환을 통해 정상화
  • 공분산이 시차에만 의존(시점에 의존 X)

 

정상 시계열 특징

  • 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 같는 자기공분산을 측정하더라도 동일한 값
  • 평균값으로 회귀하려는 경향
  • 평균값 주변에서의 변동 폭 일정

 

시계열 자료 분석방법

  • 이동평균법

    • 개념 : 일정기간별 이동평균을 계산하고, 다음 기간을 예측
    • 특징 : 뚜렷한 추세가 있거나 불규칙변동이 심하지 않은 경우 짧은 기간, 반대는 긴 기간 평균 사용
  • 지수평활법

    • 개념 : 모든 시계열 자료를 사용하며, 최근 시계열에 더 많은 가중치를 부여하여 미래 예측

    • 특징

      • 단기간에 발생하는 불규칙변동을 평활하는 방법
      • 지수평활계수는 불규칙변동이 큰 경우 작은값, 불규칙변동이 작은 경우 큰 값 적용
      • 중기 예측 이상에 주로 사용(장기추세나 계절변동 포함 시 부적합)

 

시계열 모형

  • 자기회귀 모형(AR 모형) : p 시점 전의 자료가 현재 자료에 영향을 주는 모형

  • 이동평균 모형(MA 모형) : 유한 개의 백색잡음의 결합으로 항상 정상성

  • 자기회귀누적이동평균 모형(ARIMA(p, d, q) 모형) : 차분이나 변환을 통해 AR 모형이나 MA 모형, 또는 ARMA 모형으로 정상화

  • 분해 시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리하여 분석

    • 경향(추세)요인 : 추세
    • 계절요인 : 고정된 주기
    • 순환요인 : 알려지지 않은 주기
    • 불규칙요인 : 그 외

 

5절 다차원척도법

  • 객체간 근접성을 시각화
  • 데이터 축소 목적
  • 유클리드 거리행렬 활용
  • 적합도를 스트레스 값으로 표현

 

다차원척도법 종류

  • 계량적 MDS : 데이터가 구간척도나 비율척도인 경우 활용
  • 비계량적 MDS : 데이터가 순서척도인 경우 활용

 

6절 주성분 분석

변수 간 상관 관계, 연관성을 이용해 소수의 주성분으로 차원 축소
 

주성분 선택법

  • 상관 행렬을 이용한 누적기여율
  • scree plot을 활용하여 고유값 수평 유지 전단계
반응형

+ Recent posts