반응형

3과목 데이터 분석

4장 통계분석

1절 통계분석의 이해

통계자료 획득 방법

  • 전수조사
  • 표본조사

 

표본 추출 방법

  • 단순랜덤 추출법 : 복원/비복원 추출
  • 계통추출법 : 샘플 나열 후 동일 간격으로 나눈 후 각 구간 마지막 항목 추출
  • 집락추출법 : 군집 구분 후 군집별 단순랜덤 추출법 수행
  • 층화추출법 : 유사한 원소끼리 층을 이룬 후 각 층에서 랜덤 추출

 

측정방법

  • 명목척도 : 분류(숫자로 바꿔도 의미 없음)
  • 순서척도 : 서열관계(양적 비교 불가)
  • 구간척도 : 측정된 양을 의미있는 구간으로 구간화, 원점 없음
  • 비율척도 : 간격에 대한 비율이 의미를 가지는 자료, 사칙연산 가능

 

통계분석

  • 기술 통계 : 주관이 섞일 수 있는 과정 배제

  • 추측 통계 : 표본으로부터 모집단에 관한 정보를 얻고 도출하는 과정

    • 추정 : 모수를 분석하여 모집단 추론
    • 가설검정 : 가설 설정 후 책택 여부 결정

 

확률

표본 공간에서 어떤 사건이 발생하는 비율
 

  • 확률 변수 : 특정값이 나타날 가능성이 확률적으로 주어지는 변수
  • 확률 변수 구분 : 이산형 확률 변수, 연속형 확률 변수
  • 확률 변수 X의 기대값 E(X) = xf(x) 누적합
  • 확률 변수 X의 k차 적률 E(Xk) = xkf(x) 누적합
  • 확률 변수 X의 k차 중심적률 E[(X-μ)k] = (x-μ)kf(x) 누적합
  • 모분산 σ2 = 2차 중심적률 = 2차 적률 - (1차 적률)2

 

  • 덧셈정리(배반사건이 아닐 때) : P(A∪B) = P(A) + P(B) - P(A∩B), P(A|B) = P(A∩B) / P(B)
  • 덧셈정리(배반사건일 때) : P(A∪B) = P(A) + P(B)
  • 곱셈정리 : 사건 A와 B가 서로 무관할 때 P(A∩B) = P(A) * P(B), P(A|B) = P(A)

 

확률분포

  • 이산형 확률분포

    • 베르누이 확률분포 : 결과가 2개만 나오는 경우
    • 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
    • 기하분포 : 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
    • 다항분포 : 이항분포 확장
    • 포아송분포 : 시간과 공간 내에서 발생하는 사건의 발생횟수
  • 연속형 확률분포

    • 균일분포 : 모든 확률변수 X가 균일한 확률을 가지는 확률분포

    • 정규분포 : 평균이 μ이고, 표준편차가 σ인 x의 확률밀도함수

    • 지수분포 : 어떤 사건이 발생할 때까지 경과 시간

    • t-분포 : 두 집단의 평균이 동일한지 알고자 할 때 활용

      • 정규분포보다 퍼져있고 자유도가 커질수록 정규분포
    • x2-분포 : 두 집단의 동질성 검정에 활용

      • 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정
    • F-분포 : 두 집단의 분산이 동일한지 알고자 할 때 활용

      • 2개의 자유도, 자유도가 커질수록 정규분포

 

추정

표본으로부터 미지의 모수 추측

  • 점추정 : 모수가 특정한 값이라고 추정하는 것
  • 구간추정 : 모수가 특정한 구간에 있을 것이라고 선언

 

점추정의 조건

  • 불편성 : 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없다.
  • 효율성 : 추정량의 분산이 작을수록 좋다.
  • 일치성(비편향성) : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다.
  • 충족성 : 추정량은 모수에 대하여 모든 정보 제공

 

추정방법

  • 적률법 : 표본의 기댓값을 통해 모수 추정
  • 최대가능도추정법 : 기대함수의 기울기가 0인 지점
  • 최소제곱법 : 측정값의 제곱의 합이 최소인 함수

 

가설검정

  • 정의 : 표본을 통해 귀무가설과 대립가설 중 하나를 선택하는 과정
  • 귀무가설 : 동일하다 개념
  • 대립가설 : 증거가 있을 때 주장
  • 유의수준 : 귀무가설을 기각하게 되는 확률의 크기
  • 제1종 오류 : 귀무가설이 옳은데 귀무가설을 기각하게 되는 오류

 

비모수 검정

  • 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정 실시
  • 특정분포를 따른다고 가정할 수 없는 경우 이용
  • 분포의 형태에 대한 설정
  • 관측값의 절대적인 크기에 의존하지 않음.(표본평균, 표본분산 사용 X)

 

2절 기초 통계분석

중심위치

  • 표본평균
  • 중앙값

 

산포

  • 분산
  • 표준편차
  • 사분위수
  • 평균의 표준오차

 

분포형태

  • 왜도
  • 첨도

 

그래프

  • 히스토그램
  • 막대그래프
  • 줄기-잎 그림
  • 상자그림

 

인과관계

  • 종속변수
  • 독립변수
  • 산점도
  • 공분산 : 두 확률변수의 방향성, 서로 독립이면 0

 

상관분석

  • 상관계수를 이용하여 두 변수 간의 관계 정도 분석

  • 유형

    • 피어슨 : 등간척도, 연속형 변수, 선형적인 크기만 측정
    • 스피어만 : 서열척도, 순서형 변수, 비선형적인 관계도 표현 가능

 

3절 회귀분석

하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
 

변수

  • 영향을 받는 변수(y) : 반응변수, 종속변수, 결과변수
  • 영향을 주는 변수(x) : 설명변수, 독립변수, 예측변수

 

선형회기분석의 가정

  • 선형성 : 입력변수와 출력변수의 관계가 선형

  • 등분산성 : 오차의 분산이 일정

  • 독립성 : 입력변수와 오차는 무관

  • 비상관성 : 오차 간 무관

  • 정상성(정규성) : 오차의 분포가 정규분포

    • Q-Q Plot 출력 시 잔차(기울기)가 대각방향 직선

 

가정에 대한 검증

  • 단순선형회귀분석 : 입력변수와 출력변수 간의 선형성을 점검하기 위해 산점도 확인
  • 다중선형회귀분석 : 선형회귀분석의 가정을 모두 만족하는지 확인

 

회귀분석 종류

  • 단순선형회귀 : 하나의 독립변수가 종속변수에 미치는 영향 추정
  • 다중선형회귀 : 통계적 유의성은 F 통계량으로 확인
  • 로지스틱회귀 : 종속변수가 범주형
  • 다항회귀
  • 곡선회귀
  • 비선형회귀

 

검토사항

  • 회귀계수 유의성 : 회귀계수의 t통계량의 p-값이 0.05(유의수준) 미만
  • 모형 설명력 : 결정계수 확인(결정 계수가 높을 수록 높은 설명력)
  • 데이터 적합 : 잔차 통계량, 회귀진단

 

회귀계수의 추정

  • 최소제곱법
  • 회귀계수가 0이면 입력 변수와 출력 변수 인과관계 없음.

 

결정계수

  • 결정계수(R2) = SSR/SST

    • 전체제곱합(SST)
    • 회귀제곱합(SSR)
    • 오차제곱합(SSE) = SST - SSR
  • 회귀직선의 적합도 검토

  • 독립변수 수가 많아지면 결정계수가 높아지므로 수정된 결정계수 활용

 

최적회귀방정식

  • 단계적 변수선택

    • 전진선택법 : 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
    • 후진제거법 : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거
    • 단계선택법 : 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당 변수 제거
  • 벌점화된 선택기준

    • AIC 또는 BIC가 최소가 되는 모형 선택

 

4절 시계열 분석

시계열 자료

  • 정의 : 시간의 흐름에 따라 관찰된 값들

  • 종류

    • 비정상성 시계열 자료
    • 정상성 시계열 자료

 

정상성 조건

  • 평균 일정 : 차분을 통해 정상화
  • 분산 일정 : 변환을 통해 정상화
  • 공분산이 시차에만 의존(시점에 의존 X)

 

정상 시계열 특징

  • 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 같는 자기공분산을 측정하더라도 동일한 값
  • 평균값으로 회귀하려는 경향
  • 평균값 주변에서의 변동 폭 일정

 

시계열 자료 분석방법

  • 이동평균법

    • 개념 : 일정기간별 이동평균을 계산하고, 다음 기간을 예측
    • 특징 : 뚜렷한 추세가 있거나 불규칙변동이 심하지 않은 경우 짧은 기간, 반대는 긴 기간 평균 사용
  • 지수평활법

    • 개념 : 모든 시계열 자료를 사용하며, 최근 시계열에 더 많은 가중치를 부여하여 미래 예측

    • 특징

      • 단기간에 발생하는 불규칙변동을 평활하는 방법
      • 지수평활계수는 불규칙변동이 큰 경우 작은값, 불규칙변동이 작은 경우 큰 값 적용
      • 중기 예측 이상에 주로 사용(장기추세나 계절변동 포함 시 부적합)

 

시계열 모형

  • 자기회귀 모형(AR 모형) : p 시점 전의 자료가 현재 자료에 영향을 주는 모형

  • 이동평균 모형(MA 모형) : 유한 개의 백색잡음의 결합으로 항상 정상성

  • 자기회귀누적이동평균 모형(ARIMA(p, d, q) 모형) : 차분이나 변환을 통해 AR 모형이나 MA 모형, 또는 ARMA 모형으로 정상화

  • 분해 시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리하여 분석

    • 경향(추세)요인 : 추세
    • 계절요인 : 고정된 주기
    • 순환요인 : 알려지지 않은 주기
    • 불규칙요인 : 그 외

 

5절 다차원척도법

  • 객체간 근접성을 시각화
  • 데이터 축소 목적
  • 유클리드 거리행렬 활용
  • 적합도를 스트레스 값으로 표현

 

다차원척도법 종류

  • 계량적 MDS : 데이터가 구간척도나 비율척도인 경우 활용
  • 비계량적 MDS : 데이터가 순서척도인 경우 활용

 

6절 주성분 분석

변수 간 상관 관계, 연관성을 이용해 소수의 주성분으로 차원 축소
 

주성분 선택법

  • 상관 행렬을 이용한 누적기여율
  • scree plot을 활용하여 고유값 수평 유지 전단계
반응형

+ Recent posts