3과목 데이터 분석
4장 통계분석
1절 통계분석의 이해
통계자료 획득 방법
- 전수조사
- 표본조사
표본 추출 방법
- 단순랜덤 추출법 : 복원/비복원 추출
- 계통추출법 : 샘플 나열 후 동일 간격으로 나눈 후 각 구간 마지막 항목 추출
- 집락추출법 : 군집 구분 후 군집별 단순랜덤 추출법 수행
- 층화추출법 : 유사한 원소끼리 층을 이룬 후 각 층에서 랜덤 추출
측정방법
- 명목척도 : 분류(숫자로 바꿔도 의미 없음)
- 순서척도 : 서열관계(양적 비교 불가)
- 구간척도 : 측정된 양을 의미있는 구간으로 구간화, 원점 없음
- 비율척도 : 간격에 대한 비율이 의미를 가지는 자료, 사칙연산 가능
통계분석
기술 통계 : 주관이 섞일 수 있는 과정 배제
추측 통계 : 표본으로부터 모집단에 관한 정보를 얻고 도출하는 과정
- 추정 : 모수를 분석하여 모집단 추론
- 가설검정 : 가설 설정 후 책택 여부 결정
확률
표본 공간에서 어떤 사건이 발생하는 비율
- 확률 변수 : 특정값이 나타날 가능성이 확률적으로 주어지는 변수
- 확률 변수 구분 : 이산형 확률 변수, 연속형 확률 변수
- 확률 변수 X의 기대값 E(X) = xf(x) 누적합
- 확률 변수 X의 k차 적률 E(Xk) = xkf(x) 누적합
- 확률 변수 X의 k차 중심적률 E[(X-μ)k] = (x-μ)kf(x) 누적합
- 모분산 σ2 = 2차 중심적률 = 2차 적률 - (1차 적률)2
- 덧셈정리(배반사건이 아닐 때) : P(A∪B) = P(A) + P(B) - P(A∩B), P(A|B) = P(A∩B) / P(B)
- 덧셈정리(배반사건일 때) : P(A∪B) = P(A) + P(B)
- 곱셈정리 : 사건 A와 B가 서로 무관할 때 P(A∩B) = P(A) * P(B), P(A|B) = P(A)
확률분포
이산형 확률분포
- 베르누이 확률분포 : 결과가 2개만 나오는 경우
- 이항분포 : 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
- 기하분포 : 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률
- 다항분포 : 이항분포 확장
- 포아송분포 : 시간과 공간 내에서 발생하는 사건의 발생횟수
연속형 확률분포
균일분포 : 모든 확률변수 X가 균일한 확률을 가지는 확률분포
정규분포 : 평균이 μ이고, 표준편차가 σ인 x의 확률밀도함수
지수분포 : 어떤 사건이 발생할 때까지 경과 시간
t-분포 : 두 집단의 평균이 동일한지 알고자 할 때 활용
- 정규분포보다 퍼져있고 자유도가 커질수록 정규분포
x2-분포 : 두 집단의 동질성 검정에 활용
- 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정
F-분포 : 두 집단의 분산이 동일한지 알고자 할 때 활용
- 2개의 자유도, 자유도가 커질수록 정규분포
추정
표본으로부터 미지의 모수 추측
- 점추정 : 모수가 특정한 값이라고 추정하는 것
- 구간추정 : 모수가 특정한 구간에 있을 것이라고 선언
점추정의 조건
- 불편성 : 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 차이가 없다.
- 효율성 : 추정량의 분산이 작을수록 좋다.
- 일치성(비편향성) : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다.
- 충족성 : 추정량은 모수에 대하여 모든 정보 제공
추정방법
- 적률법 : 표본의 기댓값을 통해 모수 추정
- 최대가능도추정법 : 기대함수의 기울기가 0인 지점
- 최소제곱법 : 측정값의 제곱의 합이 최소인 함수
가설검정
- 정의 : 표본을 통해 귀무가설과 대립가설 중 하나를 선택하는 과정
- 귀무가설 : 동일하다 개념
- 대립가설 : 증거가 있을 때 주장
- 유의수준 : 귀무가설을 기각하게 되는 확률의 크기
- 제1종 오류 : 귀무가설이 옳은데 귀무가설을 기각하게 되는 오류
비모수 검정
- 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정 실시
- 특정분포를 따른다고 가정할 수 없는 경우 이용
- 분포의 형태에 대한 설정
- 관측값의 절대적인 크기에 의존하지 않음.(표본평균, 표본분산 사용 X)
2절 기초 통계분석
중심위치
- 표본평균
- 중앙값
산포
- 분산
- 표준편차
- 사분위수
- 평균의 표준오차
분포형태
- 왜도
- 첨도
그래프
- 히스토그램
- 막대그래프
- 줄기-잎 그림
- 상자그림
인과관계
- 종속변수
- 독립변수
- 산점도
- 공분산 : 두 확률변수의 방향성, 서로 독립이면 0
상관분석
상관계수를 이용하여 두 변수 간의 관계 정도 분석
유형
- 피어슨 : 등간척도, 연속형 변수, 선형적인 크기만 측정
- 스피어만 : 서열척도, 순서형 변수, 비선형적인 관계도 표현 가능
3절 회귀분석
하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
변수
- 영향을 받는 변수(y) : 반응변수, 종속변수, 결과변수
- 영향을 주는 변수(x) : 설명변수, 독립변수, 예측변수
선형회기분석의 가정
선형성 : 입력변수와 출력변수의 관계가 선형
등분산성 : 오차의 분산이 일정
독립성 : 입력변수와 오차는 무관
비상관성 : 오차 간 무관
정상성(정규성) : 오차의 분포가 정규분포
- Q-Q Plot 출력 시 잔차(기울기)가 대각방향 직선
가정에 대한 검증
- 단순선형회귀분석 : 입력변수와 출력변수 간의 선형성을 점검하기 위해 산점도 확인
- 다중선형회귀분석 : 선형회귀분석의 가정을 모두 만족하는지 확인
회귀분석 종류
- 단순선형회귀 : 하나의 독립변수가 종속변수에 미치는 영향 추정
- 다중선형회귀 : 통계적 유의성은 F 통계량으로 확인
- 로지스틱회귀 : 종속변수가 범주형
- 다항회귀
- 곡선회귀
- 비선형회귀
검토사항
- 회귀계수 유의성 : 회귀계수의 t통계량의 p-값이 0.05(유의수준) 미만
- 모형 설명력 : 결정계수 확인(결정 계수가 높을 수록 높은 설명력)
- 데이터 적합 : 잔차 통계량, 회귀진단
회귀계수의 추정
- 최소제곱법
- 회귀계수가 0이면 입력 변수와 출력 변수 인과관계 없음.
결정계수
결정계수(R2) = SSR/SST
- 전체제곱합(SST)
- 회귀제곱합(SSR)
- 오차제곱합(SSE) = SST - SSR
회귀직선의 적합도 검토
독립변수 수가 많아지면 결정계수가 높아지므로 수정된 결정계수 활용
최적회귀방정식
단계적 변수선택
- 전진선택법 : 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
- 후진제거법 : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거
- 단계선택법 : 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당 변수 제거
벌점화된 선택기준
- AIC 또는 BIC가 최소가 되는 모형 선택
4절 시계열 분석
시계열 자료
정의 : 시간의 흐름에 따라 관찰된 값들
종류
- 비정상성 시계열 자료
- 정상성 시계열 자료
정상성 조건
- 평균 일정 : 차분을 통해 정상화
- 분산 일정 : 변환을 통해 정상화
- 공분산이 시차에만 의존(시점에 의존 X)
정상 시계열 특징
- 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 같는 자기공분산을 측정하더라도 동일한 값
- 평균값으로 회귀하려는 경향
- 평균값 주변에서의 변동 폭 일정
시계열 자료 분석방법
이동평균법
- 개념 : 일정기간별 이동평균을 계산하고, 다음 기간을 예측
- 특징 : 뚜렷한 추세가 있거나 불규칙변동이 심하지 않은 경우 짧은 기간, 반대는 긴 기간 평균 사용
지수평활법
개념 : 모든 시계열 자료를 사용하며, 최근 시계열에 더 많은 가중치를 부여하여 미래 예측
특징
- 단기간에 발생하는 불규칙변동을 평활하는 방법
- 지수평활계수는 불규칙변동이 큰 경우 작은값, 불규칙변동이 작은 경우 큰 값 적용
- 중기 예측 이상에 주로 사용(장기추세나 계절변동 포함 시 부적합)
시계열 모형
자기회귀 모형(AR 모형) : p 시점 전의 자료가 현재 자료에 영향을 주는 모형
이동평균 모형(MA 모형) : 유한 개의 백색잡음의 결합으로 항상 정상성
자기회귀누적이동평균 모형(ARIMA(p, d, q) 모형) : 차분이나 변환을 통해 AR 모형이나 MA 모형, 또는 ARMA 모형으로 정상화
분해 시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리하여 분석
- 경향(추세)요인 : 추세
- 계절요인 : 고정된 주기
- 순환요인 : 알려지지 않은 주기
- 불규칙요인 : 그 외
5절 다차원척도법
- 객체간 근접성을 시각화
- 데이터 축소 목적
- 유클리드 거리행렬 활용
- 적합도를 스트레스 값으로 표현
다차원척도법 종류
- 계량적 MDS : 데이터가 구간척도나 비율척도인 경우 활용
- 비계량적 MDS : 데이터가 순서척도인 경우 활용
6절 주성분 분석
변수 간 상관 관계, 연관성을 이용해 소수의 주성분으로 차원 축소
주성분 선택법
- 상관 행렬을 이용한 누적기여율
- scree plot을 활용하여 고유값 수평 유지 전단계
'자격증 > ADsP' 카테고리의 다른 글
ADsP 40회 합격 후기 및 준비 과정 (0) | 2024.03.30 |
---|---|
3과목 데이터 분석 - 5장. 정형 데이터 마이닝 (1) | 2024.02.19 |
3과목 데이터 분석 - 3장. 데이터 마트 (0) | 2024.02.09 |
3과목 데이터 분석 - 1장. 데이터 분석 개요 (1) | 2024.02.09 |
2과목 데이터 분석 기획 - 2장. 분석 마스터 플랜 (0) | 2024.01.28 |