안녕하세요. 방디입니다.
이번 글은 사회조사분석사 2급 필기의 마지막, 사회통계의 [분산분석]과 [회귀분석]을 다룰 차례입니다.
이전 글에서도 언급했듯이 사회통계는 저 스스로 이해가 많이 어려웠던 과목이고, 특히 회귀분석 쪽은 잘 이해하지 못한 상태에서 시험을 보고 왔기 때문에... 아무래도 내용이 많이 미숙할 듯 싶습니다.
사회조사분석사 필기내용의 마무리를 위해 지금까지 학습한 내용을 우선 안내드리지만, 차후 부족한 부분은 보완하여 수정하도록 하겠습니다. 혹 미숙한 부분을 댓글로 알려주시면 최대한 반영할테니 도움 부탁드립니다.
그럼 시작하겠습니다.
사회통계
분산분석
분산분석의 개념
1. 분산분석의 기본가정
가. 분산분석의 배경
- 3개 이상 집단의 평균을 비교할 경우 사용
- 단순히 z-test 또는 t-test를 3번 이상 할 경우 α값의 오류가 발생
- 그 해결책으로 분산분석을 사용 (ANOVA, Analysis of Variance)
나. 분산분석의 특징
- 집단간 평균의 차이를 비교하여 통계적으로 유의미한지를 검정
귀무가설: μ1=μ2=⋅⋅⋅=μi
대립가설: 적어도 한 개 이상의 평균은 다른 평균들과 상이
- 집단간 분산과 집단내 분산 두 개를 이용하여 F-test로 검정
다. 분산분석의 전개 과정
- F-test의 값은 두 개의 평균이 필요
1) 집단 내 평균, 2) 전체 평균
- F 값은 두 분산의 비율
1) 집단간분산(B.V, Between Variance)
- 전체 평균에서 각 집단의 평균까지의 분산
- 집단간분산이 크다는 것은 적어도 하나의 평균은 다른 집단의 평균과 다르다는 것을 의미
2) 집단내분산(W.V, Within Variance)
- 각 집단 내 분산의 합
- 집단간분산이 어떤 통계적 의미를 지니는지 비교하기 위한 값
라. 분산분석 공식
- F값 = 집단간분산(BetweenVariance)집단내분산(WithinVariance)
- 집단간분산(B.V) = 각집단간분산의합(SSB)자유도1(D.F1)
SSB=집단1표본수(전체평균−집단1평균)2+⋅⋅⋅+집단n표본수(전체평균−집단n평균)2
DF1=k(집단개수)−1
- 집단내분산(W.V) = 각집단내분산의합(SSW)자유도2(D.F2)
SSW=(집단1평균−집단1표본1)2+(집단1평균−집단1표본2)2⋅⋅⋅(집단n평균−집단n표본m)2
DF2=n(총표본개수)−k(집단개수
마. 분산분석표(ANOVA table)
|
SS |
D.F |
MS |
F-value |
집단간(Between) |
SSB |
DF1(k−1) |
B.V(SSB/DF1) |
B.V/W.V |
집단내(Within) |
SSW |
DF2(n−k) |
W.V(SSW/DF−2) |
|
총계 |
SSB+SSW |
DF1+DF2 |
|
|
회귀분석
회귀분석의 개념
- 회귀: 어디로 되돌아간다는 의미
- 회귀분석의 목적
주어진 데이터의 독립 변수로 종속 변수를 예측
단순회귀: 하나의 독립변수와 하나의 종속변수 사이의 관계를 분석
다중회귀: 복수의 독립변수와 하나의 종속변수 사이의 관계를 분석
- 추세선을 예측하는 것을 회귀분석이라 할 수 있음 (y = ax + b)
가장 오차가 작을 때를 합리적인 추세선이라 할 수 있음
오차를 합하면 왜곡되기 쉬워 제곱합을 사용
단순회귀분석
y=β0+β1x의 β0,β1 값을 구하는 수식
∑(yi−ˆyi)2=∑(yi−β0−β1xi)2가 최소가 되는 β0과 β1 값
최소제곱법을 이용
β1=∑(xi−ˉx)(yi−ˉy)∑(xi−ˉx)
β0=ˉy−β1ˉx
1. 단순회귀분석의 검정
(xi,yi),(xi,ˉy): 실제 데이터
(xi,ˆyi): 회귀 추정에 의한 데이터
yi−ˉy: 평균 중심 데이터 산포
yi−ˆyi: 잔차 (의미 없음)
ˆyi−ˉy: 회귀의 결과 (의미 있음)
∑(yi−ˉy)2=∑(ˆyi−ˉy)2+∑(yi−ˆyi)2 (SST = SSR + SSE)
|
SS |
d.f |
MS |
F-Stat |
모형 (Reg.Model) |
SSR |
1 |
SSR/1 |
Fm = MSR/MSE |
오차 (Residual, Error) |
SSE |
n-2 |
SSE/n-2 |
|
전체(Total) |
SST |
n-1 |
|
|
A. H0:β1=0/H1:β1≠0(ˆy=β0+β1x)
B. Fm=MSR/MSE≥F(α;1,n−2)이면 H0을 기각
- 결정계수(R2) 계산
회귀식이 전체 자료를 잘 설명하고 있는지 보여주는 측도
총 변동 중 회귀식으로 설명 가능한 변동이 차지하는 비중
0≤R2=SSRSST≤1
1에 가까울수록 데이터가 회귀선 부근에 집중
중회귀분석
|
SS |
d.f |
MS |
F-Stat |
모형 (Reg.Model) |
SSR |
p |
SSR/p |
Fm = MSR/MSE |
오차 (Residual, Error) |
SSE |
n-p-1 |
SSE/n-p-1 |
|
전체(Total) |
SST |
n-1 |
|
|
A. H0:β1=β2=⋅⋅⋅=βp=0/H1:최소한한개이상의β는0이아니다
B. Fm=MSR/MSE≥F(α;1,n−p−1)이면 H0을 기각
상관분석
1. 상관계수의 의미
가. 상관관계의 정의
- 서로 다른 두 개의 변수가 가지는 (선형) 연관성의 정도
- 특이값이 있을 경우 측정이 부정확할 수 있음
- 피어슨 상관계수로 계산되며 척도가 등간 또는 비율 척도여야 함
※ 피어슨 상관계수는 –1부터 1까지의 범위를 가짐
나. 상관계수의 정의
- 두 변수 간 상관관계의 정도를 나타내는 수치
2. 상관계수의 검정
가. 상관계수의 계산
- 두 변수 X와 Y에 대하여 각각 n개의 표본이 주어졌을 때, 공분산을 먼저 계산
COV(X,Y)=E(XY)−E(X)⋅E(Y)
- 공분산을 개별 변수의 표준 편차로 나누어 계산
corr(X,Y)=COV(X,Y)σx⋅σy
- 상관 계수의 범위는 –1에서 1 사이
범주형 자료의 분석
1. 범주형 자료
- 명목 척도로 구분한 자료
- 측정 결과는 어떤 범주에 따른 도수 형태
- 평균값은 의미 없음
2. 범주형 자료의 분석 종류
가. 적합도 검정 (범주 1개)
- 범주에 따른 빈도수와 기대 도수를 비교
나. 독립성 검정 (범주 2개)
- 두 요인 간 관계가 있는지 검정
다. 동일성 검정
- 몇 개의 모집단이 분석하고자 하는 문제의 특성에 대해 동일성을 검정
3. 범주형 자료 분석 방법
- 카이제곱(x2) 검정 통계량
모든 기대 도수가 5 이상이면 정규분포화 가능
가. 적합도 검정
- 자료의 구조
k번째 확률 Pi가 가정된 πi와 같은지 검정
- 적합도 검정 가설
H0:P1=π1,P2=π2,⋅⋅⋅,Pk=πk
H1: 적어도 한 개 이상은 가정된 확률과 같지 않음
- 기대 도수 계산: Ek=n×πk
- 검정 통계량 계산: x2=∑Oi−E2iEi∼x2(k−1) ※ k = 범주의 개수
나. 독립성 검정
- 자료의 구조: r X c 교차표
- 적합도 검정 가설
H0: 두 변수는 서로 연관되어 있다.
H1: 두 변수는 서로 연관되어 있지 않다.
- 기대 도수 계산: Eij=Oi×Ojn
- 검정 통계량 계산: x2=∑(Oij−Eij)2Eij∼x2(r−1)(c−1)
다. 동일성 검정
- 적합도 검정 가설
H0: 각 집단은 B범주에 대해 동일한 비율을 갖는다
H1: 각 집단은 B범주에 대해 동일한 비율을 갖지 않는다
- 기대 도수 계산: Eij=Oi×Ojn
- 검정 통계량 계산: x2=∑(Oij−Eij)2Eij∼x2(r−1)(c−1)
'자격증 > 사회조사분석사(2급)' 카테고리의 다른 글
[방디] 사회조사분석사(2급) 실기 출제기준 안내 (2020.01.01. ~ 2023.12.31. 적용) (0) | 2021.03.11 |
---|---|
[방디] 사회조사분석사(2급) 필기 - 사회통계 - 추정/가설검정 (0) | 2021.03.07 |
[방디] 사회조사분석사(2급) 필기 - 사회통계 - 기초통계량/확률이론 및 확률분포 (0) | 2021.03.04 |
[방디] 사회조사분석사(2급) 필기 - 조사방법론 II - 표본 설계 (0) | 2021.02.22 |
[방디] 사회조사분석사(2급) 필기 - 조사방법론 II - 측정의 타당성과 신뢰성 (0) | 2021.02.20 |