Processing math: 100%
본문 바로가기

자격증/사회조사분석사(2급)

[방디] 사회조사분석사(2급) 필기 - 사회통계 - 분산분석/회귀분석

728x90

안녕하세요. 방디입니다.

 

이번 글은 사회조사분석사 2급 필기의 마지막, 사회통계의 [분산분석]과 [회귀분석]을 다룰 차례입니다.

 

이전 글에서도 언급했듯이 사회통계는 저 스스로 이해가 많이 어려웠던 과목이고, 특히 회귀분석 쪽은 잘 이해하지 못한 상태에서 시험을 보고 왔기 때문에... 아무래도 내용이 많이 미숙할 듯 싶습니다.

사회조사분석사 필기내용의 마무리를 위해 지금까지 학습한 내용을 우선 안내드리지만, 차후 부족한 부분은 보완하여 수정하도록 하겠습니다. 혹 미숙한 부분을 댓글로 알려주시면 최대한 반영할테니 도움 부탁드립니다.

 

그럼 시작하겠습니다.

 

 


사회통계

분산분석

분산분석의 개념

1. 분산분석의 기본가정

. 분산분석의 배경

- 3개 이상 집단의 평균을 비교할 경우 사용

- 단순히 z-test 또는 t-test3번 이상 할 경우 α값의 오류가 발생

- 그 해결책으로 분산분석을 사용 (ANOVA, Analysis of Variance)

 

. 분산분석의 특징

- 집단간 평균의 차이를 비교하여 통계적으로 유의미한지를 검정

귀무가설: μ1=μ2==μi

대립가설: 적어도 한 개 이상의 평균은 다른 평균들과 상이

- 집단간 분산과 집단내 분산 두 개를 이용하여 F-test로 검정

 

. 분산분석의 전개 과정

- F-test의 값은 두 개의 평균이 필요

  1) 집단 내 평균, 2) 전체 평균

- F 값은 두 분산의 비율

  1) 집단간분산(B.V, Between Variance)

  - 전체 평균에서 각 집단의 평균까지의 분산

  - 집단간분산이 크다는 것은 적어도 하나의 평균은 다른 집단의 평균과 다르다는 것을 의미

  2) 집단내분산(W.V, Within Variance)

  - 각 집단 내 분산의 합

  - 집단간분산이 어떤 통계적 의미를 지니는지 비교하기 위한 값

 

. 분산분석 공식

- F= (BetweenVariance)(WithinVariance)

- 집단간분산(B.V) = (SSB)1(D.F1)

SSB=1(1)2++n(n)2

DF1=k()1

- 집단내분산(W.V) = (SSW)2(D.F2)

SSW=(111)2+(112)2(nnm)2

DF2=n()k(

 

. 분산분석표(ANOVA table)

 

SS

D.F

MS

F-value

집단간(Between)

SSB

DF1(k1)

B.V(SSB/DF1)

B.V/W.V

집단내(Within)

SSW

DF2(nk)

W.V(SSW/DF2)

 

총계

SSB+SSW

DF1+DF2

 

 

 


회귀분석

 

회귀분석의 개념

- 회귀: 어디로 되돌아간다는 의미

- 회귀분석의 목적

    주어진 데이터의 독립 변수로 종속 변수를 예측

    단순회귀: 하나의 독립변수와 하나의 종속변수 사이의 관계를 분석

    다중회귀: 복수의 독립변수와 하나의 종속변수 사이의 관계를 분석

- 추세선을 예측하는 것을 회귀분석이라 할 수 있음 (y = ax + b)

    가장 오차가 작을 때를 합리적인 추세선이라 할 수 있음

    오차를 합하면 왜곡되기 쉬워 제곱합을 사용

 

 

단순회귀분석

y=β0+β1xβ0,β1 값을 구하는 수식

(yiˆyi)2=(yiβ0β1xi)2가 최소가 되는 β0β1 

최소제곱법을 이용

 

β1=(xiˉx)(yiˉy)(xiˉx)

β0=ˉyβ1ˉx

 

1. 단순회귀분석의 검정

(xi,yi),(xi,ˉy): 실제 데이터

(xi,ˆyi): 회귀 추정에 의한 데이터

yiˉy: 평균 중심 데이터 산포

yiˆyi: 잔차 (의미 없음)

ˆyiˉy: 회귀의 결과 (의미 있음)

(yiˉy)2=(ˆyiˉy)2+(yiˆyi)2 (SST = SSR + SSE)

 

SS

d.f

MS

F-Stat

모형

(Reg.Model)

SSR

1

SSR/1

Fm = MSR/MSE

오차

(Residual, Error)

SSE

n-2

SSE/n-2

 

전체(Total)

SST

n-1

 

 

A. H0:β1=0/H1:β10(ˆy=β0+β1x)

B. Fm=MSR/MSEF(α;1,n2)이면 H0을 기각

 

- 결정계수(R2) 계산

회귀식이 전체 자료를 잘 설명하고 있는지 보여주는 측도

총 변동 중 회귀식으로 설명 가능한 변동이 차지하는 비중

0R2=SSRSST1

1에 가까울수록 데이터가 회귀선 부근에 집중

 

 

중회귀분석

 

SS

d.f

MS

F-Stat

모형

(Reg.Model)

SSR

p

SSR/p

Fm = MSR/MSE

오차

(Residual, Error)

SSE

n-p-1

SSE/n-p-1

 

전체(Total)

SST

n-1

 

 

A. H0:β1=β2==βp=0/H1:β0

B. Fm=MSR/MSEF(α;1,np1)이면 H0을 기각

 

 

상관분석

1. 상관계수의 의미

. 상관관계의 정의

- 서로 다른 두 개의 변수가 가지는 (선형) 연관성의 정도

- 특이값이 있을 경우 측정이 부정확할 수 있음

- 피어슨 상관계수로 계산되며 척도가 등간 또는 비율 척도여야 함

피어슨 상관계수는 1부터 1까지의 범위를 가짐

. 상관계수의 정의

- 두 변수 간 상관관계의 정도를 나타내는 수치

 

2. 상관계수의 검정

. 상관계수의 계산

- 두 변수 XY에 대하여 각각 n개의 표본이 주어졌을 때, 공분산을 먼저 계산

  COV(X,Y)=E(XY)E(X)E(Y)

- 공분산을 개별 변수의 표준 편차로 나누어 계산

  corr(X,Y)=COV(X,Y)σxσy

- 상관 계수의 범위는 1에서 1 사이

 

 

 

범주형 자료의 분석

1. 범주형 자료

- 명목 척도로 구분한 자료

- 측정 결과는 어떤 범주에 따른 도수 형태

- 평균값은 의미 없음

 

2. 범주형 자료의 분석 종류

. 적합도 검정 (범주 1)

- 범주에 따른 빈도수와 기대 도수를 비교

. 독립성 검정 (범주 2)

- 두 요인 간 관계가 있는지 검정

. 동일성 검정

- 몇 개의 모집단이 분석하고자 하는 문제의 특성에 대해 동일성을 검정

 

3. 범주형 자료 분석 방법

- 카이제곱(x2) 검정 통계량

모든 기대 도수가 5 이상이면 정규분포화 가능

 

. 적합도 검정

- 자료의 구조

  k번째 확률 Pi가 가정된 πi와 같은지 검정

- 적합도 검정 가설

  H0:P1=π1,P2=π2,,Pk=πk

  H1: 적어도 한 개 이상은 가정된 확률과 같지 않음

- 기대 도수 계산: Ek=n×πk

- 검정 통계량 계산: x2=OiE2iEix2(k1)  k = 범주의 개수

. 독립성 검정

- 자료의 구조: r X c 교차표

- 적합도 검정 가설

H0: 두 변수는 서로 연관되어 있다.

H1: 두 변수는 서로 연관되어 있지 않다.

- 기대 도수 계산: Eij=Oi×Ojn

- 검정 통계량 계산: x2=(OijEij)2Eijx2(r1)(c1)

. 동일성 검정

- 적합도 검정 가설

H0: 각 집단은 B범주에 대해 동일한 비율을 갖는다

H1: 각 집단은 B범주에 대해 동일한 비율을 갖지 않는다

- 기대 도수 계산: Eij=Oi×Ojn

- 검정 통계량 계산: x2=(OijEij)2Eijx2(r1)(c1)

728x90