본문 바로가기

자격증/사회조사분석사(2급)

[방디] 사회조사분석사(2급) 필기 - 사회통계 - 추정/가설검정

728x90

안녕하세요. 방디입니다.

 

오늘 드디어 사회조사분석사 2급 필기시험을 치르고 왔습니다. 역시나 사회통계 과목이 많이 어려웠던지라 모르는 문제들도 열심히 찍고 왔는데... 가채점을 해보니 다행히 사회통계도 60점 정도 받아서 무난히 통과할 것 같습니다.

 

아무래도 사회통계는 저도 이해가 많이 어렵다보니, 제공해드리는 자료가 많이 미숙할 것 같습니다. 안내를 중간에 끝내는 것은 좋지 않을 듯 해서 제가 학습한 자료를 똑같이 올려드리지만, 혹시라도 제가 미숙한 부분이 있다면 언제든 댓글로 가르침 주시면 감사하겠습니다.

 

그럼 오늘은 사회통계 과목의 [추정] 그리고 [가설검정] 부분을 안내드리겠습니다.

 


사회통계

추정

추정의 목적

1. 추정의 목적

- 모집단의 일부(표본)를 추출하고 이를 통해 모집단의 특성을 파악하는 것

 

2. 올바른 추정량의 결정요인

- 추정량의 불편성: 모수 = 표본 특성

- 추정량의 효율성: 분산이 낮을수록 효율성이 높음

- 추정량의 일치성: 표본의 크기가 커질수록 모수값에 수렴

- 추정량의 충분성: 추정량을 사용하여 모수에 대한 모든 정보를 얻음

 

점추정

- 모집단의 모수를 하나의 숫자로 표현하여 추정

- 표본 오차로 인해 모수와 차이가 있으며, 불확실성 정도를 수치화하기 어려움

 

구간추정

- 점추정의 경우 오차가 생길 수 있어, 점추정값 근처에 모수값이 있을 것이라 추정

- 모수값의 구간으로 제시한 구간을 신뢰구간이라 함

- 신뢰구간: 점추정량 ± 오차한계 ($z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$)

- 신뢰수준(신뢰도): 1 - α (α = 0.01 / 0.05 / 0.1 )

- $Z_{\alpha/2}=\frac{X-\mu}{\sigma/\sqrt{n}}=\frac{X-\mu}{\sigma}\cdot\sqrt{n}$

 

1. 표본크기의 결정

. 표본크기의 결정

- 신뢰수준, 오차한계를 만족하기 위한 표본의 크기를 결정

- 표본의 크기는 오차한계와 관계가 깊음 (오차한계 $d=z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$)

- 같은 신뢰수준 하에서 오차한계가 작을수록 명확한 의사결정이 가능

. 표본 수 계산 공식

- 모집단(표본집안)의 표본 크기 결정 공식

- $d=z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$

- $n=\frac{z^{2}\cdot\sigma^{2}}{d^{2}}$

 

비율 추정 시 표본 크기 결정 공식

- $d=z_{\alpha/2}\cdot\sqrt{\frac{pq}{n}}$

- $n=\frac{z^{2}\cdot pq}{d^{2}}$

. 표본 크기 결정 요인

- 표본 크기 결정 공식 $n=\frac{z^2\cdot\sigma^2}{d^2}$

- z: 신뢰구간 표본

- σ: 분산 표본

- d: 오차한계 표본

 


가설검정

 

가설검정의 기초

1. 가설검정의 개념

. 가설

- 연구자가 가지는 합리적 추측으로, 검증하고자 하는 부분

- 모수에 대하여 검증 목적으로 설정하는 잠정적인 진술

. 가설검정

- 모집단에서 얻은 표본을 통하여 미지의 모수에 대한 주장의 옳고 그름을 판단하는 과정

- 귀무가설과 대립가설로 구분

. 귀무가설과 대립가설

- 귀무가설($H_0$): 대립가설의 반대주장으로 통계적 검정의 대상이 되는 가설

- 대립가설($H_1$): 연구자가 적극적으로 입증하고자 하는 가설

. 검정 통계량

- 가설 검정에 사용되는 표본의 통계량

- 대부분 모수의 추정량을 기초로 함

. 기각역

- 귀무가설($H_0$)을 기각되게 하는 영역

- 검정 통계량이 기각역에 속하면 $H_0$을 기각하고 $H_1$을 채택

. 유의 수준(α)

- 귀무 가설을 채택하더라도 그 결과가 100% 맞다는 보장은 불가

- 유의수준은 $H_0$이 사실임에도 불구하고 $H_0$을 기각할 확률 (1종 오류)

- 1종 오류를 범할 확률을 낮추기 위하여 신뢰 구간을 넓게 설정

. 유의 확률(p-value)

- 검정 통계량 값을 기각값으로 가정하고 계산된 유의 수준

- p-value < α : 귀무가설($H_0$) 기각

- p-value > α : 귀무가설($H_0$) 채택

 

2. 가설검정 절차

- 귀무가설($H_0$)과 대립가설($H_1$)을 설정

- 가설과 표본의 성질에 따른 분포도를 사용하여 검정 통계량 계산

   z-test, t-test, F-test, $X^2$-test

- 검정 통계량으로부터 p-value를 계산하여 α와 비교

  p-value < α : 귀무가설($H_0$) 기각 (통계적으로 유의미)

  p-value > α : 귀무가설($H_0$) 채택 (통계적으로 무의미)

 

3. 가설검정의 오류

 

귀무가설 사실

대립가설 사실

귀무가설 기각 X

옳은 결정

2종 오류 (β)

귀무가설 기각

1종 오류 (α)

옳은 결정 (1 - β)

 


단일모집단의 가설검정

1. 모평균의 가설검정

- 평균이 μ이고 분산이 $\sigma^2$인 정규분포에서 $X_1$, $X_2$, ……, $X_n$의 표본을 얻은 후 일반적으로 알려진 평균과 상이하다고 여겨질 때 사용

- 분산이 알려진 경우와 알려지지 않은 경우에 따라 검정 통계량 계산이 상이

 

표본크기가 큼

표본크기가 작음

분산이 알려진 경우

ztest

ztest

분산이 알려지지 않은 경우

ztest (s2)

t-test

. 모분산이 알려진 경우: z-test

- 검정통계량: $z=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}$ ~ N(0,1)

- 기각역

H1: μ > $\mu_0$일 경우 $z\geq z_\alpha$

H1: μ < $\mu_0$일 경우 $z\leq z_\alpha$

H1: μ ≠ $\mu_0$일 경우 $\mid z\mid \geq z_\frac{\alpha}{2}$

. 모분산을 모르지만 표본 크기가 큰 경우: z-test

- 검정통계량: $z=\frac{\bar{X}-\mu_0}{s/\sqrt{n}}$ ~ N(0,1)

- 기각역

H1: μ > $\mu_0$일 경우 $z\geq z_\alpha$

H1: μ < $\mu_0$일 경우 $z\leq z_\alpha$

H1: μ ≠ $\mu_0$일 경우 $\mid z\mid \geq z_\frac{\alpha}{2}$

. 모분산을 모르지만 표본 크기가 작은 경우: t-test

- 검정통계량: $z=\frac{\bar{X}-\mu_0}{s/\sqrt{n}}$ ~ t(n-1)

- 기각역

H1: μ > $\mu_0$일 경우 $z\geq t_{\alpha(n-1)}$

H1: μ < $\mu_0$일 경우 $z\leq t_{\alpha(n-1)}$

H1: μ ≠ $\mu_0$일 경우 $\mid z\mid \geq t_\frac{\alpha}{2(n-1)}$

 

2. 모비율의 가설검정

- 검정통계량: $z=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}(\because \hat{p}=\frac{X}{n}\approx N(p_0,\frac{p_0(1-p_0)}{n}))$

- 기각역

H1: p > $p_0$일 경우 $z\geq z_\alpha$

H1: p < $p_0$일 경우 $z\leq z_\alpha$

H1: p ≠ $p_0$일 경우 $\mid z\mid \geq z_\frac{\alpha}{2}$

 

두 모집단의 가설검정

1. 두 모집단평균의 가설검정

- 독립 표본: 독립적인 두 집단간의 평균 차이 검정

- 대응 표본(종속 표본): 상관관계가 있는 두 표본의 평균 차이 검정

- 모집단 X의 평균/분산: $\mu_1/\sigma_1^2$ -> 표본의 평균/분산: $\bar{X}/S_1^2$

- 모집단 Y의 평균/분산: $\mu_2/\sigma_2^2$ -> 표본의 평균/분산: $\bar{Y}/S_2^2$

- 두 집단의 평균 차이: $\mu_1-\mu_2 = 0$ 또는 $\mu_1-\mu_2 \neq 0$

- $\bar{X}-\bar{Y}\sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})$

- 표준화 정규 분포 대입 가능

- $z=\frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}=\frac{\bar{X}-\bar{Y}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$

 

t-test

1) 자유도: k = n 1

- 독립변수의 개수: x + y + z = 0일 때, 독립변수는 3개가 아닌 2

- 모집단의 평균μ = 표본 평균 E(X): 불편 추정량

- 모집단의 분산 $\sigma^2$ 표본 분산 E($s^2$): 편의 추정량

분산의 분모를 n에서 n-1로 바꿀 경우 모집단의 분산과 같아짐(불편 추정량)

$S^2\neq\frac{\sum (x_i-\bar{X})}{n},S^2=\frac{\sum (x_i-\bar{X})}{n-1}$

- 분산의 합: $(X_1-\bar{X}) + (X_2-\bar{X}) + ... + (X_n-\bar{X}) = 0$

2) T 분포

- 특징: 좌우 대칭

- K가 무한대일 경우 정규 분포와 동일

728x90