안녕하세요. 방디입니다.
오늘 드디어 사회조사분석사 2급 필기시험을 치르고 왔습니다. 역시나 사회통계 과목이 많이 어려웠던지라 모르는 문제들도 열심히 찍고 왔는데... 가채점을 해보니 다행히 사회통계도 60점 정도 받아서 무난히 통과할 것 같습니다.
아무래도 사회통계는 저도 이해가 많이 어렵다보니, 제공해드리는 자료가 많이 미숙할 것 같습니다. 안내를 중간에 끝내는 것은 좋지 않을 듯 해서 제가 학습한 자료를 똑같이 올려드리지만, 혹시라도 제가 미숙한 부분이 있다면 언제든 댓글로 가르침 주시면 감사하겠습니다.
그럼 오늘은 사회통계 과목의 [추정] 그리고 [가설검정] 부분을 안내드리겠습니다.
사회통계
추정
추정의 목적
1. 추정의 목적
- 모집단의 일부(표본)를 추출하고 이를 통해 모집단의 특성을 파악하는 것
2. 올바른 추정량의 결정요인
- 추정량의 불편성: 모수 = 표본 특성
- 추정량의 효율성: 분산이 낮을수록 효율성이 높음
- 추정량의 일치성: 표본의 크기가 커질수록 모수값에 수렴
- 추정량의 충분성: 추정량을 사용하여 모수에 대한 모든 정보를 얻음
점추정
- 모집단의 모수를 하나의 숫자로 표현하여 추정
- 표본 오차로 인해 모수와 차이가 있으며, 불확실성 정도를 수치화하기 어려움
구간추정
- 점추정의 경우 오차가 생길 수 있어, 점추정값 근처에 모수값이 있을 것이라 추정
- 모수값의 구간으로 제시한 구간을 신뢰구간이라 함
- 신뢰구간: 점추정량 ± 오차한계 ($z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$)
- 신뢰수준(신뢰도): 1 - α (α = 0.01 / 0.05 / 0.1 …)
- $Z_{\alpha/2}=\frac{X-\mu}{\sigma/\sqrt{n}}=\frac{X-\mu}{\sigma}\cdot\sqrt{n}$
1. 표본크기의 결정
가. 표본크기의 결정
- 신뢰수준, 오차한계를 만족하기 위한 표본의 크기를 결정
- 표본의 크기는 오차한계와 관계가 깊음 (오차한계 $d=z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$)
- 같은 신뢰수준 하에서 오차한계가 작을수록 명확한 의사결정이 가능
나. 표본 수 계산 공식
- 모집단(표본집안)의 표본 크기 결정 공식
- $d=z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$
- $n=\frac{z^{2}\cdot\sigma^{2}}{d^{2}}$
※ 비율 추정 시 표본 크기 결정 공식
- $d=z_{\alpha/2}\cdot\sqrt{\frac{pq}{n}}$
- $n=\frac{z^{2}\cdot pq}{d^{2}}$
다. 표본 크기 결정 요인
- 표본 크기 결정 공식 $n=\frac{z^2\cdot\sigma^2}{d^2}$
- z: 신뢰구간 ↑ 표본 ↑
- σ: 분산 ↑ 표본 ↑
- d: 오차한계 ↑ 표본 ↑
가설검정
가설검정의 기초
1. 가설검정의 개념
가. 가설
- 연구자가 가지는 합리적 추측으로, 검증하고자 하는 부분
- 모수에 대하여 검증 목적으로 설정하는 잠정적인 진술
나. 가설검정
- 모집단에서 얻은 표본을 통하여 미지의 모수에 대한 주장의 옳고 그름을 판단하는 과정
- 귀무가설과 대립가설로 구분
다. 귀무가설과 대립가설
- 귀무가설($H_0$): 대립가설의 반대주장으로 통계적 검정의 대상이 되는 가설
- 대립가설($H_1$): 연구자가 적극적으로 입증하고자 하는 가설
라. 검정 통계량
- 가설 검정에 사용되는 표본의 통계량
- 대부분 모수의 추정량을 기초로 함
마. 기각역
- 귀무가설($H_0$)을 기각되게 하는 영역
- 검정 통계량이 기각역에 속하면 $H_0$을 기각하고 $H_1$을 채택
바. 유의 수준(α)
- 귀무 가설을 채택하더라도 그 결과가 100% 맞다는 보장은 불가
- 유의수준은 $H_0$이 사실임에도 불구하고 $H_0$을 기각할 확률 (1종 오류)
- 1종 오류를 범할 확률을 낮추기 위하여 신뢰 구간을 넓게 설정
사. 유의 확률(p-value)
- 검정 통계량 값을 기각값으로 가정하고 계산된 유의 수준
- p-value < α : 귀무가설($H_0$) 기각
- p-value > α : 귀무가설($H_0$) 채택
2. 가설검정 절차
- 귀무가설($H_0$)과 대립가설($H_1$)을 설정
- 가설과 표본의 성질에 따른 분포도를 사용하여 검정 통계량 계산
z-test, t-test, F-test, $X^2$-test
- 검정 통계량으로부터 p-value를 계산하여 α와 비교
p-value < α : 귀무가설($H_0$) 기각 (통계적으로 유의미)
p-value > α : 귀무가설($H_0$) 채택 (통계적으로 무의미)
3. 가설검정의 오류
|
귀무가설 사실 |
대립가설 사실 |
귀무가설 기각 X |
옳은 결정 |
2종 오류 (β) |
귀무가설 기각 |
1종 오류 (α) |
옳은 결정 (1 - β) |
단일모집단의 가설검정
1. 모평균의 가설검정
- 평균이 μ이고 분산이 $\sigma^2$인 정규분포에서 $X_1$, $X_2$, ……, $X_n$의 표본을 얻은 후 일반적으로 알려진 평균과 상이하다고 여겨질 때 사용
- 분산이 알려진 경우와 알려지지 않은 경우에 따라 검정 통계량 계산이 상이
|
표본크기가 큼 |
표본크기가 작음 |
분산이 알려진 경우 |
z–test |
z–test |
분산이 알려지지 않은 경우 |
z–test (s2) |
t-test |
가. 모분산이 알려진 경우: z-test
- 검정통계량: $z=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}$ ~ N(0,1)
- 기각역
H1: μ > $\mu_0$일 경우 $z\geq z_\alpha$
H1: μ < $\mu_0$일 경우 $z\leq z_\alpha$
H1: μ ≠ $\mu_0$일 경우 $\mid z\mid \geq z_\frac{\alpha}{2}$
나. 모분산을 모르지만 표본 크기가 큰 경우: z-test
- 검정통계량: $z=\frac{\bar{X}-\mu_0}{s/\sqrt{n}}$ ~ N(0,1)
- 기각역
H1: μ > $\mu_0$일 경우 $z\geq z_\alpha$
H1: μ < $\mu_0$일 경우 $z\leq z_\alpha$
H1: μ ≠ $\mu_0$일 경우 $\mid z\mid \geq z_\frac{\alpha}{2}$
다. 모분산을 모르지만 표본 크기가 작은 경우: t-test
- 검정통계량: $z=\frac{\bar{X}-\mu_0}{s/\sqrt{n}}$ ~ t(n-1)
- 기각역
H1: μ > $\mu_0$일 경우 $z\geq t_{\alpha(n-1)}$
H1: μ < $\mu_0$일 경우 $z\leq t_{\alpha(n-1)}$
H1: μ ≠ $\mu_0$일 경우 $\mid z\mid \geq t_\frac{\alpha}{2(n-1)}$
2. 모비율의 가설검정
- 검정통계량: $z=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}(\because \hat{p}=\frac{X}{n}\approx N(p_0,\frac{p_0(1-p_0)}{n}))$
- 기각역
H1: p > $p_0$일 경우 $z\geq z_\alpha$
H1: p < $p_0$일 경우 $z\leq z_\alpha$
H1: p ≠ $p_0$일 경우 $\mid z\mid \geq z_\frac{\alpha}{2}$
두 모집단의 가설검정
1. 두 모집단평균의 가설검정
- 독립 표본: 독립적인 두 집단간의 평균 차이 검정
- 대응 표본(종속 표본): 상관관계가 있는 두 표본의 평균 차이 검정
- 모집단 X의 평균/분산: $\mu_1/\sigma_1^2$ -> 표본의 평균/분산: $\bar{X}/S_1^2$
- 모집단 Y의 평균/분산: $\mu_2/\sigma_2^2$ -> 표본의 평균/분산: $\bar{Y}/S_2^2$
- 두 집단의 평균 차이: $\mu_1-\mu_2 = 0$ 또는 $\mu_1-\mu_2 \neq 0$
- $\bar{X}-\bar{Y}\sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})$
- 표준화 정규 분포 대입 가능
- $z=\frac{\bar{X}-\bar{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}=\frac{\bar{X}-\bar{Y}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$
※ t-test
1) 자유도: k = n – 1
- 독립변수의 개수: x + y + z = 0일 때, 독립변수는 3개가 아닌 2개
- 모집단의 평균μ = 표본 평균 E(X): 불편 추정량
- 모집단의 분산 $\sigma^2$ ≠ 표본 분산 E($s^2$): 편의 추정량
분산의 분모를 n에서 n-1로 바꿀 경우 모집단의 분산과 같아짐(불편 추정량)
$S^2\neq\frac{\sum (x_i-\bar{X})}{n},S^2=\frac{\sum (x_i-\bar{X})}{n-1}$
- 분산의 합: $(X_1-\bar{X}) + (X_2-\bar{X}) + ... + (X_n-\bar{X}) = 0$
2) T 분포
- 특징: 좌우 대칭
- K가 무한대일 경우 정규 분포와 동일
'자격증 > 사회조사분석사(2급)' 카테고리의 다른 글
[방디] 사회조사분석사(2급) 실기 출제기준 안내 (2020.01.01. ~ 2023.12.31. 적용) (0) | 2021.03.11 |
---|---|
[방디] 사회조사분석사(2급) 필기 - 사회통계 - 분산분석/회귀분석 (0) | 2021.03.10 |
[방디] 사회조사분석사(2급) 필기 - 사회통계 - 기초통계량/확률이론 및 확률분포 (0) | 2021.03.04 |
[방디] 사회조사분석사(2급) 필기 - 조사방법론 II - 표본 설계 (0) | 2021.02.22 |
[방디] 사회조사분석사(2급) 필기 - 조사방법론 II - 측정의 타당성과 신뢰성 (0) | 2021.02.20 |