안녕하세요. 방디입니다.
다가오는 3월 7일 사회조사분석사(2급) 필기시험을 앞두고 저 역시 막판 스퍼트를 올리고 있는데요.
제가 학습하는 내용을 정리해서 안내하고 있는데, 마지막 과목인 사회통계 부분은 내용이 어렵다 보니 포스팅이 많이 늦었습니다.
오늘은 사회통계 중 [기초통계량], 그리고 [확률이론 및 확률분포] 부분을 살펴보도록 하겠습니다.
사회통계
기초통계량
중심경향측정치
1. 평균, 중앙값, 최빈값
가. 평균 (Mean)
- 관측치의 총합을 개수로 나눈 값
- 극단적인 값을 사용할 경우 왜곡된 결과를 얻을 수 있음
- 산술 평균, 기하 평균, 조화 평균
나. 중앙값 (Median)
- 자료를 오름차순 또는 내림차순으로 정리한 후 중앙에 위치하는 값
- 자료의 개수가 홀수면 중앙값, 짝수이면 중앙에 위치한 두 값의 평균
- 자료의 값 중 극단값이 존재할 때 사용할 경우 자료의 특징을 적절히 대표
다. 최빈값 (Mode)
- 자료에 나오는 값 중 가장 많이 나타나는 값
- 자료 종류에 따라 최빈값이 존재하지 않을 수도, 2개 이상일 수도 있음
라. 왜도 (Skewness)
- 분포의 비대칭 정도
- Left-Skewness: 봉우리가 오른쪽으로 치우친 형태
- Right-Skewness: 봉우리가 왼쪽으로 치우친 형태
마. 첨도 (Kurtosis)
- 분포 모양의 뾰족한 정도
- 첨형: 정규분포보다 뾰족한 경우
- 평형: 정규분포보다 완만한 경우
바. 사분위수
- 자료를 순서대로 배열한 후 25%, 50%, 75%, 100% 자리에 위치하는 값
산포의 정도
1. 범위, 평균편차, 분산, 표준편차
가. 범위 (Range)
- 자료의 가장 큰 값과 작은 값의 차이
- 최대값과 최소값의 영향이 큼
- 자료가 균일하게 분포되어 있을 때 사용
나. 분산 (Range) / 표준편차 (Std. Deviation)
- 관측값이 평균에서 떨어져 있는 정도
- 편차의 합과 평균은 0이기 때문에 제곱값의 합으로 계산
- 분산[$\sigma^{2}\equiv\frac{1}{n}\sum(x_{i}-x)^2$]: 편차 제곱의 평균
- 표준편차[$\sigma\equiv\sqrt{\frac{1}{n}\sum(x_{i}-x)^2}$]: 분산의 제곱근
다. 변동 계수 (Coefficient of Variance)
- 표준편차를 평균값으로 나눈 것
- 다른 데이터와 비교하는데 유용
확률이론 및 확률분포
확률이론의 의미
1. 사건과 확률법칙
가. 사건의 기초개념
1) 표본공간
- 어떤 실험을 할 때 그 실험에서 나올 수 있는 모든 경우의 수
2) 사건
- 실험을 해서 나온 결과, 표본 공간 내 부분 집합
3) 합사건
- 표본 공간 S의 임의의 두 사건 Ea, Eb에 대해 합친 사건
4) 교사건
- 표본 공간 S의 임의의 두 사건 Ea, Eb에 동시에 속한 결과
5) 여사건
- 어떤 사건 E에 대해 E에 속하지 않는 표본 공간 S의 모든 결과
6) 영사건
- 결과를 포함하지 않는 사건
7) 사건의 포함
- 임의의 두 사건 Ea, Eb에 대하여 Ea의 모든 결과가 Eb 결과에 속하는 경우
8) 사건의 연산
- 교환법칙: A∪B = B∪A
- 결합법칙: (A∪B)∪C = A∪(B∪C)
- 분배법칙: (A∪B)∩C = (A∪C)∩(B∪C)
나. 확률
1) 정의
- 동일 조건 하에서 한 시행을 독립적으로 반복할 때 사건이 일어나는 백분율
- 표본공간에서 사건 E에 대하여 n(E)는 E를 n번 반복할 때 E의 발생 횟수를 나타낸다.
- 사건 E의 확률은 P(E)로 표기하고 $\lim_{n \rightarrow \infty}\frac{n(E)}{n}$로 정의
2) 특징
- 확률은 0 ≤ P(E) ≤ 1 값을 갖는다.
- 표본 공간 내 각 확률의 합은 1이다. (100%)
- 사건 A가 일어날 확률은 P(A), 일어나지 않을 확률은 P(Ac)라 할 때 P(Ac) = 1 – P(A)이다.
- 사건 E가 사건 F에 포함되면 (E ⊂ F) E의 확률은 F의 확률보다 크지 않다.
- 두 사건에 대한 합사건의 확률은 두 사건 각 확률의 합에서 교사건 확률을 뺀 값과 같다.
P(E∪F) = P(E) + P(F) - P(E∩F)
확률분포의 의미
1. 확률변수와 확률분포
가. 확률변수
- 표본공간 내 사건들을 특정 실수 값으로 대응시키는 변수
나. 확률분포
- 확률 변수가 취하는 범위 (χ)와 각 값을 취할 확률 ƒ(χ)
- 확률 변수와 확률 함수의 관계를 이용하여 확률 변수의 특성을 확률 분포로 표현
- 종류: 이항분포, 포아송분포, 정규분포, 균일분포
2. 이산확률변수와 연속확률변수
가. 이산확률변수
1) 정의
- 구분되어 셀 수 있는 값을 가지는 확률 변수
2) 이산확률의 함수
- $f(x) \geq 0, \forall{x}$
- $\sum{}_{x}f(x) = 1$
- $Pr(a \leq x\leq b) = \sum {}_{a\leq{x}\leq{b}}f(x)$
나. 연속확률변수
1) 정의
- 구분되지 않는 연속적인 값을 가지는 확률 변수
예) 시간, 무게
2) 연속확률의 함수
- $f(x) \geq 0, \forall{x}$
- $\int_{-\infty}^{\infty} f(x) = 1$
- $Pr(a \leq x \leq b) = \int_{a}^{b} f(x)$
3. 확률변수의 기댓값(평균)과 분산
가. 이산확률변수의 평균과 분산
- 평균: $E(X) = \mu = \sum{xf(x)}$
- 분산: $V(X) = \sigma^2 = \sum(x-\mu)^2f(x) = \sum{}x^2f(x) - \mu^2$
나. 연속확률변수의 평균과 분산
- 평균: $E(X) = \mu = \int{xf(x)}$
- 분산: $V(X) = \sigma^2 = \int(x-\mu)^2f(x) dx$
다. 확률변수의 평균과 분산의 성질
1) 평균의 성질: a, b, c가 상수이고 X, Y가 변수일 때
- E(c) = c
- E(aX) = aE(X)
- E(aX±b) = aE(X) ± b
- E(X±Y) = E(X) ± E(Y)
2) 분산의 성질: a, b, c가 상수이고 X, Y는 변수일 때
- V(c) = 0
- V(aX) = $a^2V(X)$
- V(aX±b) = $a^2V(X)$
- V(X±Y) = V(X) ± V(Y) ± Cov(X,Y)
이산확률분포의 의미
1. 이항분포의 개념
- 베르누이 시행을 독립적으로 n번 시행했을 때, 확률 변수 X는 성공하는 사건의 횟수
※ 베르누이 시행: 실험의 결과가 두 가지 경우로 나타나는 실험(참과 거짓 등)
- 성공확률이 p이면 실패확률은 1-p
- X ~ B(n,p) => X는 이항분포(n,p)를 따른다.
n: 시행횟수, p: 성공확률, q: 실패확률(1-p)
평균 E(X) = np
분산 V(X) = np(1-p) = npq
※ 포아송분포
- 이항분포에서 시행횟수 n이 무한대로 커져서 계산이 복잡하거나 불가능할 때 사용
- λ(lambda) = 평균 (np)일 때, X ~ P(λ)로 표기
- n이 크고 성공확률 p가 작을 때 포아송분포를 사용
- E(X) = λ, V(X) = λ
연속확률분포의 의미
1. 정규분포의 의미
- 가장 대표적인 연속 확률 분포로, 평균을 중심으로 좌우 대칭
- X ~ N(μ,σ$^2$) => X는 정규분포(μ,σ$^2$)를 따른다.
μ: 평균, σ$^2$: 분산
- 확률 밀도 함수: 곡선 아래 넓이는 1(100%)
- 평균에서 멀어질수록 밀도 하락
- 확률은 구간의 넓이
※ 이항분포의 정규분포화
- 이항분포의 시행횟수가 충분히 크면 정규분포를 따라감
- 이항분포의 정규분포 근사 조건: B(n,p) => N(np,npq)
- np(평균)≥5, npq(분산)≥5
2. 정규분포의 성질
- 평균으로부터 떨어진 간격에 따라 범위 설정
1σ = 68%, 2σ = 95%, 3σ = 99.8% (σ: 표준편차)
3. 표준정규분포
가. 정의
- 정규분포를 평균 0, 분산 1로 만드는 표준화 식을 이용하여 전환
- Z ~ N(0,1)
- 표준화 변환 식: $Z = \frac{X - \mu}{\sigma}$
- 정규분포의 기본적인 특징을 가짐(좌우 대칭, 넓이 = 확률)
'자격증 > 사회조사분석사(2급)' 카테고리의 다른 글
[방디] 사회조사분석사(2급) 필기 - 사회통계 - 분산분석/회귀분석 (0) | 2021.03.10 |
---|---|
[방디] 사회조사분석사(2급) 필기 - 사회통계 - 추정/가설검정 (0) | 2021.03.07 |
[방디] 사회조사분석사(2급) 필기 - 조사방법론 II - 표본 설계 (0) | 2021.02.22 |
[방디] 사회조사분석사(2급) 필기 - 조사방법론 II - 측정의 타당성과 신뢰성 (0) | 2021.02.20 |
[방디] 사회조사분석사(2급) 필기 - 조사방법론 II - 개념과 측정 (0) | 2021.02.19 |