본문 바로가기

자격증/사회조사분석사(2급)

[방디] 사회조사분석사(2급) 필기 - 사회통계 - 기초통계량/확률이론 및 확률분포

728x90

안녕하세요. 방디입니다.

 

다가오는 3월 7일 사회조사분석사(2급) 필기시험을 앞두고 저 역시 막판 스퍼트를 올리고 있는데요.

제가 학습하는 내용을 정리해서 안내하고 있는데, 마지막 과목인 사회통계 부분은 내용이 어렵다 보니 포스팅이 많이 늦었습니다.

오늘은 사회통계 중 [기초통계량], 그리고 [확률이론 및 확률분포] 부분을 살펴보도록 하겠습니다.

 


사회통계

기초통계량

중심경향측정치

1. 평균, 중앙값, 최빈값

. 평균 (Mean)

- 관측치의 총합을 개수로 나눈 값

- 극단적인 값을 사용할 경우 왜곡된 결과를 얻을 수 있음

- 산술 평균, 기하 평균, 조화 평균

. 중앙값 (Median)

- 자료를 오름차순 또는 내림차순으로 정리한 후 중앙에 위치하는 값

- 자료의 개수가 홀수면 중앙값, 짝수이면 중앙에 위치한 두 값의 평균

- 자료의 값 중 극단값이 존재할 때 사용할 경우 자료의 특징을 적절히 대표

. 최빈값 (Mode)

- 자료에 나오는 값 중 가장 많이 나타나는 값

- 자료 종류에 따라 최빈값이 존재하지 않을 수도, 2개 이상일 수도 있음

. 왜도 (Skewness)

- 분포의 비대칭 정도

- Left-Skewness: 봉우리가 오른쪽으로 치우친 형태

- Right-Skewness: 봉우리가 왼쪽으로 치우친 형태

. 첨도 (Kurtosis)

- 분포 모양의 뾰족한 정도

- 첨형: 정규분포보다 뾰족한 경우

- 평형: 정규분포보다 완만한 경우

. 사분위수

- 자료를 순서대로 배열한 후 25%, 50%, 75%, 100% 자리에 위치하는 값

 


산포의 정도

1. 범위, 평균편차, 분산, 표준편차

. 범위 (Range)

- 자료의 가장 큰 값과 작은 값의 차이

- 최대값과 최소값의 영향이 큼

- 자료가 균일하게 분포되어 있을 때 사용

. 분산 (Range) / 표준편차 (Std. Deviation)

- 관측값이 평균에서 떨어져 있는 정도

- 편차의 합과 평균은 0이기 때문에 제곱값의 합으로 계산

- 분산[$\sigma^{2}\equiv\frac{1}{n}\sum(x_{i}-x)^2$]: 편차 제곱의 평균

- 표준편차[$\sigma\equiv\sqrt{\frac{1}{n}\sum(x_{i}-x)^2}$]: 분산의 제곱근

 

. 변동 계수 (Coefficient of Variance)

- 표준편차를 평균값으로 나눈 것

- 다른 데이터와 비교하는데 유용

 


확률이론 및 확률분포

 

확률이론의 의미

1. 사건과 확률법칙

. 사건의 기초개념

1) 표본공간

- 어떤 실험을 할 때 그 실험에서 나올 수 있는 모든 경우의 수

2) 사건

- 실험을 해서 나온 결과, 표본 공간 내 부분 집합

3) 합사건

- 표본 공간 S의 임의의 두 사건 Ea, Eb에 대해 합친 사건

4) 교사건

- 표본 공간 S의 임의의 두 사건 Ea, Eb에 동시에 속한 결과

5) 여사건

- 어떤 사건 E에 대해 E에 속하지 않는 표본 공간 S의 모든 결과

6) 영사건

- 결과를 포함하지 않는 사건

7) 사건의 포함

- 임의의 두 사건 Ea, Eb에 대하여 Ea의 모든 결과가 Eb 결과에 속하는 경우

8) 사건의 연산

- 교환법칙: AB = BA

- 결합법칙: (AB)C = A(BC)

- 분배법칙: (AB)C = (AC)(BC)

 

. 확률

1) 정의

- 동일 조건 하에서 한 시행을 독립적으로 반복할 때 사건이 일어나는 백분율

- 표본공간에서 사건 E에 대하여 n(E)En번 반복할 때 E의 발생 횟수를 나타낸다.

- 사건 E의 확률은 P(E)로 표기하고 $\lim_{n \rightarrow \infty}\frac{n(E)}{n}$로 정의

2) 특징

- 확률은 0 P(E)  1 값을 갖는다.

- 표본 공간 내 각 확률의 합은 1이다. (100%)

- 사건 A가 일어날 확률은 P(A), 일어나지 않을 확률은 P(Ac)라 할 때 P(Ac) = 1 P(A)이다.

- 사건 E가 사건 F에 포함되면 (E F) E의 확률은 F의 확률보다 크지 않다.

- 두 사건에 대한 합사건의 확률은 두 사건 각 확률의 합에서 교사건 확률을 뺀 값과 같다.

P(EF) = P(E) + P(F) - P(EF)

 


확률분포의 의미

1. 확률변수와 확률분포

. 확률변수

- 표본공간 내 사건들을 특정 실수 값으로 대응시키는 변수

. 확률분포

- 확률 변수가 취하는 범위 (χ)와 각 값을 취할 확률 ƒ(χ)

- 확률 변수와 확률 함수의 관계를 이용하여 확률 변수의 특성을 확률 분포로 표현

- 종류: 이항분포, 포아송분포, 정규분포, 균일분포

 

2. 이산확률변수와 연속확률변수

. 이산확률변수

1) 정의

- 구분되어 셀 수 있는 값을 가지는 확률 변수

2) 이산확률의 함수

- $f(x) \geq 0, \forall{x}$

- $\sum{}_{x}f(x) = 1$

- $Pr(a \leq x\leq b) = \sum {}_{a\leq{x}\leq{b}}f(x)$

. 연속확률변수

1) 정의

- 구분되지 않는 연속적인 값을 가지는 확률 변수

) 시간, 무게

2) 연속확률의 함수

- $f(x) \geq 0, \forall{x}$

- $\int_{-\infty}^{\infty} f(x) = 1$

- $Pr(a \leq x \leq b) = \int_{a}^{b} f(x)$

 

3. 확률변수의 기댓값(평균)과 분산

. 이산확률변수의 평균과 분산

- 평균: $E(X) = \mu = \sum{xf(x)}$

- 분산: $V(X) = \sigma^2 = \sum(x-\mu)^2f(x) = \sum{}x^2f(x) - \mu^2$

. 연속확률변수의 평균과 분산

- 평균: $E(X) = \mu = \int{xf(x)}$

- 분산: $V(X) = \sigma^2 = \int(x-\mu)^2f(x) dx$

. 확률변수의 평균과 분산의 성질

1) 평균의 성질: a, b, c가 상수이고 X, Y가 변수일 때

- E(c) = c

- E(aX) = aE(X)

- E(aX±b) = aE(X) ± b

- E(X±Y) = E(X) ± E(Y)

2) 분산의 성질: a, b, c가 상수이고 X, Y는 변수일 때

- V(c) = 0

- V(aX) = $a^2V(X)$

- V(aX±b) = $a^2V(X)$

- V(X±Y) = V(X) ± V(Y) ± Cov(X,Y)

 


이산확률분포의 의미

1. 이항분포의 개념

- 베르누이 시행을 독립적으로 n번 시행했을 때, 확률 변수 X는 성공하는 사건의 횟수

베르누이 시행: 실험의 결과가 두 가지 경우로 나타나는 실험(참과 거짓 등)

- 성공확률이 p이면 실패확률은 1-p

- X ~ B(n,p) => X는 이항분포(n,p)를 따른다.

n: 시행횟수, p: 성공확률, q: 실패확률(1-p)

평균 E(X) = np

분산 V(X) = np(1-p) = npq

 

포아송분포

- 이항분포에서 시행횟수 n이 무한대로 커져서 계산이 복잡하거나 불가능할 때 사용

- λ(lambda) = 평균 (np)일 때, X ~ P(λ)로 표기

- n이 크고 성공확률 p가 작을 때 포아송분포를 사용

- E(X) = λ, V(X) = λ

 


연속확률분포의 의미

1. 정규분포의 의미

- 가장 대표적인 연속 확률 분포로, 평균을 중심으로 좌우 대칭

- X ~ N(μ,σ$^2$) => X는 정규분포(μ,σ$^2$)를 따른다.

μ: 평균, σ$^2$: 분산

- 확률 밀도 함수: 곡선 아래 넓이는 1(100%)

- 평균에서 멀어질수록 밀도 하락

- 확률은 구간의 넓이

 

이항분포의 정규분포화

- 이항분포의 시행횟수가 충분히 크면 정규분포를 따라감

- 이항분포의 정규분포 근사 조건: B(n,p) => N(np,npq)

- np(평균)≥5, npq(분산)5

 

2. 정규분포의 성질

- 평균으로부터 떨어진 간격에 따라 범위 설정

1σ = 68%, 2σ = 95%, 3σ = 99.8% (σ: 표준편차)

 

3. 표준정규분포

. 정의

- 정규분포를 평균 0, 분산 1로 만드는 표준화 식을 이용하여 전환

- Z ~ N(0,1)

- 표준화 변환 식: $Z = \frac{X - \mu}{\sigma}$

- 정규분포의 기본적인 특징을 가짐(좌우 대칭, 넓이 = 확률)

728x90