표본(Sample)에 대하여
모집단(Population)은 굉장히 큰 집합으로 표현됩니다.
이때 평균과 분산을 모르는 모집단에서
n개의 무작위 표본들을 가져가보려 합니다.
모집단에서 가져온 랜덤한 n개의 표본들은
서로 같은 분포에서 채취했으며(identically distribution),
무작위로 가져왔기 때문에 서로 독립(independent)입니다.
따라서 n개의 표본들은 i.i.d 임을 알 수 있습니다.
표본평균
무작위 표본 $X_1, \cdots, X_n$ 을 가지고 있다고 하겠습니다.
이때 표본들의 평균은 $\frac{1}{n} \displaystyle\sum_{i=1}^{n} X_i$ 입니다.
이 단순한 표본들의 평균을 표본평균(Sample mean)이라 하며 $\bar{X_n}$ 으로 표현합니다.
n개의 표본 채취를 충분히 많이 하게되면, 충분히 많은 표본평균들을 찾을 수 있습니다.
이때 표본평균들의 분포는 특징을 갖게 됩니다.
1. 표본평균들의 평균은 모집단의 평균($\mu$)에 근사합니다.
2. 표본평균의의 분산은 모집단의 분산을 표본의 개수로 나눈 값($\frac{\sigma^2}{n}$)으로 근사합니다.
즉, 다음과 같습니다.
$\bar{X_n} \sim N(\mu, \frac{\sigma^2}{n})$
마르코브 부등식
마르코브 부등식은 분포가 무엇인지에 상관없이
오직 확률 변수의 평균만을 가지고
특정 구간에 존재할 확률이 최대 어느정도인지 알 수 있습니다.
확률 변수 X가 0이상에 존재할 확률이 1이라고 하면($P(X \ge 0) = 1$)
$t > 0$ 을 만족하는 모든 실수 t에 대하여 다음을 만족합니다.
$P(X \ge t) \le \frac{E(X)}{t}$
즉 확률 변수 X가 t이상인 구간에 존재할 확률이 최대 어느정도인지를
오직 X의 평균을 통해 알 수 있습니다.
체비셰브 부등식
체비셰브 부등식은 확률 변수 X의 분산이 존재할때(이때, 평균도 존재)
$t > 0$을 만족하는 모든 실수 t에 대해
X가 평균으로 부터 얼마나 떨어져있는지가($|X - E(X)|$)
t이상일 확률이 최대 어느정도인지를 제시합니다.
$P(|X - E(X) \ge t|) \le \frac{Var(X)}{t^2}$
마르코브 부등식을 통해 증명할 수 있습니다.
두 부등식 모두 t보다 큰 경우의 구간에서 존재할 최소 확률이 어느정도인지 또한
간단하게 구할 수 있습니다.
$P(X < t) > 1 -\frac{E(X)}{t}$
$P(|X - E(X) < t|) > 1 - \frac{Var(X)}{t^2}$
'CS > 확률과 통계' 카테고리의 다른 글
[확률과 통계] 큰 수의 법칙과 중심 극한 정리 (0) | 2022.06.12 |
---|---|
[확률과 통계] 정규 분포와 표본 정규 분포 (0) | 2022.06.12 |