<모집단 분포와 표본 분포 - Population distribution and Sampling Distribution>
<모집단 분포>
모집단(population)이란, 우리가 관심있어하는 대상이 되는 가능한 모든 값 들의 집합입니다. 예를들어, 우리가 관심있어 하는 대상은 서울 인구의 평균 소득이라고 가정해봅시다. 이 경우, 평균을 구하기 위해서는, 모든 서울 시민의 소득 값들이 필요하겠죠? 우리는 이 필요한 모든 정보를 담은 집합을 모집단이라고 부릅니다.
모집단 분포(population distribution)란, 모집단을 구성하는 값들이 이루는 확률 분포를 일컫습니다. 우리가 관심있어하는 확률 변수를 X : "서울 인구의 균 소득" 이라고 설정한다면, 각각의 x 값에 대한 확률 분포를 모집단 분포라고 하는것이죠. 즉, 각각의 x 값들과 이에 대응하는 확률 밀도 함수(probability distribution function)인 f(x)의 분포를 모집단 분포라고 부릅니다.
우리가 실제로 알고 싶어 하는 값들은 주로, 모집단과 모집단 분포 그 자체가 아닌, 모집단의 특성(characteristics)를 나타내는 수치들이고, 이와같이 모집단의 특성을 나타내는 고정된 수치들을 모수(parameter)라고 부릅니다. 모수에는 대표적으로 모평균(μ : population mean), 모표준편차(σ : population standard deviation), 모비율(p : population proportion) 등이 있습니다. 모평균과 모표준편차를 알면 대략적으로 서울 시민이 어느정도를 벌고, 어떤 모형의 분포를 이루는지 파악하기가 쉽겠죠? 이 수치들을 구하기 위해서는, 모집단에 속하는 모든 대상들을 전수 조사 해야 하는데, 이는 현실적으로 매우 불가능한 경우가 많습니다. 서울 시민 전체를 대상으로 조사를 한다면, 굉장한 규모의 비용(시간, 돈) 이 요구되겠죠?
<표본 분포>
그렇다면 우리는 이 경우, 어떠한 방법으로 모수들을 추정할 수 있을까요? 여기서 설명드릴 개념이 바로 표본과 표본 분포 입니다.
표본(sample)이란, 모집단의 분포를 예측하기 위해 모집단에서 무작위하게 추출된 모집단의 일부를 의미합니다. 서울 시민을 전수조사 하는것은 매우 비효율적이기 때문에, 이들중 일부만 무작위로 추출하여 조사하는경우, 무작위로 추출된 집단을 표본이라고 부릅니다.
이 표본들의 특징을 나타내기 위한, 표본들의 함수를 통계량(statistic)이라고 부릅니다. 통계량으로는 대표적으로 표본평균(sample mean), 표본 표준편차(sample standard deviation) 그리고 표본비율(sample proportion) 을 구하는 함수라고 할 수 있겠죠. 통계량 역시, 표본이 어떻게 추출되느냐에 따라 특정 확률을 가지고 발생하므로, 확률 변수라고 할 수 있습니다. 통계량은 가능한 많은 표본을 가지고 추정하는것이 적합합니다. 표본의 개수(the number of samples)가 커지면 커질수록 추정량이, 모집단의 모수에 근접하는것을 볼 수 있죠.
- 추정량(estimator) : 추정량이란, 모수의 추정을 위해 사용되는 통계량입니다. 예를들어 모수의 평균을 추정하고 싶다고 하면, 우리는 표본 평균(sample mean)이라는 모평균의 추정량을 사용할 수 있는것이죠.
- 추정값(estimate) : 추정값이란, 표본들이 관측되었을때, 표본을 구성하는 관측값들을 추정량에 대입한 값입니다. 즉, 표본들의 함수인 추정량에 직접 관측값들을 대입시켜, 특정 표본이 추출된 모집단에 대한 추정을 가능케 하는 수치를 추정값이라고 하는것이죠. 소문자 xi들을 직접 관측된 관측값이라고 하고, 이 값들을 추정량에 대입하면, 모집단의 특성을 유추할 수 있는 하나의 값이 추출되는것이죠. 예를들어, 모집단의 평균인 모평균(population mean)에 대한 추정을 하고자 할때, 우리가 사용할 추정량은 (T(X1, X2, X3,..., Xn))은 표본 평균(sample mean)을 나타내는 함수인것이고, 이에 관측값들을 직접 대입해 구한 값을 모평균의 추정값이라고 하는것이죠.
< 표본평균 >
< 표본 표준 편차 >
<표본 비율 >
동일한 모집단에서 추출된 동일한 수의 표본을 가지고 계산한 통계값임에도 불구하고, 표본은 매번 다르게 추출 되기 때문에, 각 표본에 대한 통계량은 서로 다르게 나타납니다. 이 통계량들이 가질 수 있는 값과, 그 값들이 얼마나 자주 발생하는지에 대한 분포를 표본분포(sampling distribution)이라고 부릅니다. 예를들어, 표본 30개를 100번 추출하여 표본평균을 100번 구했다고 해봅시다. 이 경우, 100개의 통계량들과, 이 통계량들이 어떻게 분포하는 지를 나타내는 통계량의 확률분포를 표본분포라고 부르는 것이죠.
<표본추출 규칙>
표본을 추출할때, 꼭 기억해야할 두가지 규칙이 있습니다.
1. 무작위성(randomness)
: 모집단의 모든 데이터들이 표본으로 뽑힐 가능성이 동일해야 하며, 무작위 추출한다.
이 무작위성은 표본을 모으는 과정에서 생길 수 있는 편향을 방지 할 수 있는 표본을 추출하기 위한 최소한의 조건입니다.
관찰연구(observational study)란, 연구자가 개입하지 않고 오로지 관찰과 조사에 의해 시행되는 연구입니다. 실험적 연구(experimental study)란, 연구자가 직접적으로 개입하여 통제된 실험에서 연구를 진행하는 방식입니다. 두 연구 방식 모두 주로 표본을 추출하여 진행되는 연구방식이고, 따라서 이 두 연구 방식 모두 무작위성을 도입해 표본을 추출해야 합니다. 관찰 연구에 있어서는, 관찰하고자 하는 표본을 무작위로 추출해야하고, 실험적 연구에서는, 피험자들을 무작위로 추출하여 일정한 실험조건에 넣어야 하죠.
2. 추출하는 표본의 크기(sample size) n이 클수록, 표본의 대표성이 커진다.
: 우리가 표본을 추출하는 가장 큰 목적이자 표본이 수행해야 하는 일은 , '효울적으로' 모집단을 대표하기 이다. 표본이 모집단을 대표하기 위해서는, 일반적으로 모집단의 5%를 포함하도록 하며, 대략적으로는 30이 기준이 되기도 한다. 일정 수가 넘지 않는 작은 표본의 크기는, 모집단을 대표하기 어렵다.
예시를 들자면, 우리는 동전에서 앞면(head)가 나올 확률이 1/2라는것을 알 수 있죠? 표본의 크기를 각각 10으로, 100으로 설정한 두 경우를 생각해봅시다.
표본비율은 각각 head가 나온 횟수/ n (표본의 크기) 라고 할때, 10번 던져 구한 표본비율과 100번을 던져 구한 표본비율 중 어느것이 더 모비율인 1/2에 가깝게 될까요? 당연히 100번을 던져 구한 비율이 실제 모비율에 근접할 확률이 높게 됩니다.
우리가 1/2라고 설정한 모비율은, 무한대로 동전을 던졌을때, 동전의 앞면이 나올 확률이 1/2라는것을 고려하여 산출된 비율이라는것을 알면, 우리는 당연히 표본의 크기가 클 수록, 표본의 대표성이 커진다는것을 알 수 있겠죠?
이 특징은 통계학에 있어서 가장 기본이 되고 중요한 중심 극한 정리(Central Limit Theorem)의 조건 입니다. 중심 극한 정리에 대한 포스팅은 곧 올리도록 하겠습니다.
3. Independent and Identically distributed (i.i.d.)
: 이는 아무리 강조해도 매우 매우 매우 중요한 표본의 관측값들에 대한 가정입니다.
구체적으로, "표본 내 각각의 관측값들은 서로에게 영향을 끼치지 않으며(independent) 동일한 확률 분포를 따른다(identically distributed)"는 가정입니다.
독립성을 구체적으로 설명하자면, 이전의 표본 관측값이 이후의 표본 관측값에 영향을 끼치지 않는다는 가정으로, 동전 던지기 혹은 주사위 던지기를 예시로 들 수 있겠네요. 주사위를 던질때, 이전에 6이 나왔다고 해서 이후의 관측값이 특정한 결과를 가질 확률이 높아지거나 낮아지지 않겠죠? 이처럼, 이전의 관측값이 이후의 관측값에 영향을 주지 않고 독립적으로 존재하는 가정을 독립성이라고 말합니다.
항등성을 구체적으로 설명하자면, 각각의 표본이 동일한 확률 분포를 따른다는 가정으로, 이 역시 동전 던지기와 주사위 던지기를 예로 들 수 있겠네요. 주사위를 던져 6이 나오는 경우를 모비율을 추정하고자, 표본을 추출했다고 할때, 각 관측값이 6을 가질 확률은 1/6으로 모든 관측값이 동일한 확률 분포를 따릅니다.
i.i.d. 가정은, 이후 통계량의 분포를 추론할때 적용되는 중심 극한 정리가 성립 되기 위해 매우 중요한 조건입니다.
다음 포스팅은 중심 극한 정리에 대한 포스팅을 올리겠습니다.
오늘도 봐주셔서 감사합니다.
<표본평균의 평균과 표준편차>
표본들의 특징을 나타내는데 가장 중요하게 여겨지는 통계량인, 표본평균(Sample Mean)의 분포는 모평균(Population Mean)과 모표준편차(Population Standard deviation)와 큰 관계성을 보입니다. 표본평균의 평균과 표준편차는 모평균과 모표준편차에 의해 결정됩니다.
표본 평균의 평균이 모평균의 평균과 같고, 표본평균의 분산은 모평균의 분산에, 표본의 크기로 나누어진 값으로 구해지죠.
표본평균의 분산의 구조에 의해, 표본의 크기(n)이 클수록,
var(X)/n인 표본평균의 분산이 작아져, 표본 분포가, 표본 평균의 평균인, 모평균에 밀집 분포 한다는것을 예측 할 수 있습니다.
표본비율(Sample proportion)의 분포를 하나의 예시로 들어 설명해보겠습니다.
시도횟수가(number of trials)가 n이고, 성공활 확률이(probability of the success)가 p인 이항분포를 따르는 모분포와,
시도횟수가 1이고, 성공할 확률이 p인 이항분포 즉, 베르누이 분포를 가정해봅시다.
X~ Bin(n, p) | X ~ Bin(1, p) ~ Ber(p) |
성공횟수에 대한 표본분포 (Sampling distribution of Number of Successes) |
성공 비율에 대한 표본분포 (Sampling distribution of Sample Proportion) |
Var(Number of Successes) > Var(Sample Proportion) 표본비율(sample proportion)의 표본분포가 성공의 횟수(Number of Successes)의 표본분포보다 적게 분산되어있다. |
'Statistics' 카테고리의 다른 글
표본추출법 / 확률적 표본추출/ 단순임의추출, 체계적추출, 층화임의추출, 군집추출 (0) | 2021.05.25 |
---|---|
중심 극한 정리(CLT)와 R / Central Limit Theorem and R (0) | 2021.05.18 |
정규분포 / 68-95-99.7 규칙/ 표준정규분포 / R (1) | 2021.05.13 |
[회귀]다중공선성 / Multicollinearity / R (0) | 2021.02.17 |
[회귀]지수변수를 설명변수로서 포함한 회귀 모형, 교호작용에 대한 설명/ Indicator variable in regression model, Interaction / (0) | 2021.02.15 |