본문 바로가기
Statistics

중심 극한 정리(CLT)와 R / Central Limit Theorem and R

by jangpiano 2021. 5. 18.
반응형

중심 극한 정리는, 통계학에서 가장 기본적이고 가장 중요하게 여겨지는 정리이므로, 이번 포스팅이 이해에 도움을 드렸으면 하네요:) 

 

<중심 극한 정리 - Central Limit Theorem> 

 

<중심 극한 정리란?>

중심 극한 정리(CLT : Central Limit Theorem)는 다음을 의미합니다. 

" 평균 μ , 표준편차 σ를 가지는 모집단 분포에서 iid 한 표본을 충분히 많이 추출한다면, 표본 평균은 정규분포에 근사하게 된다 ." 라는 정리입니다. 

 

<중심 극한 정리의 조건>

 

위 정의는, 모분포가 정규분포를 따르지 않아도, 종 모양(bell-shape)를 가지지 않아도 성립됩니다.

모분포가 정규분포가 아닌 분포를 따른다고 하더라도, 특정 조건만 만족된다면, 표본평균은 정규분포의 형태를 띄게 된다는 정의이죠.

통계학에서 정규분포를 가장 중요한 분포라고 하는 이유도, 우리는 중심 극한 정리에서 찾을 수 있습니다.

 

모집단 분포가 정규분포를 따르는 경우, 표본의 크기(n)이 크지 않더라도, 중심극한 정리가 성립되며, 따라서 표본평균이 정규분포를 따르게 된다는 점은 주의해주세요! 다만, 모집단 분포가 정규 분포가 아닌 어떠한 분포를 따를때, 표본의 크기가 충분히 커야 한다는것은 위 정리가 성립되기 위한 필수적인 조항이죠. 

 

<표본의 크기>

중심극한 정리가 정의되기 위한 표본의 크기는 '충분히 많을때(sufficiently large)'라고 명시됩니다. 

'충분히 많을때'라니 참 애매하죠? 이렇게 애매한 표기를 사용하는 이유는, 표본의 크기가 크면 클수록 정규분포에 근사하게 되기 때문이죠. 

하지만 통상적으로, 우리는 30을 기준으로 표본의 크기가 충분히 큰지, 아닌지 결정하곤 합니다. 

 

또한, 표본 비율(sample proportion)에 중심극한 정리가 적용되기 위해서는, 예측되는 성공 횟수(np)와 실패 횟수(n*(1-p)) 가 15이 넘어야 합니다.

즉, np >= 15 , n(1-p) >=15 을 성립시키는, 표본크기 만큼의 표본이 추출된다면, 표본 비율이 정규분포를 따르게 됩니다. 

모집단 분포가 정규분포를 따를 경우, 표본의 크기가 작아도 중심 극한 정리가 성립됩니다. 즉, 표본 평균이 작은 표본의 크기만을 가지고도 정규분포에 근사하게 됩니다. 

 

<R> 

 

1. 모집단 분포가 정규분포를 따르는 경우의 CLT 

모집단 분포가 정규분포를 따르는 경우는 표본의 크기가 작아도, 중심 극한 정리가 성립됩니다. 

따라서, 아래의 예시에서, 표본의 크기를 10으로 설정하고, 10000번 관측한 후 표본분포를 히스토그램으로 만들어보았습니다. 

히스토그램이 정규분포 형태에 근사하는 모습(bell-shape)을 띄는것을 알 수 있죠?

 

육안으로 확인하고자, 직접 curve()함수를 이용하여, 평균이 0이고 표준편차가 1/sqrt(10) 을 따르는 정규분포를 그려보았습니다. 

위에서 그린 히스토그램이 정규분포와 근사하게 분포되는것을 보실 수 있으실 겁니다. 

 

이 예시를 통해, 모집단 분포가 정규분포를 따르는 경우, 중심 극한 정리가 표본의 크기가 작을때에도 성립된다는것을 확인 할 수 있습니다. 

#Sampling distribution of Sample mean when population follows Normal distribution 

samples <- replicate(10000, rnorm(10))  #sample size is smaller than 30 
is.matrix(samples)   # TRUE 
dim(samples)         # nrow , ncol 

sam_mean = colMeans(samples)
hist(sam_mean, freq = F, breaks = 20)
curve(dnorm(x, mean = 0, sd = 1/sqrt(10)), col = "red", xlim = c(-1, 1), add = TRUE)

2. 모집단 분포가 정규분포가 아닌 다른 분포를 따르는 경우의 CLT 

 

2-1) 모집단 분포가 이항분포(n=10, p= 0.5)를 따르는 경우 

*주의) rbinom에서 쓰이는 n은 sample size 가 아닌, 이항분포에서 독립적 시행의 횟수(number of observations) 입니다. 

 

모집단 분포가 정규분포가 아닌 다른 분포를 따르는 경우는 표본의 크기가 충분히 클때(>=30), 중심 극한 정리가 성립됩니다. 

따라서, 표본의 크기를 100으로 설정하여, Bin(10, 0.5) 를 따르는 표본들을 100번 무작위로 추출합니다. 100개의 표본에서 추출된 표보평균을 10000번 관측해 표본분포를 히스토그램으로 만들어보면, 평균이 10*0.5 이고, 표준편차가 sqrt(10*0.5*0.5/100) 인 정규분포 형태에 근사하는 모습(bell-shape)을 띄는것을 보실 수 있습니다. 

#Sampling distribution of Sample mean when population follows Binomial distribution 
samples <- replicate(10000, rbinom(100, 10, 0.5)) #sample size : 100 
sam_mean = colMeans(samples)

hist(sam_mean, freq = F, breaks = 20)
curve(dnorm(x, mean = 5, sd = sqrt(0.025)), col = "red", add = TRUE)

2-1) 모집단 분포가 포아송 분포(lambda)를 따르는 경우 

 

모집단 분포가 정규분포가 아닌 다른 분포를 따르는 경우는 표본의 크기가 충분히 클때(>=30), 중심 극한 정리가 성립됩니다.

따라서, 표본의 크기를 100으로 설정하여, POI(5) 를 따르는 표본들을 100번 무작위로 추출합니다. 100개의 표본에서 추출된 표보평균을 10000번 관측해 표본분포를 히스토그램으로 만들어보면, 평균이 5이고, 표준편차가 sqrt(5/100)인 정규분포 형태에 근사하는 모습(bell-shape)을 띄는것을 보실 수 있습니다. 

#Sampling distribution of Sample mean when population follows Poission distribution 
samples <- replicate(10000, rpois(100, 5)) #sample size : 100 
sam_mean = colMeans(samples)

hist(sam_mean, freq = F, breaks = 20)
curve(dnorm(x, mean = 5, sd = sqrt(5/100)), col = "red", add = TRUE)

 

3. 이외의 예시들 

R을 이용해서, 이항 분포와 포아송 분포 예시를 대표적으로 중심 극한 정리가 성립됨을 보였습니다. 

이외에도, 정규분포를 따르지 않는 많은 분포들의 표본평균 분포가 n이 커질수록, 정규분포에 근사하는 모습을 보실 수 있습니다. 

아래의 예시중, 첫번째 예시는, 일정한 구간내에서 일정한 분포를 가지는 연속 확률 분포로, 균등분포(uniform distribution)라고 불립니다. 

위에서 예시로 든 이항분포와 포아송 분포 모두 이산 확률 분포를 따르지만, 아래의 예시를 통해, 연속 확률 분포에서 추출된 표본의 평균도 중심극한정리를 따름을 볼 수 있습니다. 

세번째 예시는, 모분포가 왜도값이 +를 가지는, 오른쪽으로 비스듬히 기울어진( Right Skewed ) 분포로, 정규분포와 많은 차이를 지니지만, 

n이 커질수록 표본평균의 분포가 중심극한 정리에 의해, 정규분포의 종모양을 갖는것을 볼 수 있습니다. 

 

 

 

 

 

 

반응형