본문 바로가기
Statistics

정규분포 / 68-95-99.7 규칙/ 표준정규분포 / R

by jangpiano 2021. 5. 13.
반응형

<정규분포 - Normal distribution> 

오늘 포스팅에서 설명할 내용은, 통계학에서 가장 기본적이고 가장 중요한 기준이 되는 정규분포(Normal distribution) 입니다. 

통계학을 공부하면 공부할수록, 정규분포에 대한 정확한 이해의 필요성은 아무리 강조해도 부족하지 않을거라고 생각되어요. 

정규 분포가 무엇인지, 정규 분포가 가지는 특성이 무엇인지, 그리고 마지막으로 표준 정규 분포에 대해 차례대로 설명하겠습니다. 

 

<정규분포란?> 

정규분포에 대한 가장 정확하고 포괄적인 설명은 하나의 이미지로 설명될거같은데요, 

정규분포란, 통계학에서 매우 중요하게 다루는 연속 확률 분포(continuous probability distribution) 중 하나로서,

분포의 평균(mean) 과 표준편차(standard deviation)으로 완벽하게 분포가 결정되는, 좌우 대칭(symmetric)의 종 모양(bell-shape) 분포입니다.  

정규분포를 따르는 확률변수 X 에 대해, X ~ N(μ, σ^2) 로 표기하고, "확률변수 X 가 평균이 μ이고 표준편차가 σ인 정규분포를 따른다"고 표현합니다. 

 

정규분포를 적용할 수 있는 예시로, 한국 성인 여성의 키의 분포를 생각해 봅시다. 한국 성인 여성의 키는 평균을 중심으로 양쪽으로 대칭의 모습을 띕니다. 

한국 성인 여성의 키의 평균이 160cm 라고 할때, 우리는 160으로부터 멀어질수록, 관측값이 적게 분포한다는것을 유추 할 수 있어요. 190cm 와 130cm의 한국 성인 여성은 160cm 근처에서보다 적은 양으로 분포하겠죠? 이와 같은 경우, 평균을 중심으로 분포되어 있는 좌우 대칭의 정규분포를 적용하게 되는것입니다. 

 

정규분포의 확률 밀도 함수를 살펴보면, 다음과 같습니다. 확률 변수인 X와 평균(mu) 과 표준편차(sigma)에 대한 함수로 표현되는것을 봐서, 정규분포는 평균과 표준편차로 특징을 나타내는 분포라고 보실 수 있습니다. 평균에 의해 분포의 중심이 이동하며, 표준편차에 의해 분포의 퍼짐정도가 결정되죠. 

<평균과 표준편차> 

평균(Mean)이란, 기댓값(expected value)라고도 불리우며,  분포의 중심경향(central tendency)을 나타내는 정규분포의 모수(parameter)입니다. 

표준편차(Standard deviation)은 분포의 분산성(variability)를 나타내며, 분포의 퍼짐정도(variability)를 결정하는 정규분포의 또다른 모수입니다. 

 

정규분포는 평균과 표준편차에 의해 특징지어지는 분포이기 때문에, 평균과 표준편차의 변화에 의해 생김새가 변합니다. 

우선 정규분포는, 평균을 중심으로 대칭적인 모형(symmetric)을 띄고 있습니다. 따라서 평균의 변화는 분포의 수평적(horizontal) 이동을 초래하죠.

밑의 그래프는, R 을 이용해 평균만 다르게 설정해 그린 정규분포 입니다. 빨간색 선은 평균이 -3이고 표준편차가 1인 정규분포를 나타내고, 파란색 선은 평균이 3이고 표준편차가 1인 정규분포를 나타냅니다. 두 분포는 수평적 위치만 다를뿐, 표준편차는 동일하기 때문에 퍼짐정도는 변함이 없음을 볼 수 있습니다. 

그럼 이제 평균은 같지만, 표준편차가 다른 두 정규분포를 살펴봅시다. 표준편차는 정규의 분산성을 결정하는 모수입니다. 평균으로부터 얼마나 퍼져서 분포하는지를 결정하죠. 표준편차는 "분포의 중심으로부터 얼마나 떨어져서 분포하는지에 대한 평균적 수치"를 이야기 합니다. 따라서, 표준편차가 커질수록 평균으로부터 널리 분산되어 분포되어있는 분포를 생각 할 수 있겠죠. 반면에, 표준편차가 작아질수록 평균을 중심으로 집중되어 분포됩니다. 밑의 그래프는, R 을 이용해 표준편차만 다르게 설정해 그린 정규분포 입니다. 파란색선과 빨간색 선 모두 평균이 3으로 동일하며, 표준편차는 1과 3으로 각각 다르게 설정하였습니다. 두 분포는 평균이 같기 때문에, 좌우 대칭점인 분포의 중심은 동일하지만 표준편차가 다르기 때문에 평균으로부터의 분포정도가 다른것을 볼 수 있습니다. 

즉, 표준편차가 커질 수록 퍼짐정도가 커지죠. 

<68 - 95 - 99.7 규칙> 

68-95-99.7 규칙은 정규분포의 정말 중요한 특징 중 하나입니다. 

정규분포는 평균과 표준편차만으로 특징지어지는 확률분포라고 설명을 드렸었죠? 

이 평균과 표준편차를 가지고, 우리는 어느 구간에서 얼마만큼의 확률분포가 밀집되어있는지를 설명 할 수 있습니다. 

 

경험법칙을 한줄로 설명드리자면, "정규분포의 경우 [M-3*σ, M+3*σ] 구간에 대부분(99.7%)의 값들이 포함된다"는 정의입니다. 즉, X가 정규분포를 따른다고 할때, 대부분의 관측값(x)들이 평균으로부터 양쪽으로 3*표준편차 떨어진 구간 내에 들어간다는 뜻이죠. 

μ ± 1σ μ ± 2σ μ ± 3σ
about 68% observations  about 95% observations  about 99.7 observations 

=> 68%의 관측값이 평균으로부터 양쪽으로 표준편차가 떨어져 있는 곳 내에 분포한다. 

=> 95%의 관측값이 평균으로부터 양쪽으로 2*표준편차가 떨어져있는곳 내에 분포한다. 

=> 99.7%의 관측값이 평균으로부터 양쪽으로 3*표준편차가 떨어져있는곳 내에 분포한다. 

 

이 규칙에 의해, 정규분포의 평균과 표준편차가 알려져있다면, 우리는 68%의 관측값, 95%의 관측값, 99%의 관측값의 분포 및 범위를 파악 할 수 있죠. 

 

이와 관련하여, 경험규칙(The Empirical Rule)에 대해서도 간략히 설명하자면,

"정규분포를 따르는 관측 데이터의 대부분인 99.7%가 평균으로부터 3*표준편차 내에 존재한다"  입니다. 

 

<표준 정규 분포> 

 

평균과 표준편차에 의해 분포가 결정되는 정규분포, 그리고 이에 의해 성립되는 68-95-99.7 규칙까지 살펴보았습니다.

정규분포는, 평균과 표준편차에 의해 설명되는 분포이기 때문에, 평균과 표준편차가 서로 다른 두 정규분포를 비교할때 우리는 어려움을 겪습니다. 

 

토익과 토플을 예를 들어 설명해볼게요. 토익과 토플 모두 영어능력을 증명하기 위한 목적으로 만들어진 시험입니다. 하지만, 이 둘은 채점방법과 점수 합산 방법이 다르죠. 하지만, 이 두 시험의 점수의 공통점을 찾아보자면, 두 분포 모두 평균을 중심 좌우 대칭의 분포모형을 가정할 수 있겠죠?

 

대한민국 응시자를 대상으로, 토플의 평균이 75점, 표준편차가 5라고 해봅시다. 

반면에, 토익은 평균이 700점, 표준편차가 40이라고 해봅시다. 

 

A양이 토플은 85점을 맞았고, 토익은 900점을 맞았다고 할때, 우리는 기업에 어느 점수를 제공하는것이 유리하게 작용할까요?

둘의 기준이 상이하기 때문에, 둘중 유리하게 적용할 점수를 제출하기 힘듭니다. 

이 두 시험성적을 비교하기 위해 우리는 정규분포를 "표준화(standardization)"하게 되며, 다음 수식이 X 라는 확률 변수를 표준화하는 방법이죠. 

X에 평균을 뺀후 표준편차로 나누어준값을, 우리는 표준 점수 혹은 Z-점수(Z score)라고 부르며, "x가 평균으로부터 떨어진 표준편차의 수"를 의미합니다.  

표준점수는 평균이 0, 표준편차가 1로 고정된 표준 정규 분포(Standar Normal Distribution)을 따르게 됩니다. 

이렇게 각각의 분포에 대응하는 평균과 표준편차를 이용해 표준점수를 구하게 되면 우리는 표준점수를 바탕으로 두개 이상의 정규분포에서의 관측값을 비교할 수 있게 되는것이죠. 

토익(X) 토플(Y)
X ~ N( 75, 5^2 ) Y ~ N( 700, 40^2 )
Z = (85-75)/5 = 2 Z = (900 - 700)/40 = 5

표준점수가 높은 토플점수를 이력서에 기입하여 제출하는것이 훨씬 유리하다는것을 알 수 있으실겁니다. 

 

평균과 표준편차가 다른 정규분포를 따르는 확률변수 X 와 Y를 표준화 함으로써 N(0,1) 분포를 따르게 만들고, 이후 둘을 비교할 수 있게 되는 원리입니다.

 

X 확률 변수에서 특정 X = x 관측값에 대해 표준화를 진행시켰을때, 표준점수값이 음수면, x가 E(X)보다 작다는것을 우리는 수식을 통해서도, 표준점수가 따르는 표준정규분포의 모형에 의해서도 파악할 수 있습니다. 

Z<0 negative Z score x is below mean 
Z>0 positive Z score x is above mean

<표준정규분포표>

표준정규분포가 통계학에서 매우 기본적이며, 중요하게 쓰이는 이유는, 표준정규분포표의 존재 때문이라고도 말할 수 있습니다. 

표준정규분포표를 이용하면, 각각의 표준점수(z-score)에 따른 누적 분포 함수(Cumulative Distribution Function, CDF)를 구할 수 있습니다. 

누적 분포 함수는. 확률 변수 X가 특정 확률 변수 x 보다 작거나 같을 확률, 즉 P(X<=x)을 나타냅니다. 

 

표준 정규 분포를 따르는 Z에 대해서는 각각의 관측값인 z에 대해 누적 분포 함수가 나열되어있는 표준정규분포표가 존재합니다. 

즉, 표준정규분포표를 이용하여 표준정규분포를 따르는 Z의 관측값들에 대해, F(z) 인 P(Z<=z)의 값을 구할 수 있는것이죠. 

<표준정규분포표로 확률과 분위수 읽기> 

<R> 

학교 전체 수학점수와 영어점수의 분포를 비교해본다고 합시다. 

시험 성적을 검토할때, 주로 학생들은 학교 전체 평균 역시 살펴보죠? 평균과 표준편차를 알게되면, 본인의 실력이 어느정도에 위치하게 되는지 파악 할 수 있습니다. 

문제가 쉽게 나오면, 시험 성적이 좋아도 평균과 표준편차를 고려한 z-score 은 높지 않을 수 있고, 문제가 어렵게 나오면 평균이 낮아, 시험성적이 낮게 나와도 z-score 은 높게 평가될 수 있죠. 

그래서, 본인이 어느 수학과 영어 중, 어느과목을 더 잘했는지 객관적으로 살펴보려면 표준화가 이루어져야 합니다. 

이 예시를 구체적으로 사용하여, R 로 표준화 시키는 방법, 그리고 이를 그래프로 확인하기까지의 방법을 설명드릴게요. 

 

시험성적 역시 정규분포를 따르는 경향이 있어요. 각각의 평균을 중심으로 하여, 종 모형으로 분포되게 되죠. 이를 고려하여, 수학점수와 영어점수를 각각 설정하겠습니다. 

 

>score_math = rnorm(n = 1000, mean = 75, sd = 5)
>score_english = rnorm(n = 100, mean = 85, sd = 7)

 

>par(mfrow = c(1, 2))
>hist(score_math, freq = TRUE, breaks = 15, main = "Math score")
>hist(score_english, freq = TRUE, breaks = 15, matin = "English score")

표준화를 진행시켜 봅시다. R 내장 함수 scale() 함수를 이용해 수학점수와 영어점수를 표준화 시키죠. 

#scale 내장 함수 이용하기 

>z_math = scale(score_math)
>z_english = scale(score_english)

 

#직접 표준화 시키기 

> z_math = (score_math - mean(score_math))/sd(score_math)

> z_english = (score_english - mean(score_english))/sd(score_english)

 

각각의 변수에 대한 관측값들을 표준화 시키면, 분포가 평균을 0, 표준편차를 1로 하는 종모형을 관찰 하실 수 있어요.

>hist(z_math, freq = TRUE, breaks = 15, main ="math z-score")
>hist(z_english, freq = TRUE, breaks = 15, main = "english z-score")

좋은하루 보내세요:)

반응형