본문 바로가기
Statistics

[회귀]오차와 잔차, 표준화 잔차

by jangpiano 2021. 1. 29.
반응형

<오차와 잔차> 

오차와 잔차는 표기방식부터, 해석, 조건까지 정확하게 다른 값입니다.

 

오차(error)는 모집단(population)으로부터 추정한 회귀식으로부터 얻은 예측값과 실제 관측값의 차이를 이야기 합니다. 여기서 집중하셔야 할 점은 '모집단으로부터' 입니다. 즉 오차는, 추정한 회귀식과 모집단에서의 관측값의 차이를 말합니다. 

 

잔차(residual)는 표본(sample)으로 추정한 회귀식과 실제 관측값의 차이를 말합니다. 사실상 현상을 분석할때, 모집단의 모든 데이터를 축적하기 보다, 일부의 데이터(표본집단)에서 회귀식을 얻기 때문에, 잔차를 기준으로 회귀식의 최적의 회귀계수를 추정합니다. 잔차를 기준으로 최적의 회귀모형을 찾는 방법중 가장 대표적인 방법으로 '최소제곱법(method of least square)'을 말할 수 있습니다. 최소제곱법에 대하여 간략히 설명하자면, 잔차의 제곱합이 최솟값을 가질 수 있도록 모수를 추정하는 방법을 일컫습니다. 

 

오차와 잔차의 핵심적인 차이를 설명하였으니, 오차와 잔차에 대한 이해도를 높여봅시다:) 

 

<오차>

오차란, 모집단으로부터 추정한 회귀식으로부터 얻은 예측값과 실제값의 차이를 말하며, ε로 표기 됩니다.

 

<오차의 구성요소>

오차는 고정요소(fixed component)와 확률적 요소(random component)로 분류됩니다. 

고정요소란, 가정하는 회귀식이 변수들 사이의 참의 관계식을 반영하지 못할때 발생하는 고정 오차(fixed error) 를 말합니다. 따라서, 고정오차를 중심으로 가정한 모형이 관측값을 설명하기에 잘 적합되었는지를 판단하기 때문에, 이를 '적합결여오차(lack of fit error)'라고 부릅니다. 적합 결여 검정에서 '주어진 모형은 관측값을 설명하는데 적합하다. '라는 귀무가설을 기각하는 검정결과가 나왔다면, 우리는 회귀식에 고정오차가 존재한다고 할 수 있겠죠?

고정오차가 없는경우, 오차의 기댓값은 0이 됩니다. 

 

적합결여 검정에 대한 자세한 설명은 https://jangpiano-science.tistory.com/109 참고해주세요:)

 

오차의 확률적 요소는 일반적으로 세가지 형태로 구분할 수 있습니다. 첫째로 측정오차란(measurement error) 측정하고자 하는 관찰값과, 측정도구를 적용하여 얻은 측정값의 차이를 말합니다. 100%의 정확도를 가지고 변수의 값을 측정하는것은 불가능 하므로, 이는 거의 모든 모형에 존재한다고 할 수 있습니다. 이 외에도 확률적 요소로는, 모형에서 포함되어야할 설명변수의 부재로부터 일어나는 오차와, 자연 발생적으로 생겨나 통제불능한 오차(순수오차, Pure error) 이 있습니다. 

 

<오차에 대한 가정>

보통은 표본을 가지고 회귀식을 추정하기 때문에, 모집단으로부터 추정한 회귀식으로부터 얻은 예측값과 실제값의 차이인, 오차는 관측할수가 없겠죠. 따라서, 회귀분석에서는 관측할수 없는 오차에 대한 몇가지 가정을 전제로 회귀식의 모수들을 추정합니다. 
 
1. E( εi ) = 0 
2. Var( εi ) = σ^2 * Ι       "등분산성"
3. Cov( εi, εj) = 0       "독립성"
 
첫번째 가정은, 고정오차가 없다는 가정입니다. 즉, '모집단으로부터 추정한 회귀식은 모집단의 관측값을 설명하기에 적합하다' 라는 전제를 가지고 모수를 추정하는 거죠. 고정오차가 없으면, 오차의 평균은 0입니다. 
두번째 가정은, '모든 오차는 동일한 분산을 가진다.' 입니다. 이 가정은, 
세번째 가정은, 오차들이 서로에게 영향을 주지 않는다. 즉,  εi, εj 는 서로에게 상관관계를 가지지 않는다는 가정입니다. 
 
이러한 가정들이 성립하는 경우에 잔차의 제곱합을 최소로 만들어 모수를 추정하는 최소제곱법의 '가우스 마코브 정리'가 성립됩니다. 
가우스 마코브 정리란, '최소제곱법에 의한 추정량이 그 어떠한 모수에 대한 추정량보다 분산이 작다. 즉, 최량 선형 비편향 추정량이다' 란 정의를 의미합니다. 가우스 마코브 정리에 대한 자세한 설명은 https://jangpiano-science.tistory.com/103 이곳을 참고해 주세요:)
 
이 세가지 가정 이외에도, 관측할 수 없는 오차에 대한 가장 기본적인 분포는, 평균을 0, 분산을 σ^2으로 하는 정규분포 입니다. 
즉, 오차의 분포에 대한 가정은 기본적으로 εi~N(0, σ^2)인것이죠. 이 가정은 회귀분석에서 최소제곱법으로 구한 추정량의 분포에서 모수들에 대한 추론을 위해서 필요합니다. (회귀모수들의 T 검정과, F검정을 타당하게 하는 가정). 또 오차가 정규분포를 따른는 확률변수라고 가정하면, 최소 제곱법 말고최대가능도 방법 (maximum likelihood method) 을 통해서도 모수 추정이 가능합니다. 
 
따라서, 위 가정들을 모두 조합해 보았을때, 오차에 대한 가정을  εi~N(0, σ^2), Cov( εi, εj) = 0 로 표현할 수 있습니다. 
 
오차에 대한 정보가 구체적으로 명시되어 있고, 그것이 오차에 대한 가정에 어긋나는 경우, 이를 무시하는것은 옳지 않습니다. 위의 가정들을 옳다고 가정하고 모형을 추정하지만, 확실하게 오차가 위의 가정을 위반하는것이 관측되면, 이에 대한 교정과정을 거치는것이 통상적 절차입니다. 
또한, 오차에 대한 정보가 구체적으로 명시되어 있지 않은 경우에도, 오차의 정규성에 대한 검토가 가능한데, 이에 대한 진단은 잔차에 기초합니다. 오차는 관측되지 않는 변수이기 때문이죠. 
 

<잔차>

잔차는, 표본으로 추정한 회귀식과 실제 관측값의 차이를 일컫습니다. 사실상 현상을 분석할때, 일부의 데이터(표본집단)에서 회귀식을 얻기 때문에, 잔차를 기준으로 회귀식을 추정합니다. 이 추정법중에 가장 대표적인 방법은 '최소제곱법'입니다. 잔차의 제곱합이 최소값을 가질 있도록 모수를 추정하는 방법이죠. 잔차를 바탕으로 회귀식을 추정하고, 오차에 대한 진단을 할 수 있기 때문에, 잔차는 사실상 매우 중요한 값입니다. 

 

오차가 정규분포를 따른다면, 회귀모형 역시 정규분포를 따르고, 잔차는 회귀모형에 선형결합으로 표현될 수 있기에, 잔차역시 정규분포를 따르게 됩니다. 이는 다음과 같은 공식으로 증명되죠. 

 

오차에 대한 가정에 의해 잔차는 다음과 같은 분포를 이룹니다. 

잔차의 분산에서 살펴볼 수 있듯이, Var(ei) = σ^2(I - hii) 이기 때문에, 잔차의 분산은 hii에 반비례한다고 할 수 있겠죠. 즉, hii가 크면 i번째 잔차는 작은 분산을 가지게 되고 hii가 1에 가까운 경우, i 번째 잔차의 분산은 거의 0이 되는 반비례 관계를 나타냅니다. hii는 지렛값(leverage value)이라고 부릅니다. 햇 행렬(H)과 햇행렬의 대각원소인 지레값(hii)에 대한 자세한 설명은 다음에 올리겠습니다:)

 

< 잔차 R 코드 >

resid(lm(Y~., data = ))    #data 내에 있는 모든 설명변수에 대한 회귀적합 후 잔차.

resid(lm(Y~X1+X2+X3))  #X1, X2, X3(특정 설명변수들)에 대한 반응변수의 회귀적합 후 잔차.

 

<표준화 잔차> 

표준화 잔차(standardized residuals)란, 잔차 ei를 잔차의 표준오차로 나누어 표준화(standardized)하여 나타낸 것이다. 이를 스튜던트화 잔차(studentized residual)라고도 부른다. 스튜던트화 잔차는, 표준편차의 추정방법에 따라 두가지의 형태로 정의됩니다.

 

우선, ri로 표기되는 내적 스튜던트화 잔차 (Internally studentized residuals)는 분산의 추정값을 구할때, 모든 관측값을 고려하여 추정값을 구한다는 점에서 외적 스튜던트화 잔차와 차이를 가집니다. 

ri의 평균은 0이고 회귀모형이 적절하다면, 분산은 1로 갖습니다. 또한,  오차의 정규성의 가정 하에 스튜던트화 잔차는 95% -2 +2 사이에 위치하고, 99.7%가 -3과 +3 사이에 위치하죠. 따라서, 스튜던트화 잔차를 이용하여 오차의 정규성을 진단할 수 있을 뿐 아니라, +-2 혹은 +-3 벗어나는 비정상적인 점(outliers)들에 대한 유용한 정보를 있습니다.

 

< 내적 스튜던트화 잔차 R 코드 >

rstandard (lm(Y~. data = ))   #data 내에 있는 모든 설명변수에 대한 회귀적합 후 스튜던트화 잔차.

rstandard (lm(Y~ X1+X2+X3))   #X1, X2, X3(특정 설명변수들)에 대한 반응변수의 회귀적합 후 스튜던트화 잔차.

 

다음으로, ti로 표기되는 외적 스튜던트화 잔차 (Externally studentized residuals) 는, i 번째 관측값을 제외한 관측값들로 분산을 추정한다는 점에서  내적 스튜던트화 잔차와 차이가 생깁니다. 외적 스튜던트화 잔차는 자유도를 n-(p+1)-1로 가지는 t 분포를 따릅니다. 

외적 스튜던트화 잔차는, i 번째 관측값을 제외한 후 적합시킨 회귀모형에서 분산의 추정값을 얻는다는 점에서 다음과 같이 표기합니다. 

 외적 스튜던트화 잔차에 쓰이는 분산의 추정량에서 (i)의 표기는, i 번째 관측값을 빼고 적합시킨 회귀모형에서의 표준편차의 추정값입니다. 

이점에서, 모든 관측값을 고려해 분산의 추정값을 찾는 내적 스튜던트화 잔차와 차이를 가집니다. 

 

< 외적 스튜던트화 잔차 R 코드 >

studres (lm(Y~. data = )) 

studres (lm(Y~ X1+X2+X3)) 

반응형