본문 바로가기
Statistics

[회귀] Method of least squares - 최소제곱법 / 단순 선형 회귀모형/ 특성 / 가우스 마코브 정리

by jangpiano 2021. 1. 3.
반응형

<단순 선형 회귀 모형 Simple Regression Model >

 

설명변수(X) 와 반응변수(Y) 의 관계성을 가지고, 설명변수 값만으로 반응변수값을 예측하는 학문인 회귀분석에서, 몇가지 가정들로 구성된 가장 간단한 회귀 모형이 '단순 선형 회귀 모형'이다. 

 

 

단순 선형 회귀 모형은 설명변수가 하나일때, 이 세가지 가정을 만족하는 경우 성립된다. 

 

1. 고정오차[각주:1]가 없다 --> 오차의 평균은 0이다. 

2. 모든 i 에 관하여 오차가 회귀모형과 같은 분산을 가진다 (σ^2).

3. 오차는 다른 오차에 영향을 주지 않는다 (상관 관계가 아니다.)

 

 

<최소제곱법>

 

통계학에서는 대부분, 모집단의 일부인, 표본집단을 통해 설명변수와 반응변수의 관계를 예측한다. 모집단을 모두 관측하는것은 비 효율적이며, 많은 경우에 실질적으로 불가능하기 때문이다. 

 

표본집단에서 회귀식을 얻은 경우, 이 회귀식을 통해 예측한 예측값과 실제 관측값의 차이를 우리는 '잔차' (ei) 라고 한다. 

최소제곱법은, 잔차의 제곱합을 최소화하는 회귀식을 찾는것을 의미한다. 

여기에서 회귀식을 찾는다는것은 곧, 회귀식을 구성하는 모수들을 찾는것이다. 

 

단순선형회귀 모형에서는 기울기모수(B0)와 절편 모수(B1)가 존재한다. 

즉, 단순선형 회귀 모형에 있어서, 최소제곱법으로 계산된 모수 추정량으로 구해진 잔차제곱합은 다른 어떤 추정방법보다 작은 값을 갖는다. 

 

우리가 예측한 회귀식이 B0+B1*X1 이고 실제 관측값이 Yi 임을 고려하여 잔차 제곱합을 표현하면, 이차 함수로서, 볼록한 (convex) 형태로 나타난다. 라서, 각각 B1(기울기) 와 B0(절편)과 잔차제곱합의 관계에서 기울기가 0 인 지점을 찾음으로서, 최적화된 기울기와 절편을 찾을 수 있게된다. 

즉, 잔차제곱합을 기울기에 대하여 미분한 지점을 0 으로 하는 값을 찾음으로써 최적의 기울기 추정량을 구할 수 있으며, 잔차제곱합을 절편에 대하여 미분하여, 0인 지점을 찾음으로써, 최적의 절편의 추정량을 구할 수 있다. 

정규방정식은, 기울기와 절편 모수에 대한 잔차제곱합의 기울기를 0으로 만드는, 즉 잔차제곱합의 기울기에 대한 (절편에 대한) 미분값을 0으로 만드는 연립 방정식을 말한다. 즉, 정규방정식을 만족시키는 모수값은 비용함수를 최소화하는 최적의 추정량이 된다.

 

정규방정식을 풀면, 우리는 아래와 같은 기울기 모수와 절편 모수에 대한 추정량을 얻게 된다. 

 

 

 

<최소제곱 추정량의 특징> 

 

1. 비편향성  - 최소제곱법으로 구한 기울기 추정량과 절편 추정량은 모두 비편향성을 지닌다. 

 

 

 

2.  기울기 추정량과 절편 추정량 모두 yi의 선형결합으로[각주:2] 표현된다. 

 

기울기 추정량을 구할때, ∑(xi - E(x))(yi - E(y)) 에서 ∑(xi - E(x))E(y) = 0 이다. 

따라서, 기울기 추정량은 yi의 선형결합으로 표현된다. 

 

절편 추정량은, 기울기 추정량의 선형결합 이므로, 

기울기 추정량이 yi 에 대한 선형결합이 됨에 따라 자연스럽게 yi 에 대한 선형결합이 된다. 

 

3. 기울기 추정량과 절편 추정량 모두 오차의 선형결합으로 표현된다. 

 

이 특성은 , 단순선형 회귀모형의 대체모형에 의한 특성으로, 이에 대해 먼저 설명하겠다. 

첫번째 모형은, 우리가 보편적으로 명시하는 단순 선형 회귀 모델이다. 하지만, 몇가지 이유에 의해 대체 회귀 모형이 제기되었다. 

 

이 모형은 단순 선형 회귀 모형의 모든 x 값에서 x의 평균값을 뺀 모형이다. 즉, 기울기는 같은 상태에서, y 축을  x 의 표본평균만큼 오른쪽으로 이동한 모형인 것이다. 

대체모형에서, xi - (x의 표본평균)의 평균이 0 이 되므로, 기울기(α)의 추정량은 y의 표본평균이 된다. 

 

변환하기 전의 선형회귀 모형을 살펴볼때, 우리는 절편(B0)의 추정량을 구하기 위해, 기울기(B1)의 추정량에 대한 정보를 필요로 한다. 즉, 기울기의 추정량 구해진 후에야 절편의 추정량을 구할수 있었던 것이다. 

 

하지만, 변환 모형에서 절편의 추정량이 y 의 표본평균이 되므로써, 더이상 기울기의 추정량에 영향을 받지 않게 된다. 

즉, 변환을 통해 우리는 기울기의 추정량과 절편의 추정량의 공분산이 0이라는 효과를 얻을 수 있다. 

 

 

이제,  대체 모형을 이용하여 기울기 추정량과 절편 추정량을 모두 오차의 선형결합으로 표현할 수 있다. 

간단히, Yi 에 대체 모형을 대입함으로써, 기울기 추정량과 절편의 추정량을 오차에 대한 선형결합으로 표현됨을 볼 수 있다. 

 

 

4. 추정량의 분산

 

추정량의 분산을 추정량을 yi 에 대한 선형결합으로 표현한 식을 이용하여 구할 수 있다. 

 

기울기의 추정량은 Sxx에 반비례 관계가 있음을 알 수 있다. 이는, 설명변수의 값이 광범위한 범위에서 수집되면, 기울기의 추정량의 분산이 작아짐을 의미한다.

 

절편의 분산에 있어서는, 첫번째 항은 통제할 수 없는 요소이다. x의 표본평균과 Sxx 의 값에 의해 복합적으로 분산의 크기가 결정된다. 

즉, 설명변수의 값이 광범위한 범위에서 수집되고, x의 표본평균이 작을수록 분산이 커진다. 

 

5. 

 

Yi 의 합은 Yi 의 추정량의 합과 같다. 

 

 

 

6.

 

설명변수의 값 또는 Y의 추정량을 가중값으로 하는 잔차의 가중합은 0이다. 

 

 

 

7. 

 

는 반드시 (x의 표본평균, y의 표본평균)을 통과한다. 

 

 

8.  SSE(Sum of Squared Error) 을 정리하면, 

 

 

 

 

9. 가우스-마르코프 ( Gauss - Markoff ) 정리

 

: 오차가 서로 독립이고, 오차의 분산이 동일하다는 (등분산성) 가정하에, 최소제곱법에 의해 구해진 선형 비편향 추정량의 분산이 yi 에 대한 선형 비편향 추정량 중 가장 작다. 추정량의 적합도를 판단하는 가장 중요한 1. 비편향성 과 2. 최소분산 이 만족되는것이다. 이러한 성질을 갖는 추정량을 '최량선형 비편향 추정량 (BLUE : Best linear unbiased estimator) 라고 부른다. 

 

오차가 서로 독립이고, 오차의 분산이 동일하다는 (등분산성) 조건하에, 최소제곱법에 의해 구해진 선형 비편향 추정량의 분산이 yi 에 대한 선형 비편향 추정량 중 가장 작다는것을 증명하기 위해, 기울기의 또다른 선형 추정량을 가정하겠다. 

 

본래의 선형 비편향 추정량의 계수인 ki 에 상수 ci 를 더하여 또다른 선형 추정량을 만든다. 가우스 마르코프 정리는 오차에 대한 위의 조건하에 최소제곱법에 의해 구해진 추정량이 선형 비편향 추정량들 중 가장 작은 분산을 가진다는 정리 이므로,  새롭게 가정한 이 추정량 ( Σ(ki +ci) yi )역시 비편향성이 만족되어야, 최소 제곱법에 의한 기울기 추정량( Σki*yi )과 분산을 비교하는것이 유의미해진다. 

 

 

 

 

 

 

 

 

 

 

 

  1. 가정하는 모형이 두 변수 사이의 참의 관계식을 반영하지 못할때 나타나는 차이. [본문으로]
  2. yi 에 상수가 곱해진 요소들의 덧셉으로 이루어진 식. [본문으로]
반응형