본문 바로가기
Statistics

[회귀] 행렬을 이용한 다중회귀 모형, 최소제곱법에 의한 추정

by jangpiano 2021. 1. 21.
반응형

<다중회귀모형> 

 

다중회귀(Multiple regression)이란 두개 이상의 변수를 가지고 Y(반응변수) 의 변화를 설명하는 회귀모형이다. 

따라서, 다중회귀 모형에서의 2개 이상의 설명변수와, 각각의 변수에 대하여 n개의 자료값이 주어졌을때, 설명변수와 반응변수의 관계를 나타내는데 주로 행렬이 사용된다. 

 

 Y : n*1 벡터    X : n*(p+1) 행렬     B : (p+1)*1 벡터      ε  : n*1  벡터

 

 

다중회귀식은 행렬의 곱셈과 덧셈에 의해 성립되는데, 

행렬의 곱셈이 성립되기 위해서는, 첫째 행렬의 열(column) 개수와 둘째 행렬의 행(row) 개수가 동일해야 한다. 

 

X                *   B                +    ε  =  Y

n*(p+1) 행렬  *  (p+1)*1 벡터   +  n*1  벡터  =  n*1 벡터 

 

xi '          *     B          +     εi       = yi 

1*n 벡터  *  n*1 벡터   +   1*1벡터  = 1*1 벡터 

 

xi' = xi의 전치행렬(Transpose of xi)   

 

*전치행렬: 행렬의 행과 열을 교환하여 얻은 행렬로, n번째 행은, n번째 열이 된다. 

따라서, n*p의 행렬의 전치는 p*n이 된다.     

 

다중회귀식에서 사용되는 행렬의 곱셈과 덧셈이 모두 성립되므로, 다음과 같이 나타낼 수 있다. 

 

회귀모형에서는 오차에 대한 가정이 우선적으로 이루어지고, 

따라서 다중회귀 모형에서 역시 오차에 대한 몇가지 가정이 이루어져야 한다. 

 

1. 등분산성(constant variance)  : εi 는 σ^2로 동일한 분산을 가진다 

2. 독립성(independence) : cov(εi, εj ) = 0

3. 고정 오차는 존재하지 않는다 : E(ε) = 0 

 

다음과 같은 오차에 대한 가정들과 함께, 오차의 정규성 (오차가 정규분포를 따른다) 또한 가정되어야 한다. 정규성에 대한 가정은 다음과 같은 행렬식으로 표현 가능하다. 

 

4. 오차의 정규성 : εi ~N(0, σ^2*I)

 

오차의 평균이 0이고 분산이 σ^2로 일정한 정규분포를 따른다는 가정하에 반응변수(Y)의 벡터 역시 정규분포를 따른다. 

 

 

 

<최소제곱법에 의한 추정> 

 

최소제곱법에 대한 개념적 설명은 https://jangpiano-science.tistory.com/103 에서 자세히 서술하였으니 참고해주시기 바랍니다:) 

 

최소제곱법은 잔차의 제곱합을 최소화하는 회귀식을 찾는법을 의미한다. 즉, 잔차의 제곱합을 최소화하는 회귀계수(B) 추정량을 구하는 방법이다.  잔차 제곱합은 이차 함수로서, 볼록한 (convex) 형태로 나타난다. 라서, 회귀계수(B)와  잔차제곱합의 관계에서 기울기가 0 인 지점을 찾음으로서, 최적화된 회귀계수를 찾을 수 있게된다. 

즉, 잔차제곱합을 회귀계수 벡터 대하여 미분한 지점을 0 으로 하는 값을 찾음으로써 최적의 회귀추정식을 구할 수 있게 되는것이다. 

최종적으로, 잔차 제곱합을 최소로 만드는 회귀계수 추정량은, X'X의 역행렬이 존재하는 경우 다음과 같이 계산된다. 

(X'X)^(-1): X'X의 역행렬 (inverse matrix) 

*역행렬: A의 역행렬이란, A와 곱해졌을때, 항등행렬(identity matrix) 가 나오게 하는 행렬이다. 즉, A*A^(-1) = Ι. 항등행렬이란, 대각선의 원소가 모두 1이며, 나머지 원소는 모두 0인 정사각행렬이다.   

 

<증명>

 

<회귀계수 추정량의 비편향성(unbiasness)> 

 

최소제곱법으로 구한 회귀계수 추정량은 비편향성을 가진다. 

 

 

<증명>

 

 

<회귀계수(B) 추정량의 분산(variance)>

 

최소제곱법으로 구한 회귀계수 추정량의 분산, 정확히 말하면 분산-공분산 행렬은 다음과 같이 계산된다.

 

<증명>

 

 

<적합값 fitted values>

최소제곱법으로 구한 회귀계수 추정량을 이용해 적합값 벡터(vector of fitted values)를 다음과 같이 표현 할 수 있다. 

 

 

<잔차 residuals>

 

실제 관측된 Y 벡터와와 적합값 벡터의 차이인 잔차벡터는 다음과 같이 표현될 수 있다. 

 

 

<햇 행렬 hat matrix>

 

다음과 같은 행렬을 햇 행렬이라고 하고, H라고 표기한다. 

다중회귀분석에서 자주 사용되는 행렬로, H로 표기되고, 사영행렬(pro-jection matrix)라고 부르기도 한다. 

 

따라서 잔차 벡터를 햇 행렬을 사용하여 표기하면 다음과 같이 간결하게 표현할 수 있다. 

 

 

<잔차 제곱합 SSE>

 

적합값과 실제 관측값의 차이인 잔차의 제곱합(Sum of squares error) 은 다음과 같이 계산된다. 

 

<증명>

 

<분산의 추정량>

회귀분석에서  표본의 크기가 큰 경우, MSE를 분산의 추정량으로 사용한다. 

MSE란 SSE(잔차제곱합)을 SSE의 자유도로 나눈 값이다.

SSE의 자유도는 관측된 자룟값 - 모수의 개수이므로, 다중회귀에서는 MSE = SSE/ n-(p+1) 로 표현된다. 

 

따라서 , 회귀계수가 B0  부터 Bp 까지 p+1개인 경우, 분산의 추정량은 다음과 같다. 

 

절편 회귀계수(B0)가 없는경우, 회귀계수의 개수는 B1 부터 Bp 까지 p 개이므로, p+1 대신 p 가 사용된다. 

 

 

 

 

 

 

 

 

 

 

반응형