<다중회귀모형>
다중회귀(Multiple regression)이란 두개 이상의 변수를 가지고 Y(반응변수) 의 변화를 설명하는 회귀모형이다.
따라서, 다중회귀 모형에서의 2개 이상의 설명변수와, 각각의 변수에 대하여 n개의 자료값이 주어졌을때, 설명변수와 반응변수의 관계를 나타내는데 주로 행렬이 사용된다.
Y : n*1 벡터 X : n*(p+1) 행렬 B : (p+1)*1 벡터 ε : n*1 벡터
다중회귀식은 행렬의 곱셈과 덧셈에 의해 성립되는데,
행렬의 곱셈이 성립되기 위해서는, 첫째 행렬의 열(column) 개수와 둘째 행렬의 행(row) 개수가 동일해야 한다.
X * B + ε = Y
n*(p+1) 행렬 * (p+1)*1 벡터 + n*1 벡터 = n*1 벡터
xi ' * B + εi = yi
1*n 벡터 * n*1 벡터 + 1*1벡터 = 1*1 벡터
xi' = xi의 전치행렬(Transpose of xi)
*전치행렬: 행렬의 행과 열을 교환하여 얻은 행렬로, n번째 행은, n번째 열이 된다.
따라서, n*p의 행렬의 전치는 p*n이 된다.
다중회귀식에서 사용되는 행렬의 곱셈과 덧셈이 모두 성립되므로, 다음과 같이 나타낼 수 있다.
회귀모형에서는 오차에 대한 가정이 우선적으로 이루어지고,
따라서 다중회귀 모형에서 역시 오차에 대한 몇가지 가정이 이루어져야 한다.
1. 등분산성(constant variance) : εi 는 σ^2로 동일한 분산을 가진다
2. 독립성(independence) : cov(εi, εj ) = 0
3. 고정 오차는 존재하지 않는다 : E(ε) = 0
다음과 같은 오차에 대한 가정들과 함께, 오차의 정규성 (오차가 정규분포를 따른다) 또한 가정되어야 한다. 정규성에 대한 가정은 다음과 같은 행렬식으로 표현 가능하다.
4. 오차의 정규성 : εi ~N(0, σ^2*I)
오차의 평균이 0이고 분산이 σ^2로 일정한 정규분포를 따른다는 가정하에 반응변수(Y)의 벡터 역시 정규분포를 따른다.
<최소제곱법에 의한 추정>
최소제곱법에 대한 개념적 설명은 https://jangpiano-science.tistory.com/103 에서 자세히 서술하였으니 참고해주시기 바랍니다:)
최소제곱법은 잔차의 제곱합을 최소화하는 회귀식을 찾는법을 의미한다. 즉, 잔차의 제곱합을 최소화하는 회귀계수(B) 추정량을 구하는 방법이다. 잔차 제곱합은 이차 함수로서, 볼록한 (convex) 형태로 나타난다. 따라서, 회귀계수(B)와 잔차제곱합의 관계에서 기울기가 0 인 지점을 찾음으로서, 최적화된 회귀계수를 찾을 수 있게된다.
즉, 잔차제곱합을 회귀계수 벡터 대하여 미분한 지점을 0 으로 하는 값을 찾음으로써 최적의 회귀추정식을 구할 수 있게 되는것이다.
최종적으로, 잔차 제곱합을 최소로 만드는 회귀계수 추정량은, X'X의 역행렬이 존재하는 경우 다음과 같이 계산된다.
(X'X)^(-1): X'X의 역행렬 (inverse matrix)
*역행렬: A의 역행렬이란, A와 곱해졌을때, 항등행렬(identity matrix) 가 나오게 하는 행렬이다. 즉, A*A^(-1) = Ι. 항등행렬이란, 대각선의 원소가 모두 1이며, 나머지 원소는 모두 0인 정사각행렬이다.
<증명>
<회귀계수 추정량의 비편향성(unbiasness)>
최소제곱법으로 구한 회귀계수 추정량은 비편향성을 가진다.
<증명>
<회귀계수(B) 추정량의 분산(variance)>
최소제곱법으로 구한 회귀계수 추정량의 분산, 정확히 말하면 분산-공분산 행렬은 다음과 같이 계산된다.
<증명>
<적합값 fitted values>
최소제곱법으로 구한 회귀계수 추정량을 이용해 적합값 벡터(vector of fitted values)를 다음과 같이 표현 할 수 있다.
<잔차 residuals>
실제 관측된 Y 벡터와와 적합값 벡터의 차이인 잔차벡터는 다음과 같이 표현될 수 있다.
<햇 행렬 hat matrix>
다음과 같은 행렬을 햇 행렬이라고 하고, H라고 표기한다.
다중회귀분석에서 자주 사용되는 행렬로, H로 표기되고, 사영행렬(pro-jection matrix)라고 부르기도 한다.
따라서 잔차 벡터를 햇 행렬을 사용하여 표기하면 다음과 같이 간결하게 표현할 수 있다.
<잔차 제곱합 SSE>
적합값과 실제 관측값의 차이인 잔차의 제곱합(Sum of squares error) 은 다음과 같이 계산된다.
<증명>
<분산의 추정량>
회귀분석에서 표본의 크기가 큰 경우, MSE를 분산의 추정량으로 사용한다.
MSE란 SSE(잔차제곱합)을 SSE의 자유도로 나눈 값이다.
SSE의 자유도는 관측된 자룟값 - 모수의 개수이므로, 다중회귀에서는 MSE = SSE/ n-(p+1) 로 표현된다.
따라서 , 회귀계수가 B0 부터 Bp 까지 p+1개인 경우, 분산의 추정량은 다음과 같다.
절편 회귀계수(B0)가 없는경우, 회귀계수의 개수는 B1 부터 Bp 까지 p 개이므로, p+1 대신 p 가 사용된다.
'Statistics' 카테고리의 다른 글
[회귀] 다중회귀에서의 분산분석과 수정결정계수/ Anova in Multiple Regression / (1) | 2021.02.01 |
---|---|
[회귀]오차와 잔차, 표준화 잔차 (2) | 2021.01.29 |
[회귀] 다중회귀에서 조정된 회귀계수와 최종회귀식 R (0) | 2021.01.14 |
[회귀] Lack of fit test with R/ Simple Linear regression/ 적합 결여 검정 / 단순 선형 회귀 (0) | 2021.01.13 |
[회귀] 단순회귀분석에서의 구간추정과 가설검정 (1) | 2021.01.10 |