본문 바로가기
Statistics

[회귀] 다중회귀에서의 분산분석과 수정결정계수/ Anova in Multiple Regression /

by jangpiano 2021. 2. 1.
반응형

두개 이상의 설명변수(X)와 반응변수(Y)의 관계로 나타내어지는 다중회귀(Multiple Regression) 모형의 추정을 마친 후에는, 추정 회귀식의 타당성을 확인해야 합니다. 추정량의 타당성은 보통 분산의 크기에 의해 결정되곤 합니다. 추정량이 비편향 추정량일때, 손실함수로 사용되는 평균 제곱 오차(Mean Squared error) 추정량의 분산이 최소화될때, 최소화 되기 때문입니다. *이에 대한 증명은 https://jangpiano-science.tistory.com/61 를 참고해주세요:) 따라서, 분산은 추정량의 타당성을 확인하기 위한 중요한 요소가 되고, 따라서 추정회귀식의 분산을 더 작게 만드는 모형이 현상을 설명하기에 더 바람직하다고 결론 내릴 수 있다. 

 

이렇게 분산에 의해 추정회귀식의 타당성을 비교하는 방법을 '분산분석(Analysis of Variance-Anova)'라고 한다.

 

두개 이상의 설명변수와 반응변수의 관계를 추정하는 다중회귀식에서 기울기 모수(Bi)가 존재하는 설명변수(Xi)에 대해서는, 설명변수와 반응변수간의 상관관계가 존재한다고 할 수 있습니다. 반면에, 모든 설명변수(X1, X2, ..., Xp)의 기울기 모수가(B1, B2, ...Bp)가 0이라고 한다면, 반응변수와 설명변수 사이에 아무런 선형의 상관관계가 없다고 할 수 있겠죠. 다음과 같은 결론에 이르게 되면, 우리는 주어진 설명변수들로 반응변수를 예측할 수 없게 됩니다. 

 

따라서, 우리는 회귀식을 바탕으로 주어진 현상을 설명하기에 앞서, 설명변수와 반응변수들 사이에 선형관계가 존재하는지 혹은, 반응변수가 모든 설명변수와 아무런 선형의 상관관계가 존재하지 않는지 알아보는 검토를 실행해봅시다. 

 

<분산분석>

 

회귀식에서, 기울기 모수라고 불리는 회귀계수(Bi)는 설명변수와 반응변수의 상관관계를 보여주는 중요한 요소입니다. 회귀계수 를 포함한 회귀모형은 설명변수와 반응변수 사이에 어떠한 상관관계가 존재한다는것을 의미하고, 회귀계수가 모두 0인 (즉, 회귀계수의 타당성이 증명되지 않은) 회귀모형은 설명변수와 반응변수의 상관관계가 존재 하지 않음을 의미하죠. 

 

 

<모형1>은 '적어도 하나의 회귀계수는 0이 아니다. '를 의미합니다. 즉, 적어도 하나의 설명변수는 반응변수와의 상관관계를 갖는다는것을 의미합니다.  따라서, 설명변수와 반응변수의 상관관계가 발견되고, 따라서, 유의미한 기울기에 의해 변수들의 관계가 설명될 수 있다면, 회귀식을 위 그림에서 <모형1>로 표현 할 수 있을것이고, 모든 설명변수가 반응변수와 상관관계가 없다면, <모형 2>로 회귀식이 표현된다고 할 수 있습니다. 

 

모형 1과 모형 2는 기울기 모수의 유무라는 큰 차이가 있고, 이에 의해 두 모형의 잔차제곱합은(SSE - Sum of Square Error)는 다르게 계산됩니다. 모형1에서의 잔차(ei)는 다음과 같이 표현됩니다.  ei =  yi - (Bo + B1*X1 + B2*X2 +B3*X3 +....+Bp*Xp)

반면의 모형 2에서의 잔차(ei)는 다음과 같이 표현됩니다. ei = yi - E(Y

 

따라서, 모형 1(기울기 모수가 포함된 모형)에서의 잔차제곱합을 SSE(Sum of Square Error)라고 표현하고. 모형 2(기울기 모수가 포함되지 않은 모형)에서의 잔차제곱합을 SST(Total Sum of Squares) 라고 표현하겠습니다. 

SST와 SSE의 관계식은 다음과 같이 나타낼 수 있습니다. 

제곱의 표기로 표현된 단순회귀에서의 관계식과는 달리, 행렬을 이용한 다중회귀에서는 다음과 같이 SST, SSE, SSR 이 계산됩니다. 행렬의 사용에 의한 단순한 표기변환이 이루어졌다고 생각하시면 될거같아요. 

 

SSE와 SST의 차이를 나타내는 SSR(Regression sum of squares)는 회귀식에 의해 설명된 변동을 의미합니다. 

즉, SST는 정해져 있는 수이기 때문에, SSR이 커지면, SSE가 줄어들고, SSR이 줄어들면 SSE가 커지는 관계성을 보실 수 있으실겁니다. 

SSE는 기울기 모수를 포함한 회귀식의 잔차제곱합이기에, SSE가 작을수록 실제 관측값과 회귀식에 의한 예측값의 크기가 작다는 의미이기 때문에, 회귀식의 타당성이 증명되겠죠. 

따라서, SSE와 SSR의 반비례성에 의해, SSR이 클수록, 모형 1(기울기 모수를 포함한 모형)의 타당성이 증명된다고 할 수 있습니다. 

SSR의 크기는, 기울기 모수를 포함시킴으로써, SSE가 작아지는 정도를 의미하죠. 

 

다시한번, SST, SSE, SSR에 대해 정리해보자면, 

SST: 총 편차의 제곱합 (기울기 모수를 포함하지 않은 모형에서의 SSE)   : 총 제곱합(Total Sum of Squares)

SSE: 잔차들의 제곱합 (기울기 모수를 포함한 모형에서의 SSE)  : 잔차 제곱합(Residual Sum of Squares)

SSR: 회귀식에 의해 설명된 변동 ( 기울기 모수를 포함함으로써, SSE가 작아지는 정도) : 회귀 제곱합(Regression Sum of Squares)

 

SST, SSE, SSR의 크기에 의해 우리는 기울기 모수를 포함시킨 회귀식의 타당성(설명변수와 반응변수의 상관성)을 증명할 수 있고, 이 타당성을 증명하기 위해 다음과 같은 가설을 검정합니다. 

SSR이 충분히 크다고 생각되면 우리는 H0, 귀무가설(Null Hypothesis)를 기각하게 되고 H1 대립가설(Alternative Hypothesis)를 받아들이게 됩니다. 

 

<SST, SSE, SSR과 그들의 분포> 

 

SST, SSE, SSR을 각각 다음과 같이 나타낼 수 있다. 수식에 대한 증명을 보시려면 증명을 보시려면 [증명]을 클릭해주세요.

기본적으로 회귀분석을 수행하는 과정에 있어서 R, SAS 등 통계툴을 많이 사용하기 때문에, 회귀식이 타당한지에 대한 결론을 내리기 위해서는 절대적으로 알아야 하는 과정이 아니지만, 전반적인 이해를 위해선 읽어보시는것을 추천드려요:) 

 

 

 

 

추정회귀식이 타당한지를 판단하기 위해서는, 오차가 정규분포를 따른다는 가정이 성립되어야 합니다. 즉, 다중회귀 모형을 설명하는 이전 포스팅에서, 오차에 대한 분포를 가정했습니다. 오차에 대한 정규분포와 독립성이 만족된다는 가정 하에, SSE와 SSR은 서로 독립된 비중심 카이제곱분포(noncentral chi-squared distribution)을 따릅니다. SSE와 SSR의 비중심 모수 모두 기울기 모수의 함수로 표현되기 때문에,

기울기 모수(B1, B2, B3,..., Bp)가 모두 0이라는 가정 하에 비중심 모수는 0이 되고 따라서 카이 제곱 분포를 따르게 됩니다. 

 

또한, SSE와 SSR의 독립성이 증명되며, SST = SSR + SSE 라는관계식에 의해 SST가 SSR과 SSE의 카이제곱 분포의 자유도(p, n-p-1)를 더해 나온 n-1을 자유도로 가지는 카이제곱 분포를 따름을 알 수 있습니다. 

즉, H0(귀무가설: Null Hypotheiss) 가정하에, SSR, SSE, SST 모두 카이제곱 분포를 따르게 되는거죠. 

 

카이제곱 분포에 대한 설명은 https://jangpiano-science.tistory.com/33 을 참고해주세요:)

 

<proof>

 

<theory>

위 이론을 풀어 설명하자면, Y가 평균을 M으로 하는 정규분포(normal distribution)를 따를때, Y'AY는 비중심 모수를 A의 계수로 하는 비중심 카이제곱 분포를 따른다는것의 필요충분 조건은 A가 멱등행렬(idempotent matrix)라는 것이다. 

 

*멱등행렬(Idempotent matrix) :A^2 = A*A = A 인 행렬 

 

기울기 모수 벡터 B가 0이면, 비중심 모수(λ)이 0이 되어, SSE/σ^2는 자유도를 n-(p+1)로하는 카이제곱 분포를 따른다.

 

기울기 모수 벡터 B가 0이면, 비중심 모수(λ)이 0이 되어, SSR/σ^2는 자유도를 p로하는 카이제곱 분포를 따른다.

 

<Theory 2>

 

 

따라서, Y ~ N(M, σ^2 * Identity Matrix(I))이므로, Y'AY와 Y'BY가 독립일 필요충분 조건은 AB = 0 이다.

 

 

다중회귀에서 귀무가설(B1 = B2 = B3 = ...= Bp = 0)하에,

MSR/MSE 는 자유도를 df1 = p,  df2 = n-(p+1)로 가지는 F 분포를 따른다고 할 수 있습니다. 

 

F 분포가 카이제곱 분포의 비로 표현되는것에 대한 자세한 내용과 증명은 https://jangpiano-science.tistory.com/55 에서 확인해주세요:)

 

*MSE는 SSE를 SSE의 자유도인 n-(p+1)로 나눈것 (평균의 의미를 가짐)

*MSR은 SSR을 SSR의 자유도인 p로 나눈것  (평균의 의미를 가짐) 

 

즉, 회귀식의 타당성은 MSR을 MSE로 나누어 표준화 시킨값의 크기에 의해 결정되고, 이는 F 분포를 기준으로 합니다. 

 

따라서, 유의수준을 α (보통은 0.05)로 설정한 검정(F-test) 에서 MSR/MSE 로 계산된 F 통계량 (F-statistics)이,  F ( a = 0.05, df1 = p, df2 = n-(p+1)) 분포의 기각영역에 포함될때, H0을 기각하고 H1을 받아들이게 되는것이죠. 

 

다시 한번 수식으로 설명하자면, 유의수준(significance level)이 0.05로 설정되었을때,

MSR/MSE > = F(0.05, p, n-p-1)  --> reject H0 (귀무가설 null hypothesis), accept H1 (대립가설 alternative hypothesis)

MSR/MSE <= F(0.05, p, n-p-1)  --> do not reject H0 

 

즉 계산되어진 F 통계량이(MSR/MSE) F(0.05, p, n-p-1) 보다 크면, B1 = B2 = B3 = ... = Bp = 0 이 기각되면서, 설명변수와 반응변수의 상관성이 증명되는것입니다. 

 

통계학에서 널리 쓰이는 분산분석표(Analysis of Variance)는 위 내용을 한눈에 정리할 표일 뿐입니다. 

복잡한 수식과 행렬,  정의와 증명에 의해 추출된 표이지만, 통계분석 툴을 사용하면 매우 쉽게 구하실 수 있어요 ^^ (다음 포스팅에서 이를 R 로 쉽게 도출하는 방법을 설명하겠습니다)

 

<수정 결정계수> 

 

설명변수가 하나인 단순 회귀 모형에서는 결정계수(Coefficient of determination) R^2 (SSR의 SST에 대한 비율)을 통해 변수간의 선형관계성을 파악해보았습니다.

결정계수는, 총 변동 중 회귀모형(기울기 모수)에 의해 설명되는 변동의 크기를 0과 1사이의 숫자로 나타내었습니다.

결정계수가 1에 가까우면 설명변수와 반응변수 사이의 강한 선형관계 나타내었고, 0에 가까우면 변수간의 선형관계가 약하다고 결론 내렸었죠. 

단순회귀에서는, 결정계수가 기울기 모수를 회귀모형에 포함해야 하는지 말아야 하는지에 대한 결정에 도움을 주었다면, 다중회귀모형에서는 약간의 변환이 필요합니다. 

 

다중회귀에서는 수정 결정계수(Adjusted Coefficient of determination)을 사용합니다. 

반응변수의 변화를 설명하지 못하는 설명변수가 모형에 추가되어도 결정계수의 값이 커질 수 있다는 리스크를 감안하여, 고안된 지표입니다. 수정 결정계수를 계산할때에는, 설명변수의 개수(p)가 많아질수록 결정계수가 커짐을 감안하여, 표본의 크기(n)와 독립변수의 수(p)를 고려하여 계산됩니다. 분자와 분모에 각각 SSE와 SSR의 자유도를 나누어진 조정된 비 입니다. 따라서 결과적으로, 변수가 추가될때마다, 추가되는 변수가 유의한 변수인지와 관계없이 결정계수가 계속해서 커지는 리스크를 축소시킨 지표가 수정결정계수 인거죠. 

수정계수 역시 0에 가까울수록, 설명변수(X1, X2, X3,...Xp)와 반응변수(Y)의 상관관계가 적다고 할 수 있고, 1에 가까울 수록, 설명변수와 반응변수간의 상관관계가 크다고 할 수 있습니다. 

 

따라서, 하나의 X값에 대해 두개 이상의 다른 Y값이 관측되는 경우, 변수간의 완벽한 선형관계는 성립되지 않기 때문에, 수정 결정계수가 1이 될 수는 없습니다. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형