회귀분석에서의 분산분석과 결정계수/ Anova in Regression Analysis

하나의 설명변수와 반응변수의 관계로 나타내어지는 단순회귀 모형을 추정과정을 마친 후에는, 추정회귀식의 타당성을 확인하여야 한다.

추정량의 타당성은 보통, 분산의 크기에 의해 결정되곤 한다.

앞선 포스팅에서 최소분산 비편향 추정량의 정당성을 설명하였듯이, 분산은 추정량의 타당성을 확인하기 위한 중요한 요소이다.

즉, 추정회귀식의 분산을 더 작게 만드는 모형이 현상을 더 바람직하게 설명한다는 것이다.

이렇게 분산에 의해 추정회귀식의 타당성을 비교하는 방법을 '분산분석(Analysis of variance / Anova)' 라고 한다.

설명변수와 반응변수의 관계를 추정하는 회귀식에 기울기 모수가 포함되어 있다는것은, 변수들이 선형관계에 있다는것을 보여준다.

즉, 추정관계식에 기울기 모수가 포함되어 있는 모형의 적합성이 분산분석에 의해 증명이 된다면, 설명변수와 반응변수가 선형관계임을 보일 수 있는것이다.

<분산분석>

단순 회귀식에서의 기울기는, 두 변수간의 선형관계를 보여주는 중요한 요소이다.

기울기(B1)를 포함하는 단순 회귀 모형은, 변수간의 선형관계를 보여주는 모델이고, 기울기 모수를 포함하지 않는 회귀모형은, 변수간의 선형관계가 성립하지 않음을 의미한다.

따라서, 우리는 어떠한 현상을 설명하기에 앞서 , 기울기가 있는 추정회귀식이 적절한지, 기울기가 없는 추정회귀식이 적절한지 결정할 필요가 있다. 모형 1과 모형 2의 추정회귀식에는 기울기 모수의 유무라는 큰 차이가 있고. 이에 의해, 두 모형의 잔차제곱합(SSE -Sum of Square Error) 역시 다르게 계산된다.

따라서 위의 내용을 다시 정리하자면, 우리는 기울기(B1) 모수를 포함하는 모형(설명변수와 바응변수 사이의 선형관계)의 타당성을 증명하기 위해 ( H0 을 기각하기 위해 ) 다음과 같은 대립가설과 귀무가설을 검정한다.

기울기 모수가 없는 모형2에 기울기 모수를 추가함으로써, SSE 가 줄어드는 정도를 SSR 이라고 표기한다. 즉, 기울기 모수인 B1을 모형2에 추가함으로써, 잔차제곱합을 SSR 만큼 줄일 수 있게 되는것이다. 따라서, SSR 이 얼마나 큰냐에 따라 회귀식의 타당성이 결정된다. SSR의 크기는, 기울기 모수를 포함시킴으로써 잔차제곱합이 작아지는 정도를 의미하기 때문이다.

SST: 총편차의 제곱합 (총 제곱합 - total sum of squares)

SSE: 잔차들의 제곱합 (잔차 제곱합 - residual sum of squares / 오차 제곱합 - error sum of squares)

SSR: 회귀식에 의해 설명된 변동 (회귀 제곱합 - regression sum of squares)

*기울기 모수를 포함한 추정회귀식의 잔차제곱합 - 기울기 모수를 포함하지 않은 추정회귀식의 잔차제곱합 을 나타내는 SSR 을 다음과 같이 정리할 수 있다*

추정회귀식의 타당성을 판단하기 위해서는 오차가 평균은 0으로, 분산은 회귀모형의 분산으로 가지는 정규분포를 따른다는 가정을 해야한다.

~~~~~~~~~

오차가 정규분포를 따르고 독립적이라고 가정하면, 반응변수의 관찰값 yi 역시 정규분포를 따른다.

즉, 추정회귀식의 타당성을 판단하기 위해서는, 오차가 정규분포를 따른다는 가정을 함으로써, 반응변수의 관찰값 yi 역시 정규분포를 따른다고 가정한다.

~~~~~~~~~~

yi의 표준화를 통해 표준정규분포로 만들면, SST, SSR, SSE 에 대한 분포이론을 카이제곱분포(Chi - square distribution)로 나타낼 수 있다. 이에 대한 자세한 증명은 https://jangpiano-science.tistory.com/33 이곳을 참고하길 바란다.

SSR 과 SSE는 서로 독립된 확률변수이며, 이 두 변수는 각각 자유도가 1이고 n-2인 카이 제곱 분포 형태로 표현될 수 있다. 따라서 이 두 변수의 비율형태는 F 확률 분포로 표현될 수 있다. 즉 회귀식의 타당성은 표준화시킨 SSR (MSE) 값의 크기에 의해 결정되고, 이는 F 분포를 기준으로 한다.

*카이제곱 분포와 F 분포 사이의 관계성은 https://jangpiano-science.tistory.com/55에서 자세히 서술된다.*

통계학에서 매우 널리쓰이는 분산분석 표는 위 내용을 한눈에 정리한 표일 뿐이다.

<결정계수>

결정계수 (Coefficient of determinnation) 이란 SSR의 SST에 대한 비율이다. 즉, 총 변동 중 회귀모형(기울기 모수를 포함한 모형)에 의하여 설명되어지는 변동의 크기를 의미한다. SSR의 크기가 설명변수와 반응변수의 선형관계를 나타냈고, 따라서 SSR 이 클수록, 기울기 모수의 타당성이 증명되며 설명변수와 반응변수의 선형관계가 설명되었다. 이애 대한 당연한 결과로서, 결정계수가 1에 가까울 수록 두 변수 사이의 선형관계가 강함을 나타내고, 0에 가까울수록 두 변수간의 선형관계가 약하다고 정의할 수 있다.

*결정계수 = 두 변수 사이의 상관변수의 제곱

~~~~~~~~~~~~~

하지만, 결정계수는 자료의 구성형태에 따라 값이 결정된다는 특성에의해, 통계모델의 정확성에 관한 절대적인 지표로 사용되지는 않는다.

저작자표시

Jangpiano Science

회귀분석에서의 분산분석과 결정계수/ Anova in Regression Analysis

티스토리툴바