본문 바로가기
Statistics

[회귀]지수변수를 설명변수로서 포함한 회귀 모형, 교호작용에 대한 설명/ Indicator variable in regression model, Interaction /

by jangpiano 2021. 2. 15.
반응형

숫자로 표현된 설명변수와 반응변수의 관계를 파악하고, 이를 설명하는 최적의 회귀식을 찾는것을, 양적자료(quantitative data)를 기반으로 한 회귀분석 이라고 할 수 있습니다.

 

양적자료란, 수치로 측정하고 표현하는것이 가능한 자료입니다. 따라서, 수치형 자료(numerical data)로도 불리우죠. 

질적자료(qualitative data)란, 수치로 측정 및 표시가 불가능한 자료입니다. 성별 혹은 혈액형과 같이 집단을 구분하는 변수로서, 수치로 표현이 불가능한 분류 대상을 질적자료라고 하죠. 이는 범주형 자료(categorical data)로도 불립니다. 질적 자료가 회귀모형이 포함되는 경우를 살펴봅시다. 

 

<지시변수 indicator variable> 

 

범주형 자료의 구체적인 예를 생각해보았을때, 성별 혹은 질병의 유무를 들 수 있습니다.

지시변수는, 범주형 자료를 숫자로 표현한 변수라고 할 수 있습니다. 지시변수는, 0과 1  만으로 표현되며, 각각 범주의 영향이 있느냐, 없느냐를 의미합니다. 범주의 영향이 있는 경우, I = 1 로 표현, 범주의 영향이 없는 경우, I  = 0으로 표현합니다. 

 

예를들면, 암의 유무라는 범주형 자료를 가지고,  암에 걸리지 않은 환자를 0으로 표기하고 암에 걸린 환자를 1로 표기하는 것을 들 수 있겠죠. 혹은, 비흡연자를 0으로, 흡연자를 1로 표기한 변수를 지시변수라고 합니다. 

 

0과 1로 표현되는 지시변수는, 상호배타적(Mutually exclusive) 이라는 특징을 가지고 있습니다. 0과 1이라는 변수 사이에 교집합이 존재하지 않음을 의미하죠. 

 

지시변수가 포함된 회귀식에 대해서, 지시변수의 필요성에 대해서는, 지시변수 앞의 회귀계수가 유의한지에 대한 검정을 통해 알 수 있습니다. 회귀식을 Y = B0 + B1*X + B2*I +  ε 라고 하였을때 , I의 유의성에 대한 검정은 다음과 같습니다. 

H0 : B2 = 0 

따라서, H0이 기각되는 경우, I라는 지시변수가 표현하는 범주형 자료가 Y에 영향을 미친다고 결론 내릴 수 있습니다.

 

지시변수가 회귀모형이 포함되는 경우를 살펴봅시다. 


<하나의 특성, 두개의 범주>

 

'질병'이라는 하나의 특성은, 두개의 범주를 가지죠. 

범주를 각각, '질병의 유' 와 '질병의 무'로 표현할 수 있습니다. 이 범주는 각각 1과 0으로 표현되죠. 

 

I = 0 (질병의 무) 

I = 1 (질병의 유) 

 

하나의 설명변수와, 두개의 범주로 나누어지는 하나의 지시변수로 표현되는 모형은 다음과 같습니다. 

 

Y = B0 + B1*X + B2*I + ε

 

-특성이 존재하는 경우 : I = 1  ----> Y = (BO +B2) + B1*X + ε

 

- 특성이 존재하지 않는 경우 : I = 0  -----> Y = BO + B1*X + ε

 

<하나의 특성, 세개 이상의 범주>

 

하나의 특성을 가지고, 세개 이상의 범주로 나누어야 하는 경우, 지시변수의 수를, 나누어야 하는 범주의 수 -1 로 채택하여 표현 할 수 있습니다.  지시 변수의 수 = 범주의 수 - 1

 

예를들어, 나누어야 하는 범주가 3개 인경우, 지시변수 두개 ( I(1), I(2) ) 가 필요하겠죠. 

 

첫번째 범주는, I(1) = 1, I(2) = 0

두번째 범주는, I(1) = 0, I(2) = 1

세번째 범주는, I(1) = 0, I(2) = 0 로 표현 하게 됩니다. 

 

나누어야 하는 범주가 4개인 경우, 지시변수가 세개 ( I(1), I(2), I(3) )가 필요하겠죠. 

 

첫번째 범주는, I(1) = 1, I(2) = 0, I(3) = 0

두번째 범주는, I(1) = 0, I(2) = 1, I(3) = 0

세번째 범주는, I(1) = 0, I(2) = 0, I(3) = 1

네번째 범주는 I(1) = 0, I(2) = 0, I(3) = 0 으로 표현하게 됩니다. 

 

하나의 설명변수와, 세개의 범주로 나누어지는 지시변수를 포함한 회귀모형은 다음과 같습니다. 

Y = B0 + B1*X + B2*I(1) + B3*I(2) + ε

 

- 첫번째 범주에 속하는 존재하는 경우 : I(1) = 1, I(2) = 0  ---->Y = (B0 + B2) + B1*X + ε

 

- 두번째 범주에 속하는 경우 : I(1) = 0, I(2) = 1 ----> Y = (B0 + B3) + B1*X + ε

 

- 세번째 범주에 속하는 경우 : I(1) = 0, I(2) = 0 ----> Y = B0 + B1*X + ε

 

<두개 이상의 특성> 

 

앞서 하나의 특성에 범주가 나누어 지는 경우에서는 I라는 하나의 지시변수를 지정하였지만, 두개 이상의 특성을 고려해야 하는 경우, 각각의 특성에 대하여 지시변수를 정의해야 합니다. 

 

예를들어, 성별과 혈액형이라는 두개의 특성을 고려하는 경우, 성별은 두개의 범주로 나뉘고, 혈액형은 4개의 범주로 나뉘는 특성이죠. 

따라서 성별이라는 특성을 지시변수 I로 , 혈액형이라는 특성을 지시변수 D로 표현해 나타내면 다음과 같이 나타낼 수 있습니다. 

 

특성 1 :  I=  0 (남)   I = 1 (여) 

특성 2 : D(1) = 1, D(2) = 0, D(3) = 0--> A형 

             D(1) = 0, D(2) = 1, D(3) = 0--> B형 

             D(1) = 0, D(2) = 0, D(3) = 1--> 0형 

             D(1) = 0, D(2) = 0, D(3) = 0--> AB형 

 

하나의 설명변수와, 각각 두개, 4개의 범주로 나누어지는 두개의 지시변수(특성)을 포함한 회귀모형은 다음과 같습니다. 

 

Y = B0 + B1*X + B2*I + B3*D(1) + B4*D(2) + B5*D(3) + ε


<교호작용 interaction>

 

교호작용(interaction)이란, 설명변수간의 상호작용에 의해 각각의 설명변수와 반응변수의 관계만으로는(산술적으로 단순히 두 변수가 미치는 영향의 합으로는),  두 설명 변수에 의해 일어나는 반응변수를 예측 할 수 없는 경우를 말합니다. 

 

예를들어, 고혈압은 유전적 요인과 비만 등 여러가지 요인에 의해 발생합니다. 

비만과 유전적 요인에 의해, 고혈압이라는 질병의 유무를 예측한다고 하였을때, 비만과 유전적 요인에서 양의 교호작용이 일어나, 비만과 유전적 요인이 동시에 나타나는 경우, 고혈압의 위험성이 배 이상으로 더 늘어나는 경우 입니다. 

 

비만인 경우 고혈압 발생 정도가 2배로 늘어난다고 하고, 부모 중 한명에게서 고혈압이 나타나는 경우, 자녀의 고혈압 발생정도가 4배로 늘어난다고 하였을때, 비만을 가지고 있고 동시에 부모에게서 고혈압이 관측된다면, 고혈압 발생정도가 8배가 된다고 예측할 수 있습니다. 

 

하지만, 부모의 고혈압과 비만 사이에 양의 교호작용이 존재한다면, 두 요소가 모두 만족되었을때, 양의 교호작용에 의해 고혈압 발생정도가 8배를 넘게 됩니다. 

 

반대로 설명변수간에 음의 교호작용이 존재한다면, 고혈압 발생정도가 8배 미만이 되겠죠. 

 

설명변수 X와 지시변수 I 간의 교호작용이 일어난다면, XI라는 새 변수를 도입한 회귀모형이 적합합니다. 

따라서 두 변수간의 교호작용이 존재하는지에 대해서는, XI앞의 회귀계수가 유의한지에 대한 검정을 통해 알 수 있겠죠. 

 

교호작용을 포함한 모형이 Y = B0 + B1*X + B2*I + B3*XI + ε  라고 할때, 

XI 변수의 회귀계수 B3이 유의한지에 대한 검증을 통해 X와 I 사이의 교호작용이 일어나는지 검정 할 수 있는것이죠. 

H0 : B3 = 0

따라서, H0이 기각되는 경우,  X와 I 사이의 교호작용이 일어난다고 결론 내릴 수 있습니다. 

 

*교호작용에 대한 예시 (from Wikipedia) 

교호작용에 대한 확실한 이해를 돕기 위해 몇가지 예시를 더 찾아보았습니다. 

 

- 커피에 설탕을 첨가하는 것과 커피를 젓는 것 사이의 상호 작용. 두 개별 변수 중 어느 것도 단맛에 큰 영향을 미치지 않지만 두 변수의 조합은 효과가 있습니다.

 

기후 변화에 대한 일반 대중의 인식에 영향을 미치는 교육과 정치적 지향 간의 상호 작용. 예를 들어, 미국의 설문 조사에 따르면 인위적 기후 변화의 현실에 대한 수용은 온건하거나 자유주의적인 설문 조사 응답자들 사이에서 교육을받을수록 증가하지만 가장 보수적 인 설문 조사 응답자들은 교육을받을수록 감소합니다. 

 

- 강철에 탄소 첨가와 담금질 간의 상호 작용. 두 가지 모두 힘에 큰 영향을 미치지는 않지만 두 가지를 조합하면 극적인 효과가 있습니다.


<교호작용을 포함한 하나의 특성, 두개의 범주>

 

하나의 설명변수와, 두개의 범주로 나누어지는 하나의 지시변수, 그리고 설명변수와 지시변수 사이의 교호작용이 표함되는 모형은 다음과 같습니다.

 

Y = B0 + B1*X + B2*I + B3*XI + ε

 

-특성이 존재하는 경우 : I = 1  ----> Y = (BO + B2) + (B1 + B3)*X + ε

-특성이 존재하지 않는 경우 : I = 0  -----> Y = BO + B1*X + ε

 

<교호작용을 포함한 하나의 특성, 세개 이상의 범주>

 

하나의 설명변수와, 세개의 범주로 나누어지는 지시변수를 포함한 회귀모형은 다음과 같습니다.

Y = B0 + B1*X + B2*I(1) + B3*I(2) + B4*XI(1) + B5*XI(2) + ε

 

- 첫번째 범주에 속하는 존재하는 경우 : I(1) = 1, I(2) = 0  ---->Y = (B0 + B2) + (B1+B4)*X + ε

 

- 두번째 범주에 속하는 경우 : I(1) = 0, I(2) = 1 ----> Y = (B0 + B3) + (B1+B5)*X + ε

 

- 세번째 범주에 속하는 경우 : I(1) = 0, I(2) = 0 ----> Y = B0 + B1*X + ε

 

<교호작용을 포함한 두개이상의 특성> 

 

하나의 설명변수와, 각각 두개, 4개의 범주로 나누어지는 두개의 지시변수(특성)을 포함한 회귀모형은 다음과 같습니다.

 

Y = B0 + B1*X + B2*I + B3*XI + B4*D(1) + B5*D(2) + B6*D(3) + B7*XD(1) + B8*XD(2) + B9*XD(3) + B10*ID(1) + B11*ID(2) + B12*ID(3) +ε

 

 

 

 

 

 

 

반응형