본문 바로가기
반응형

분류 전체보기123

[회귀]지수변수를 설명변수로서 포함한 회귀 모형, 교호작용에 대한 설명/ Indicator variable in regression model, Interaction / 숫자로 표현된 설명변수와 반응변수의 관계를 파악하고, 이를 설명하는 최적의 회귀식을 찾는것을, 양적자료(quantitative data)를 기반으로 한 회귀분석 이라고 할 수 있습니다. 양적자료란, 수치로 측정하고 표현하는것이 가능한 자료입니다. 따라서, 수치형 자료(numerical data)로도 불리우죠. 질적자료(qualitative data)란, 수치로 측정 및 표시가 불가능한 자료입니다. 성별 혹은 혈액형과 같이 집단을 구분하는 변수로서, 수치로 표현이 불가능한 분류 대상을 질적자료라고 하죠. 이는 범주형 자료(categorical data)로도 불립니다. 질적 자료가 회귀모형이 포함되는 경우를 살펴봅시다. 범주형 자료의 구체적인 예를 생각해보았을때, 성별 혹은 질병의 유무를 들 수 있습니다. .. 2021. 2. 15.
[회귀]회귀모형에서 이상점과 영향력 있는 관측값 검정 선형 회귀분석은, 설명변수(X)와 반응변수(Y)의 관계를 선형 상관 관계로 표현한 분석 기법입니다. 즉, 설명변수와 반응변수로 이루어진 현상을 가장 적절한 선(보편적으로 '최소제곱법'을 따르는 선)으로 표현하여, 설명변수값을 기반으로 반응변수를 예측할 수 있게 되는 기법이죠. 최소제곱법으로, 주어진 현상을 가장 잘 설명하는 회귀 모형을 추정했다면, 관측값들이 추정된 회귀모형을 중심으로 분포되는 모습이 관측되겠죠. 하지만, 추정된 회귀모형의 예측분포에서 멀리 떨어져 있는 값이 관측 될 수 있습니다. 쉽게 말하자면, 관측값들을 설명하는 회귀모형에 동떨어진 관측값이라고 할 수 있죠. 우리는 이를 '이상점(outlier)' 라고 부릅니다. 이상점이란, 주어진 모형을 따르지 않는 관측값입니다. 회귀분석은, 회귀모.. 2021. 2. 11.
[회귀]회귀모형의 진단/ 오차의 등분산성, 선형성, 독립성 회귀분석에서는, 오차에 대한 가정을 전제로 최소제곱법에 의한 추정이 가능합니다. 1. E( εi ) = 0 2. Var( εi ) = σ^2 * Ι "등분산성" 3. Cov( εi, εj) = 0 "독립성" 회귀식을 추정할때, 가장 근본이 되는 원리인 '최소제곱법'에 의한 회귀식은 , 오차의 등분산성과 독립성에 의해 '최량 선형 비편향 추정량'이 되죠. 최량선형 비편향 추정량이란, '추정량이 그 어떠한 모수에 대한 추정량보다 분산이 작다. 즉, 최고의 추정량이다' 라는 뜻입니다. 오차에 대한 등분산성과 독립성에 의해 '최소제곱법에 의한 추정량은 최량선형 비편향 추정량이다' 라는 가우스 마코브 정리가 성립되는것이죠. 이를 조합해보면, 오차의 분포에 대한 가정은 기본적으로 εi~N(0, σ^2)인것이죠. 정.. 2021. 2. 5.
[회귀] 다중회귀에서의 분산분석과 수정결정계수/ Anova in Multiple Regression / 두개 이상의 설명변수(X)와 반응변수(Y)의 관계로 나타내어지는 다중회귀(Multiple Regression) 모형의 추정을 마친 후에는, 추정 회귀식의 타당성을 확인해야 합니다. 추정량의 타당성은 보통 분산의 크기에 의해 결정되곤 합니다. 추정량이 비편향 추정량일때, 손실함수로 사용되는 평균 제곱 오차(Mean Squared error) 추정량의 분산이 최소화될때, 최소화 되기 때문입니다. *이에 대한 증명은 https://jangpiano-science.tistory.com/61 를 참고해주세요:) 따라서, 분산은 추정량의 타당성을 확인하기 위한 중요한 요소가 되고, 따라서 추정회귀식의 분산을 더 작게 만드는 모형이 현상을 설명하기에 더 바람직하다고 결론 내릴 수 있다. 이렇게 분산에 의해 추정회귀식.. 2021. 2. 1.
반응형