본문 바로가기
반응형

Statistics48

[회귀]회귀모형의 진단/ 오차의 등분산성, 선형성, 독립성 회귀분석에서는, 오차에 대한 가정을 전제로 최소제곱법에 의한 추정이 가능합니다. 1. E( εi ) = 0 2. Var( εi ) = σ^2 * Ι "등분산성" 3. Cov( εi, εj) = 0 "독립성" 회귀식을 추정할때, 가장 근본이 되는 원리인 '최소제곱법'에 의한 회귀식은 , 오차의 등분산성과 독립성에 의해 '최량 선형 비편향 추정량'이 되죠. 최량선형 비편향 추정량이란, '추정량이 그 어떠한 모수에 대한 추정량보다 분산이 작다. 즉, 최고의 추정량이다' 라는 뜻입니다. 오차에 대한 등분산성과 독립성에 의해 '최소제곱법에 의한 추정량은 최량선형 비편향 추정량이다' 라는 가우스 마코브 정리가 성립되는것이죠. 이를 조합해보면, 오차의 분포에 대한 가정은 기본적으로 εi~N(0, σ^2)인것이죠. 정.. 2021. 2. 5.
[회귀] 다중회귀에서의 분산분석과 수정결정계수/ Anova in Multiple Regression / 두개 이상의 설명변수(X)와 반응변수(Y)의 관계로 나타내어지는 다중회귀(Multiple Regression) 모형의 추정을 마친 후에는, 추정 회귀식의 타당성을 확인해야 합니다. 추정량의 타당성은 보통 분산의 크기에 의해 결정되곤 합니다. 추정량이 비편향 추정량일때, 손실함수로 사용되는 평균 제곱 오차(Mean Squared error) 추정량의 분산이 최소화될때, 최소화 되기 때문입니다. *이에 대한 증명은 https://jangpiano-science.tistory.com/61 를 참고해주세요:) 따라서, 분산은 추정량의 타당성을 확인하기 위한 중요한 요소가 되고, 따라서 추정회귀식의 분산을 더 작게 만드는 모형이 현상을 설명하기에 더 바람직하다고 결론 내릴 수 있다. 이렇게 분산에 의해 추정회귀식.. 2021. 2. 1.
[회귀]오차와 잔차, 표준화 잔차 오차와 잔차는 표기방식부터, 해석, 조건까지 정확하게 다른 값입니다. 오차(error)는 모집단(population)으로부터 추정한 회귀식으로부터 얻은 예측값과 실제 관측값의 차이를 이야기 합니다. 여기서 집중하셔야 할 점은 '모집단으로부터' 입니다. 즉 오차는, 추정한 회귀식과 모집단에서의 관측값의 차이를 말합니다. 잔차(residual)는 표본(sample)으로 추정한 회귀식과 실제 관측값의 차이를 말합니다. 사실상 현상을 분석할때, 모집단의 모든 데이터를 축적하기 보다, 일부의 데이터(표본집단)에서 회귀식을 얻기 때문에, 잔차를 기준으로 회귀식의 최적의 회귀계수를 추정합니다. 잔차를 기준으로 최적의 회귀모형을 찾는 방법중 가장 대표적인 방법으로 '최소제곱법(method of least square).. 2021. 1. 29.
[회귀] 행렬을 이용한 다중회귀 모형, 최소제곱법에 의한 추정 다중회귀(Multiple regression)이란 두개 이상의 변수를 가지고 Y(반응변수) 의 변화를 설명하는 회귀모형이다. 따라서, 다중회귀 모형에서의 2개 이상의 설명변수와, 각각의 변수에 대하여 n개의 자료값이 주어졌을때, 설명변수와 반응변수의 관계를 나타내는데 주로 행렬이 사용된다. Y : n*1 벡터 X : n*(p+1) 행렬 B : (p+1)*1 벡터 ε : n*1 벡터 다중회귀식은 행렬의 곱셈과 덧셈에 의해 성립되는데, 행렬의 곱셈이 성립되기 위해서는, 첫째 행렬의 열(column) 개수와 둘째 행렬의 행(row) 개수가 동일해야 한다. X * B + ε = Y n*(p+1) 행렬 * (p+1)*1 벡터 + n*1 벡터 = n*1 벡터 xi ' * B + εi = yi 1*n 벡터 * n*1.. 2021. 1. 21.
반응형