본문 바로가기
반응형

분류 전체보기123

[회귀]오차와 잔차, 표준화 잔차 오차와 잔차는 표기방식부터, 해석, 조건까지 정확하게 다른 값입니다. 오차(error)는 모집단(population)으로부터 추정한 회귀식으로부터 얻은 예측값과 실제 관측값의 차이를 이야기 합니다. 여기서 집중하셔야 할 점은 '모집단으로부터' 입니다. 즉 오차는, 추정한 회귀식과 모집단에서의 관측값의 차이를 말합니다. 잔차(residual)는 표본(sample)으로 추정한 회귀식과 실제 관측값의 차이를 말합니다. 사실상 현상을 분석할때, 모집단의 모든 데이터를 축적하기 보다, 일부의 데이터(표본집단)에서 회귀식을 얻기 때문에, 잔차를 기준으로 회귀식의 최적의 회귀계수를 추정합니다. 잔차를 기준으로 최적의 회귀모형을 찾는 방법중 가장 대표적인 방법으로 '최소제곱법(method of least square).. 2021. 1. 29.
[회귀]단순 선형 회귀분석 R코드 정리 / Simple linear regression in R 하나의 설명변수(X)와 반응변수(Y)의 관계성을 표현하는 회귀식은, 설명변수 값 만으로 반응변수의 값을 예측하게 해줍니다. 관측값들을 바탕으로 X와 Y의 분포를 가장 잘 설명할 수 있는 선을 찾는 방법으로는 주로 '최소 제곱법(Method of least squares)' 이 사용됩니다. 최소제곱법은 잔차의 제곱합을 가장 작게 만드는 회귀식(회귀계수)을 찾는 방법입니다. 최소 제곱법에 관한 자세한 설명은 밑의 링크를 참고해 주시기 바랍니다. https://jangpiano-science.tistory.com/103 R 에서는 단순 선형 회귀에 적합한 함수(lm)를 제공해, lm 함수를 이용하면, 빠르게 적합 회귀식(Y = B0 + B1*X)과 회귀계수들(B0, B1)을 찾을 수 있습니다. 즉, R에서 l.. 2021. 1. 23.
[회귀] 행렬을 이용한 다중회귀 모형, 최소제곱법에 의한 추정 다중회귀(Multiple regression)이란 두개 이상의 변수를 가지고 Y(반응변수) 의 변화를 설명하는 회귀모형이다. 따라서, 다중회귀 모형에서의 2개 이상의 설명변수와, 각각의 변수에 대하여 n개의 자료값이 주어졌을때, 설명변수와 반응변수의 관계를 나타내는데 주로 행렬이 사용된다. Y : n*1 벡터 X : n*(p+1) 행렬 B : (p+1)*1 벡터 ε : n*1 벡터 다중회귀식은 행렬의 곱셈과 덧셈에 의해 성립되는데, 행렬의 곱셈이 성립되기 위해서는, 첫째 행렬의 열(column) 개수와 둘째 행렬의 행(row) 개수가 동일해야 한다. X * B + ε = Y n*(p+1) 행렬 * (p+1)*1 벡터 + n*1 벡터 = n*1 벡터 xi ' * B + εi = yi 1*n 벡터 * n*1.. 2021. 1. 21.
[회귀] 다중회귀에서 조정된 회귀계수와 최종회귀식 R 단순 회귀 (Simple Regression) : 하나의 설명변수(X1)를 가지고 Y의 변화를 설명하는 회귀모형 다중 회귀 (Multiple Regression) : 두개 이상의 설명변수(X1, X2, ...)를 가지고 Y의 변화를 설명하는 회귀모형 매우 당연한 논리이겠지만, 다중 회귀가 필요한 이유는, 반응변수의 변화에 대한 설명이 하나의 설명변수만으로는 충분하지 않다고 생각되는 경우들 때문이다. 물론, 하나의 설명변수만으로 충분히 Y의 값을 예측할수 있는 현상들도 분명히 있지만, 사회과학 현상은 그보다 매우 복잡함으로, 다중회귀 모형의 필요성이 대두된것이다. 다중회귀 모형에 대한 기본적인 전제는, X1 만으로는 설명되지 않는 Y의 부분에 새로운 변수(X2, X3, X4,...)를 추가함으로써 Y에 대.. 2021. 1. 14.
반응형