본문 바로가기
반응형

Statistics48

정규분포 / 68-95-99.7 규칙/ 표준정규분포 / R 오늘 포스팅에서 설명할 내용은, 통계학에서 가장 기본적이고 가장 중요한 기준이 되는 정규분포(Normal distribution) 입니다. 통계학을 공부하면 공부할수록, 정규분포에 대한 정확한 이해의 필요성은 아무리 강조해도 부족하지 않을거라고 생각되어요. 정규 분포가 무엇인지, 정규 분포가 가지는 특성이 무엇인지, 그리고 마지막으로 표준 정규 분포에 대해 차례대로 설명하겠습니다. 정규분포에 대한 가장 정확하고 포괄적인 설명은 하나의 이미지로 설명될거같은데요, 정규분포란, 통계학에서 매우 중요하게 다루는 연속 확률 분포(continuous probability distribution) 중 하나로서, 분포의 평균(mean) 과 표준편차(standard deviation)으로 완벽하게 분포가 결정되는, 좌우.. 2021. 5. 13.
[회귀]다중공선성 / Multicollinearity / R 다중공선성 문제(Multicollinearity)란, 회귀모형을 구성하는 설명변수(X)간의 강한 상관관계가 나타나는, 회귀분석 시 부정적인 영향을 끼치는 문제 입니다. 다섯개의 설명변수 (X1, X2, X3, X4, X5) 가 회귀모형에 포함되어, Y와의 선형관계를 이룬다고 할때, 어떠한 설명변수가 다른 설명변수와 완벽한 선형 독립이 아닌것이 관측될때, 회귀분석에서는 '회귀모형에 다중공선성 문제가 존재한다'고 이야기 하죠. 설명변수 사이에 완벽한 선형의 상관관계에 대해서는 '완벽한 공선성 (Exact Collinearity)'라고 부릅니다. aX1 + bX2 = c 에서 a,b,c는 모두 상수이므로, 변수 X1은 X2에 어떤 수가 대입되는지에 따라 완벽하게 자동적으로 결정되죠. 위와 같은 변수간의 관계를.. 2021. 2. 17.
[회귀]지수변수를 설명변수로서 포함한 회귀 모형, 교호작용에 대한 설명/ Indicator variable in regression model, Interaction / 숫자로 표현된 설명변수와 반응변수의 관계를 파악하고, 이를 설명하는 최적의 회귀식을 찾는것을, 양적자료(quantitative data)를 기반으로 한 회귀분석 이라고 할 수 있습니다. 양적자료란, 수치로 측정하고 표현하는것이 가능한 자료입니다. 따라서, 수치형 자료(numerical data)로도 불리우죠. 질적자료(qualitative data)란, 수치로 측정 및 표시가 불가능한 자료입니다. 성별 혹은 혈액형과 같이 집단을 구분하는 변수로서, 수치로 표현이 불가능한 분류 대상을 질적자료라고 하죠. 이는 범주형 자료(categorical data)로도 불립니다. 질적 자료가 회귀모형이 포함되는 경우를 살펴봅시다. 범주형 자료의 구체적인 예를 생각해보았을때, 성별 혹은 질병의 유무를 들 수 있습니다. .. 2021. 2. 15.
[회귀]회귀모형에서 이상점과 영향력 있는 관측값 검정 선형 회귀분석은, 설명변수(X)와 반응변수(Y)의 관계를 선형 상관 관계로 표현한 분석 기법입니다. 즉, 설명변수와 반응변수로 이루어진 현상을 가장 적절한 선(보편적으로 '최소제곱법'을 따르는 선)으로 표현하여, 설명변수값을 기반으로 반응변수를 예측할 수 있게 되는 기법이죠. 최소제곱법으로, 주어진 현상을 가장 잘 설명하는 회귀 모형을 추정했다면, 관측값들이 추정된 회귀모형을 중심으로 분포되는 모습이 관측되겠죠. 하지만, 추정된 회귀모형의 예측분포에서 멀리 떨어져 있는 값이 관측 될 수 있습니다. 쉽게 말하자면, 관측값들을 설명하는 회귀모형에 동떨어진 관측값이라고 할 수 있죠. 우리는 이를 '이상점(outlier)' 라고 부릅니다. 이상점이란, 주어진 모형을 따르지 않는 관측값입니다. 회귀분석은, 회귀모.. 2021. 2. 11.
반응형