본문 바로가기
반응형

r16

[회귀]다중공선성 / Multicollinearity / R 다중공선성 문제(Multicollinearity)란, 회귀모형을 구성하는 설명변수(X)간의 강한 상관관계가 나타나는, 회귀분석 시 부정적인 영향을 끼치는 문제 입니다. 다섯개의 설명변수 (X1, X2, X3, X4, X5) 가 회귀모형에 포함되어, Y와의 선형관계를 이룬다고 할때, 어떠한 설명변수가 다른 설명변수와 완벽한 선형 독립이 아닌것이 관측될때, 회귀분석에서는 '회귀모형에 다중공선성 문제가 존재한다'고 이야기 하죠. 설명변수 사이에 완벽한 선형의 상관관계에 대해서는 '완벽한 공선성 (Exact Collinearity)'라고 부릅니다. aX1 + bX2 = c 에서 a,b,c는 모두 상수이므로, 변수 X1은 X2에 어떤 수가 대입되는지에 따라 완벽하게 자동적으로 결정되죠. 위와 같은 변수간의 관계를.. 2021. 2. 17.
(R) list colors of columns in order / character type to factor type list colors of columns in order. *character type to factor type* >library(ggplot2) >library(dplyr)> Ozone_temp_rate%count(Ozone_rank,temp_rank)%>%group_by(Ozone_rank)%>%mutate(per=n/sum(n)*100)> ggplot(data=Ozone_temp_rate,aes(x=Ozone_rank,y=per,fill=temp_rank))+geom_col()> class(Ozone_temp_rate$temp_rank) [1] "character"> levels(Ozone_temp_rate$temp_rank) ------------------no levels because the.. 2020. 7. 30.
(R) Reorder columns in any orders / scale_x_discrete() scale_x_discrete() >library(ggplot2) ------------for 'airquality' data >library(dplyr)> summary(airquality$Ozone) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 1.00 18.00 31.50 42.13 63.25 168.00 37 > summary(airquality$Temp) Min. 1st Qu. Median Mean 3rd Qu. Max. 56.00 72.00 79.00 77.88 85.00 97.00 > airquality_%filter(!is.na(Ozone))%>%mutate(Ozone_rank=ifelse(Ozone Ozone_temp%group_by(Ozone_rank)%.. 2020. 7. 30.
(R) coord_flip() coord_flip() >?coord_flip When assigning manufacturer variable of mpg to x-axis, It is hard to seize the name of elements of manufacturer variable. Because 'manufacturer' in 'mpg' tend to be overlapped having a long elements such as 'volkswagen','toyota'. So we need to flip the columns to horizontal so that elements are not overlapped. > manufacturer_class%count(manufacturer,class)%>%group_by(ma.. 2020. 7. 30.
반응형