본문 바로가기
반응형

분류 전체보기123

[회귀] 범주형 독립변수를 지시변수로 포함한 선형 회귀모형/교호작용 / R 숫자로 표현된 설명변수와 반응변수의 관계를 파악하고, 이를 설명하는 최적의 회귀식을 찾는것을, 양적자료(quantitative data)를 기반으로 한 회귀분석 이라고 할 수 있습니다. 설명변수와 반응변수의 선형 관계를 파악하기 위해서는 주로 연속적 표현이 가능한 양적자료가 많이 사용되지만, 종종 질적 자료(qualitative data)를 설명변수로 채택해야하는 경우도 생기기 마련입니다. 양적자료와 질적자료에 대한 간략한 설명을 덧붙이자면, 양적자료란, 수치로 측정하고 표현하는것이 가능한 자료입니다. 따라서, 수치형 자료(numerical data)로도 불리우죠. 질적자료(qualitative data)란, 수치로 측정 및 표시가 불가능한 자료입니다. 성별 혹은 혈액형과 같이 집단을 구분하는 변수로서,.. 2021. 11. 2.
(R) 비교연산자, 논리연산자 / filter() in dplyr / near(), between(), %in% * 이번 포스팅에서는 dplyr 패키지에서 filter()와 이 함수를 사용할때 필수적으로 쓰이는 비교연산자와 논리연산자에 대한 설명을 하도록 하겠습니다. dplyr 패키지에서 중심적인 역할을 하는 함수들에 대한 간략한 설명은, 아래 포스팅에서 확인하실 수 있습니다. https://jangpiano-science.tistory.com/135 (R) 데이터 전처리 dplyr 패키지 basics / select(), arrange(), filter(),mutate(), summary() / chain operator %>% dplyr 패키지는 데이터 프레임에 대한 일반적인 데이터 전처리 및 분석을 돕는 문법입니다. 즉, 기존 데이터셋을 특정 유형의 분석, 또는 데이터 시각화에 더 적합한 형식으로 변환하기 위.. 2021. 6. 13.
(R) 데이터 전처리 dplyr 패키지 basics / select(), arrange(), filter(),mutate(), summary() / chain operator %>% dplyr 패키지는 데이터 프레임에 대한 일반적인 데이터 전처리 및 분석을 돕는 문법입니다. 즉, 기존 데이터셋을 특정 유형의 분석, 또는 데이터 시각화에 더 적합한 형식으로 변환하기 위한 동사(verbs)를 제공하는 R의 가장 대표적인 패키지이죠. dplyr 패키지를 다운로드 하는 방법은 대표적으로 두가지로 나뉘는데요. 1. tidyverse 를 설치하는 방법 tidyverse 는 datascience를 위해 제작된 R 패키지들의 모음집이라고 할 수 있습니다. tidyverse 가 포함하는 패키지들로는 : dplyr, ggplot2, tidyr, readr, purrr, tibble, stringr, forcats 등이 있습니다. 따라서, tidyverse 패키지를 다운로드 받음으로써 자연스럽게 dpl.. 2021. 6. 12.
(R) apply 계열 함수/apply, lapply, sapply, mapply, tapply / 함수 동시 적용/ 예시 apply() 계열 함수로는, apply(), lapply(), sapply(), mapply(), tapply(), vapply() 가 있습니다. 이는 어떠한 자료의 그룹, 열, 행별로 함수를 적용시키는 R 내장 함수입니다. 위 함수 모두, 함수를 데이터에 동시에 적용시키기에 매우 편리하게 하는 함수입니다, 하지만 각기 다른 특징, arguments을 가지기 때문에 정확한 이해가 필요하죠. 위 함수들을 적절히 적용하기 위해서는 데이터 구조에 대한 이해도가 필요할 수 있습니다. *데이터 구조에 대한 자세한 설명은, 아래의 포스팅을 참고해주세요:) https://jangpiano-science.tistory.com/127?category=875433 R 데이터 구조와 색인(Indexing)/ scalar,.. 2021. 6. 3.
반응형