본문 바로가기
반응형

분류 전체보기123

중심 극한 정리(CLT)와 R / Central Limit Theorem and R 중심 극한 정리는, 통계학에서 가장 기본적이고 가장 중요하게 여겨지는 정리이므로, 이번 포스팅이 이해에 도움을 드렸으면 하네요:) 중심 극한 정리(CLT : Central Limit Theorem)는 다음을 의미합니다. " 평균 μ , 표준편차 σ를 가지는 모집단 분포에서 iid 한 표본을 충분히 많이 추출한다면, 표본 평균은 정규분포에 근사하게 된다 ." 라는 정리입니다. 위 정의는, 모분포가 정규분포를 따르지 않아도, 종 모양(bell-shape)를 가지지 않아도 성립됩니다. 모분포가 정규분포가 아닌 분포를 따른다고 하더라도, 특정 조건만 만족된다면, 표본평균은 정규분포의 형태를 띄게 된다는 정의이죠. 통계학에서 정규분포를 가장 중요한 분포라고 하는 이유도, 우리는 중심 극한 정리에서 찾을 수 있습니.. 2021. 5. 18.
모분포와 표본분포, 표본추출의 규칙 / Population distribution and Sampling distribution 모집단(population)이란, 우리가 관심있어하는 대상이 되는 가능한 모든 값 들의 집합입니다. 예를들어, 우리가 관심있어 하는 대상은 서울 인구의 평균 소득이라고 가정해봅시다. 이 경우, 평균을 구하기 위해서는, 모든 서울 시민의 소득 값들이 필요하겠죠? 우리는 이 필요한 모든 정보를 담은 집합을 모집단이라고 부릅니다. 모집단 분포(population distribution)란, 모집단을 구성하는 값들이 이루는 확률 분포를 일컫습니다. 우리가 관심있어하는 확률 변수를 X : "서울 인구의 균 소득" 이라고 설정한다면, 각각의 x 값에 대한 확률 분포를 모집단 분포라고 하는것이죠. 즉, 각각의 x 값들과 이에 대응하는 확률 밀도 함수(probability distribution function)인 f.. 2021. 5. 17.
R 데이터 구조와 색인(Indexing)/ scalar, vector, factor, matrix, array, data frame, list R의 데이터 구조는 7개의 형태로 구분이 됩니다. 7개의 구조를 사용하기에 적절한 상황이 모두 다르기 때문에, 각각의 구조에 대한 특징과 필요성을 정확하게 이해하는것이 중요하겠죠? 데이터를 준비하고 가공할때, 가지고 있는 데이터에 대해 정확한 소통을 하기 위해서는, 각각의 데이터에 대한 목적과 구조, 명칭을 정확하게 이해하고 사용하는것은 필수!! Scalar 하나의 원소값만 포함하는 가장 기본적이고 간단한 데이터 구조 Vector 동일한 형태의 구성인자를 포함하는 1차원의 데이터 구조 Factor 범주형(categorical)의 데이터 구조 Matrix 동일한 형태의 구성인자를 포함하고 있는 2차원의 데이터 구조 Array 동일한 형태의 구성인자를 포함하는 2차원 이상의 데이터 구조. Data Frame.. 2021. 5. 16.
정규분포 / 68-95-99.7 규칙/ 표준정규분포 / R 오늘 포스팅에서 설명할 내용은, 통계학에서 가장 기본적이고 가장 중요한 기준이 되는 정규분포(Normal distribution) 입니다. 통계학을 공부하면 공부할수록, 정규분포에 대한 정확한 이해의 필요성은 아무리 강조해도 부족하지 않을거라고 생각되어요. 정규 분포가 무엇인지, 정규 분포가 가지는 특성이 무엇인지, 그리고 마지막으로 표준 정규 분포에 대해 차례대로 설명하겠습니다. 정규분포에 대한 가장 정확하고 포괄적인 설명은 하나의 이미지로 설명될거같은데요, 정규분포란, 통계학에서 매우 중요하게 다루는 연속 확률 분포(continuous probability distribution) 중 하나로서, 분포의 평균(mean) 과 표준편차(standard deviation)으로 완벽하게 분포가 결정되는, 좌우.. 2021. 5. 13.
반응형