본문 바로가기
Statistics

표본추출법 / 확률적 표본추출/ 단순임의추출, 체계적추출, 층화임의추출, 군집추출

by jangpiano 2021. 5. 25.
반응형

모집단(population)과 표본(sample)에 대한 기본적인 설명은 삽입된 포스팅에 나와있으니, 참고 부탁드려요.

  https://jangpiano-science.tistory.com/128?category=875432

 

모분포와 표본분포 / Population distribution and Sampling distribution

<모집단 분포와 표본 분포 - Population distribution and Sampling Distribution> <모집단 분포> 모집단(population)이란, 우리가 관심있어하는 대상이 되는 가능한 모든 값 들의 집합입니다. 예를들어, 우리가..

jangpiano-science.tistory.com

 

<표본추출법 - Types of Sampling>

표본(sample)이란, 모집단의 특성 혹은 분포를 파악하기 위해 모집단에서 추출된 모집단의 일부입니다. 모집단(population)의 특징을 나타내는 모수(parameter)을 파악하기 위해 모집단을 구성하는 모든 요소들을 조사하기에 너무 큰 비용과 시간이 소요되기에, 모집단의 일부인 표본을 추출하는것은 대부분의 연구에 필수적입니다. 특히, 모집단의 크기가 크거나, 분산되어 있을때 모든 모집단을 조사하는것은 무리겠죠. 우리가 관심있고 특징을 파악하고자 하는것은 모집단이지만, 표본이 우리의 조사와 연구의 직접적인 대상이 되는것이죠. 모집단을 대표할 표본을 고르는 법, 즉 모집단에서 표본을 추출하는 방법을 표본추출법(Types of sampling)이라고 합니다. 

 

각 연구는 목적과 예산 그리고 파악하고자 하는 모집단의 특성이 모두 다르게 설정되어 있기 때문에, 각각의 연구의 특성에 맞게 표본추출법을 선택해야합니다. 표본을 추출하는 목적은 적은 비용과 시간을 들여 모집단의 특징을 예측하고자 함입니다. 따라서, 각 표본이 추출되는 방식이 각 연구의 목적에 맞게 적절히 이루어져야하겠죠? 그래야만, 우리는 표본이 모집단을 '대표'한다고 말할 수 있을것입니다. 표본추출법은 크게 확률적 표본추출 (probability sampling), 비확률적 표본추출(non-probability sampling)로 나뉩니다. 확률적 표본추출과 비확률적 표본추출은 또 구체화된 표본추출법으로 구성됩니다. 

 

확률적 표본추출 : 단순 임의 추출, 체계적 추출, 층화적 임의 추출, 군집 추출 

비확률적 표본추출 :  편의 추출, 자발적 표본추출, 유의 표본추출, 눈덩이 표본추출 

 

그렇다면, 확률적 표본추출과 비확률적 표본추출이 의미하는 바는 무엇일까요?

 

<확률적 표본추출 VS 비확률적 표본추출> 

확률적 표본추출(Probability Sampling)이란, 표본으로 뽑힐 가능성을 모집단을 구성하는 모든 요소에게 부여하는 표본추출법입니다. 즉, 확률적 표본추출방법을 이용하면, 모집단을 구성하는 모든 일원들이 표본으로써 뽑힐 확률이 존재하는 것이죠. 또한, 확률적 표본추출법은 무작위성(randomness)에 기초하게 됩니다. 

반면에, 비확률적 표본추출(Non-probability Sampling)에서는, 표본으로 뽑힐 가능성이 모집단의 모든 일원에게 보여되지 않습니다. 또한, 무작위성도 보장되지 않죠. 표본이 대표성을 띄기 위해 성립되야 하는 조건이 비확률적 표본추출에는 적용되지 않고, 따라서 이는 확률적 표본추출보다 비교적 적은 비용으로 수행됩니다. 하지만, 표본의 대표성이 보장되지 않아 편향(sampling bias)의 가능성이 더커지게 되죠. 

확률적 표본 추출을 사용하면, 비확률적 표본추출을 사용했을때보다, 추출된 표본들이 모집단을 더 잘 대표하게 됩니다. 

 

다음은 확률적 표본추출을 구성하는 표본추출법들을 설명하도록 하겠습니다. 

 

<확률적 표본추출> 

 

1. 단순 임의 추출 (Simple Random Sampling) 

 

단순 임의 추출이란, 모집단으로부터 뽑힐 확률이 균등한 샘플을 무작위로 추출하는 방법입니다. 모집단의 모든 요인들이 표본으로 뽑힐 기회가 동등하게 제공되는 표본추출법이죠. 단순 임의 추출법을 사용해 표본을 추출할때는, 표본추출틀(sampling frame)이 반드시 모든 모집단의 요소들을 포함해야겠죠? 표본추출틀에 대해 간략하게 설명하자면, 표본으로 추출할 대상이 있는 목록을 일컫습니다. 

 

모집단의 모든 요인들의 이름이 적힌 종이를 박스에 넣고 흔들어 뽑고자 하는 표본의 개수만큼 뽑아 표본을 이루는 구체적인 예시를 들 수 있습니다. 단순 임의 추출에는, 복원 추출과 비복원 추출이 있습니다. 복원(replacement) 추출이란, 뽑힌 종이를 기억해놓은 후, 다시 넣어 총 모집단의 개수를 유지시키는것을 의미하며, 비복원(non-replacement) 추출은, 뽑힌 종이를 제외한 나머지 요인들을 대상으로 표본을 뽑는것을 의미합니다. 

 

단순 임의 추출이 시행되는 예시를 들자면, 연구자가 조사하고자 하는 대상인 모집단이 5000명의 사람으로 이루어져 있을때, 이 5000명의 사람에게 모두 1부터 5000까지의 숫자를 부여한 후, 뽑고자 하는 표본의 개수만큼 수를 임의적으로 뽑아, 뽑힌 숫자를 가지고 있는 사람들로 표본을 구성하는 예시를 들 수 있습니다. 

 

단순 임의 추출은 모집단을 가장 잘 대표하는 표본을 구성할 수 있다는 장점이 있지만, 실제로 모집단의 모든 요인을 표본추출틀에 포함시켜야 한다는 점에서 현실적으로 가장 구성하기 어려운 표본추출법 입니다. 

 

2. 체계적 추출 (Systematic Sampling) 

 

체계적 추출(systematic sampling) 역시 하나의 확률적 표본 추출 방법으로서, 무작위성이 충족된 표본 추출 방법 입니다. 

체계적 추출은 단순 임의 추출에서와 마찬가지로 배열된 모집단에 일련 번호를 부여한 후 , 설정한 등간격인 표집간격(sampling interval)보다 작은 하나의 수를 랜덤으로 추출한 후 이로부터 표집간격의 배수만큼 떨어져 있는 번호를 가진 요인들을 추출하는 방법입니다. *참고로 표집간격은 주로 '모집단의 크기(N)/표본의 크기(n)' 로 계산됩니다. 단순 임의 추출과의 차이점을 말하자면, 표본의 개수만 정해놓고 무작위 표본추출을 시행하는 단순 임의 추출에 반해, 체계적 추출은 일정한 거리를 두고 떨어져있는 요인들을 표본으로 추출한다는 점에서 차이를 가집니다. (여기서 일정한 거리를 두고 떨어져있는것은 지리적인 의미가 아님) 

 

구체적인 예시를 들자면, 연구자가 조사하고자 하는 대상인 모집단이 5000명이라고 할때, 모집단에 숫자를 부여하고 1부터 10까지의 숫자중 랜덤으로 뽑힌 k의 배수를 가지고 있는 요인 들로 구성된 표본을 만드는 방법을 체계적 추출이라고 할 수 있습니다. 여기에서 표본을 추출하는 일정한 간격(k)를 표집간격(sampling interval)이라고 합니다. 표집 간격이란, 표본으로 추출되는 모집단의 요소들 사이의 표준 거리를 의미합니다. 

이는, 단순 임의 추출보다 쉽고 비용이 덜드는 확률적 표본추출법 입니다. 하지만, 이 방법을 이용하기 위해서는, 모집단을 나열하고 숫자를 부여하는 방식에 숨겨진 패턴이 없어야 한다는 조건이 있습니다. 만일, n번의 번호를 부여받은 사람들이 특정한 특징을 공유하고 있다면, 표본이 모집단을 대표할 수 없고, 추출된 표본은 편향성을 지니게 되겠죠.

 

3. 층화 임의 추출 (Stratified Random Sampling) 

 

층화 임의 추출이란, 모집단을 몇가지 특징을 기준으로 서브그룹으로 나누어, 각 그룹의 원소로부터 임의로 추출하는 법을 일컫습니다. 특징을 바탕으로 나누어진 그룹을 우리는 계층(stratum)이라고 부릅니다. '특징'이라 하면, 성별 혹은 자동차의 유무, 연봉의 정도 등이 될 수 있겠죠. 모집단을 특성(characteristics)를 기반으로 몇개의 계층으로 나누었다면, 각 층별로 표분추출틀(sampling frame)을 작성합니다. 

모집단에서 추출하고자 하는 표본의 크기를 n으로 정했다면, 이 n을 각 계층에 적절히 분배 합니다. 

 

표본의 크기 n을 각 계층에 분배하는 방법에는 여러가지 방법이 존재합니다. 

첫째로, 표본의 크기 n을 각 계층에 대등하게 분배하는 방법 (Equal stratified sampling)

두번째로, 표본의 크기 n을 각 계층이 모집단에서 차지하는 비율을 감안하여 비례하게 분배하는 방법 (Proportional stratified sampling)

마지막으로, 표본의 크기 n을 각 계층이 모집단에서 차지하는 비율에 비례하지 않게 분배하는 방법이 있습니다 (Disproportional stratified sampling.)

우리가 중점적으로 연구하고자 하는 계층이 모집단에서 차지하는 비율이 작을때, 또는 불필요하다고 여겨지는 계층이 모집단에서 차지하는 비율이 클때, 불균형 층화 임의 추출을 사용하게 됩니다. 

 

위의 여러가지 계층 분배방법을 활용해, 각 계층에서 추출하게될 표본의 크기가 결정되었다면, 각 계층에 단순 임의 추출, 혹은 체계적 임의 추출 방법을 적용하여, 분배된 표본의 크기만큼 표본을 추출합니다. 각 계층에서 분배된 표본의 크기만큼 표본을 추출한 후 모두 한자리에 모으면, n개의 표본이 추출됩니다. 

단계별로 예를 들어 보자면, 성별과 임금수준을 기준으로 층화 임의 추출을 한다고 할때, 

Male - Low

Female - Low

Male - Middle...  와같은 방법으로 계층을 나누어 표본의 크기 n을 각 세분화된 방법에 맞추어 분배한 후, 

각 계층에서 분배된 크기만큼의 표본을 추출(단순 임의 추출, 체계적 추출 등)해, 최종적으로 n개의 표본추출을 완료하는 예시를 들 수 있습니다. 

  Male Female
Low 84 130
Middle 64 75
High 130 98

4. 군집 추출 (Cluster sampling)

모집단이 전체 모집단을 설명하기에 적절한 여러 군집(cluster, block)으로 이루어져 있을때, 군집을 무작위로 선택 한 후, 이 군집에서 표본을 추출하는 방법입니다. 모집단을 그룹으로 나누어, 그룹에서 표본을 추출한다는 점에서 층화 임의 추출과 유사한 모습을 띄지만, 두 표본추출법은 분명히 차이를 지닙니다.

층화 임의 추출  군집 추출 
계층이 특성(character)에 의해 나뉨 각 군집(cluster)이 모집단을 대표할 수 있어야함 
*각 군집이 모집단과 유사한 특성을 가져야함
각각의 계층에서 일정 수의 표본을 무작위 추출  일정 수의 군집을 무작위 추출한 후 표본 추출
각각의 계층, 군집에서 표본을 추출할때 단순 임의 추출 or 체계적 추출을 이용하여 추출.

 예를 들어 설명하자면, 평준화 되어있는 학교들을 대상으로 학생들의 교육청 정책 변화에 만족도를 조사하고자 한다면, 학교를 무작위로 추출 한 후, 각 학교에서 단순 임의 추출 혹은 체계적 추출방법으로 표본을 추출하는 방식입니다. 군집 추출의 특징 중 하나로, 선택된 군집들 내의 모든 요소들을 표본으로서 채택할 수 있다는 것인데요. 이 예시로 설명하자면, 무작위로 추출된 각 군집(학교)에 포함되어 있는 모든 학생들을 표본으로 채택할 수 있다는 것이죠. 

다만, 만일 학교들이 평준화되어 있지 않은 상태에서 조사를 한다면, 학생들 간 입장 차이가 날 수 있고, 이런 경우 각 학교가 모집단을 대표할 수 없기 때문에, 군집표본추출법을 이용할 수 없겠죠?

 

 

 

 

반응형