IF(ISERROR(VLOOKUP(E7,$C$7:$C$11,1,FALSE)),"불일치",IF(VLOOKUP(E7,$C$7:$C$11,1,FALSE)=E7,"일치"))

 

IF(ISERROR(VLOOKUP(H38,$F$38:$F$46,1,FALSE)),"불일치", IF(VLOOKUP(H38,$F$38:$F$46,1,FALSE)=H38,"일치"))

 

IF(LEN(IFERROR(VLOOKUP(D10, 찾을값, 영역, 1, FALSE), "불일치")) = 9, "일치", "불일치")

독립변수(Independent variable)

 1) 일정하게 전제된 원인을 가져다 주는 기능을 하는 변수

 2) 한 변수의 값의 변화가 다른 변수의 값의 변화에 영향을 미치는 변수

 3) 동의어

 - 설명변수(Explanatory variable)

 - 예측변수(Predictor variable)

 - 회귀자(Regressor)

 - 원인변수

 - 조작 변수(manipulated variable)

 - 통제 변수(controlled variable)

 - 노출 변수(exposure variable)

 - 리스크 팩터(risk factor)

 - 특징(feature) -> 기계학습

 - 공변량(Covariate) -> 연속형 자료

 - 요인(Factor) -> 범주형 자료

 - 입력 변수(input variable)

종속변수(Dependent variable)

 1) 독립변수의 원인(영향)을 받아 일정하게 전제된 결과를 나타내는 기능을 하는 변수

 2) 동의어

 - 반응변수(Response variable)

 - 결과변수(Outcome variable)

 - 표적변수(Target variable)

 - 목적변수(?)

 

 

 

* 참고 : https://drhongdatanote.tistory.com/14

* 참고 : http://www.ktword.co.kr/abbr_view.php?nav=&m_temp1=1916&id=1421

[비계량적 -> 범주형 자료, 이산형 자료]

명목척도

  - 측정대상을 특성의 존재여부 또는 몇 개의 상호배타적인 범주로의 구분을 위해 수치나 부호를 부여한 것

   ∗ (예) 성별, 결혼유무, 종교, 17개시도, 계절

 

서열(순서)척도

  - 측정대상의 분류는 물론 대상의 특수성 또는 속성에 따라 각 측정대상들의 등급순위를 결정하는 척도

  - 측정대상의 분류는 물론 그 속성에 따라 서열이나 순위를 매길 수 있도록 수치를 부여한 것

   ∗ (예) 소득수준, 선호도, 석차(등수), 사회계층, 자격등급

 

[계량적 -> 연속형 자료]

등간(구간)척도

  - 명목척도와 서열척도 특성을 포함하여 크기의 정도를 제시하는 척도

  - 측정대상의 속성에 따라 서열화하는 것 뿐만 아니라 서열간의 간격에 있어 동일성을 유지하도록 수치를 부여한 것

   ∗ (예) IQ, EQ, 온도, 학력, 시험점수, 물가지수

   ∗ 상대적 영점 : 등간척도의 예로 온도가 0이라는 의미는 아무것도 없는 상태가 아니고 상대적으로 0만큼 있는 상태를 의미하므로 상대적 영점이 존재하는 것이라고 할수 있고, 비율척도의 예로 무게가 0이라는 의미는 아무것도 없는 사태를 의미하므로 절대적 영점이 존재하는 것이라고 할 수 있음

 

비율(비례)척도

  - 측정대상의 속성에 등간척도가 지니는 성격에 더하여 절대‘0’의 값(절대영점)을 가짐으로써 비율의 성격을 지니는 척도

   ∗ (예) 연령, 무게, 신장, 수입, 출생률, 사망률, 졸업생 수

 

[4가지 척도의 특징 정리]

오차(왼쪽)                           vs                                    잔차(오른쪽)

오차(error)와 잔차(residual)는 모집단을 전제로 하느냐 표본을 전제로 하느냐에 따라 회귀식에서 사용되는 개념이다.

 

왼쪽에 있는 모형은 모집단의 모수식을 표현한 것이다. 즉, 우리가 궁극적으로 알고자 하는 실제의 식인 것이다. 

이때, 모든 data들을 하나의 회귀식으로 100% 설명할 수 없다. 그래서 오차(error)라는 개념이 도입되었고, 이 값은 회귀식의 값과 실제값의 차이를 말한다.

오른쪽에 있는 모형은 표본으로부터 추정한 회귀식을 표현한 것이다. 즉, 우리가 궁극적인 회귀식을 알수 없기에 그것을 추정한 식인 것이다. 이때 잔차(residual)라는 개념을 사용하며, 이 값은 추정된 회귀식의 값과 관측값의 차이를 말한다.

 

추정된 회귀식은 모집단의 실제 회귀식과는 차이가 있을 수 있다. 일반적으로 표본이란 것 자체가 대표성을 갖긴 하지만 모집단 그 자체가 될 순 없기 때문이다. 

 

 

 공부방법

 ㅇ 교재 : 데이터분석 전문가 가이드(1차때 공부), 데이터분석 준전문가(데이터에듀)(2,3차때 공부)

 ㅇ 공부기간 및 방법

  - 1차(4주 공부) : 바로 붙어야 겠다는 강한 의지와 자신감을 갖고 시작했다. 시험범위에 하당하는 부분을 무작정 처음부터 끝까지 읽었다. 2~3번정도 읽고 제공되는 문제를 반복해서 풀었다. 여전히 방대한 양이어서 다 외우려고 하기보다는 흐름?을 익히는 정도로 외웠고, 도무지 머릿속에 들어오지 않는 부분들은 그냥 과감히 포기했다. 문제를 반복적으로 풀때는 쉬운 문제는 X쳐가면서 이후부턴 해당문제는 풀지않았기에 시간을 절약했다. 문제에서 반복적으로 나오는데 헷갈렸던 개념들 위주로 요약본을 만들었고 시험이 다가왔을때는 그것 위주로 봤다.

 

  - 2차(2주 공부) : 1차응시 시험공부하는 동안 전체적으로 훑어봤기 때문에 시중에 떠도는 책 중 리뷰가 가장 많은것으로 구매해 공부했다. 이론 역시 2~3번정도 그냥 훑듯이 읽고 문제를 반복적으로 풀었다. 

 

  - 3차(1주 공부) : 2번의 결과가 참담해서 그냥 포기하고 잊고 지내다가, 아주 오랜 시간 뒤에 다시 생각이 나서 응시해놓고 거의 잊고있다가 마지막 딱 1주전에 데이터분석 준전문가 책(신규버젼)이 배달되어 그때부터 공부했다. 이론은 대충 1번 보고 바로 문제를 풀었다. 2회정도 푼것 같다. 문제를 풀면서 전혀 모르거나 기억 안나는 부분은 개념을 다시 찾아보고 그부분만 공부하는 방식으로 공부해 나가싿, 그리고 1차때 만들어 놨었던 요약본을 조금 더 추가(인터넷 카페를 통해 얻은 시험문제 정보들을 다 긁어모아 재정리) 해서 요약본을 시험 전날부터 봤다. 꼭 나올것만 같은 문제인데 공식을 못외운 경우가 있어서 시험응시장소에서 시험지 받기전까지 그부분만 공식을 머릿속으로 계속 읊었고 시험지를 받자마자 그 공식을 구석에 자그맣게 써놓고 문제를 풀었다. 다행히 그 공식을 이용해 푸는 문제가 나왔다.

 

 

 시험결과 및 변별력

 

ㅇ 위에서부터 11회, 12회, 21회 adsp응시결과이다.

분명히 같은 범위이고 교재 내용은 변한게 없을터인데 점수의 변동폭이 너무 크다. 물론 내가 열심히 공부를 안한 요인이 클테지만 그것을 감안해도 변동폭이 큰부분은 변함없는 사실이다. 1과목과 2과목의 점수 변동성이 보이는가;;;;?? 

이렇게 난이도 조절이 잘 안되는것 같다. 그야말로 벼락치기를 해도 붙을만한 회차가 있고, 붙기 어려운 회차가 있을 수 있단 소리다.

시험을 연속적으로 본게 아니고 그 텀이 꽤나 길었기 때문에 기존의 공부내용은 머릿속에서 거의 잊혀져 있었다. 그런데 아이러니 하게도 시험공부량과 시험결과는 반비례 했다. 가장 열의도 없었도 공부기간도 짧게 했는데 합격했다.

어디까지나 내 기준이지만 점수만을 기준으로 본다면 회차별 난이도가 이렇게 들쑥날쑥한다는 것을 간접적으로 느낄 수 있을 것이다. 시험 응시할 때 참고하기 바란다.

 

 

 후기

 ㅇ 명칭을 정의하는데 그 명칭 자체에 영어단어가 너무 많이 들어가 있다. 그냥 한글만 사용했을 뿐 그 뜻은 영어단어를 알아야 이해할 수 있는 것들이 너무나도 많다. 뭔가 이질감이 느껴진다. 이런 용어들이 굉장히 많이 나온다.

 ㅇ 주관식에서는 재출제 되는 경우는 거의 없었다. (1~2문제 정도만이 과거 출제된 정도에서 나오는 듯)

 ㅇ 실제 시험문제에서 그 개념과 범위가 공식교재 수준을 넘어서는 경우가 많이 나오는 것 같다. "한국데이터진흥원에서 규정한 문제출제범위가 맞는건가?",  "한국데이터진흥원에서 명시한 교재를 토대로 나온 문제가 맞는건가?"라는 의심이 굉장히 많이 들었다. 시험을 보면 그 수준을 넘어서는 용어와 개념들이 어쩌다 한문제가 아니라 꽤나 많은 문제의 경우에서 말이다. 기호와 수식을 이용해서 표현하자면 대략 이런 느낌이다. ADsP를 수능과 비교하여 표현하겠다.

- (수능의 경우) 우리는 초/중/고 교육과정을 통해 A,B,C,D,E 개념을 배운 상태이다. 수능에서는 A,B,C,D,E 혹은 A+B, A+C+D+E, A*C*D 이런 느낌으로 기본개념 확인문제 부터 응용문제들이 출시된다 정도로 표현하겠다.

- (ADsP의 경우) 우리는 한국데이터진흥원이 명시한 공식교재인 "데이터분석 전문가 가이드"를 통해 A,B,C,D,E개념을 배운 상태이다. ADsP에서는 A,B,C,D,E 혹은 X, Y, Z, A+H+K, A*X*Z 이런느낌으로 (1)교재의 학습을 통해 풀수있는 문제(2)전혀 듣도보도 못한, 기본개념을 통해 응용도 할 수 없는 문제들이 나온다 정도로 표현하고 싶다.

 즉 우리는 한국데이터진흥원이 명시한 공식교재인 "데이터분석 전문가 가이드"만을 씹어먹을 정도로 공부해도 ADsP에서 100점만점을 못받을 수 도 있단 소리다. 그만큼 난이도가 들쑥날숙한 것 같다. 바꿔말하면 공부량에 비례해서 당연히 합격을 보장하는 케이스도 있겠지만, 회차별 ADsP의 난이도 격차가 커서 열심히 공부한 사람이 합격을 못할수도, 대충 공부한 사람이 합격을 할수도 있을 것이란 소리다.(아래 표 참고)

경우1 (1)에 해당하는 문제가 많이 나오고 (2)에 해당하는 문제가 적게나온 경우의 시험회차일 경우, 대충 공부했는데 합격할 수도 있다.
경우2 (1)에 해당하는 문제가 적게 나오고 (2)에 해당하는 문제가 많이 나오는 경우의 시험회차일 경우, 나름 열심히 공부했는데 합격하지 못할수도 있단 소리다. 

 

 

 



     style="display:block"
     data-ad-client="ca-pub-9434514077696536"
     data-ad-slot="9138348601"
     data-ad-format="auto"
     data-full-width-responsive="true">


사회조사 2급 자격증을 딴 후기를 작성한다.

공부한 책은 시대고시기획에서 출판한 "사회조사분석사 2급" 책이다.

응시회차는 16년도 3회차 정기시험을 치뤘다.

 

우선, 시험은 필기형과 실기형으로 나뉘어진다.

1) 필기형 : 100문항이며, 매과목 40점 이상, 평균 60점 이상이 합격기준이며 시험시간은 2시간 30분

2) 실기형 : 필답형과 작업형으로 나누어져 있으며, 나누어서 시험을 본다. 필답형의 경우 60점 만점, 작업형의 경우 40점 만점. 두 점수를 합산해 60점 이상이 합격 기준이며 시험시간은 각각 2시간 총 4시간

 

 

공부과정은 아래와 같았다.

 

◎ 필기형 : 공부기간은 3주정도 된것 같다. 필기형은 조사방법론1, 조사방법론2, 사회통계로 크게 3분야로 나뉘어져 있다. 나는 우선 처음부터 끝까지 그냥 읽었다. 주구장창 읽고 문제풀이도 답을 체크해놓고 쭉 읽었다. 대신 대다수의 문제출제 방식이 "아닌 것은?"이기 때문에 나머지 문항들도 다 읽었다. 이렇게 한 3번은 보다보니 대충이나마 머릿속에 들어왔다. (여전히 이해안가는 부분은 끝까지 이해 안갔지만 개념이 잡히는 부분들이 충분히 있었다.) 그다음부터는 중요한 부분에 밑줄, 그 이후부터는 핵심 단어에 동그라미를 치면서 읽었다. 처음에는 3일에 한번(약 650p)씩 읽었는데 나중에는 2일에 한번씩 읽게 되었다. 그렇게 7번정도을 보고(처음엔 10번이 목표였지만 시간상 계획을 바꿨음) 문제를 본격적으로 풀기 시작했다. 쉬운부분은 시간단축을 위해 X를치면서 삭제해 갔고, 이후 기출문제를 풀기 시작했다. 이때부터는 시간을 재면서 했지만 딱히 시간적 압박은 없었다. 이렇게 시험날까지 기출문제 반복풀이를 계속했다. (사실 필기형은 그냥 기출문제만 계속 무한반복 풀이해도 합격기준은 무난히 넘을 것으로 본다. 하지만 필답형을 고려할 때 이 부분에서 실질적으로 개념을 조금 잡고가는 것이 낫다고 생각한다.)

◎ 필답형 : 공부기간은 약 1.5주정도 된것 같다. 필답형은 주관식이라고 보면 된다. 어느정도 개념이 잡혔다고 판단하였기에 이때부터는 기출문제 위주로만 개념공부를 하였다. 2010년도부터 2015년까지의 기출문제를 전부다 나열한 후 중복문항을 제외하고 비슷한 개념들끼리 묶었다. 이렇게 한 후 자세한 개념을 한글로 옮기다 보니 처음엔 33페이지가 나왔다. 안그래도 머리가 안좋은데 33페이지를 통째로 외우는 것은 무리였기에 한번씩 정독하면서 정리한 파일을 다시 정리하고 압축하는 작업을 반복해서 6번의 수정을 통해(재정리집1부터 6까지 있었으니까) 20페이지까지 줄였고 이 내용을 집중적으로 외웠다. 이 역시 계속해서 읽고 외우다보니 외워지는 부분은 자연스레 외워졌지만 안돼는 부분은 잘 안돼었다. 결국 시험날까지 끝까지 못외웠던 개념이 2개 있었지만 다행이 그 문제는 나오지 않았다.

◎ 작업형 : 공부기간은 1주일 이었다. 문제집에 나온 그대로 따라했다. (작업형은 개념이 잡혀있으면 문제를 푸는데 별 문제가 없을 것으로 본다.) 이렇게 모든 기출문제를(1회~9회 + 2012년~2015년 기출문제) 한번씩 풀고 눈으로 그 풀이과정과 결과해석하는 부분을 집중적으로 봤다. 그래도 헷갈리는 부분이 없지않게 있어서 이번에도 한글파일로 정리집을 작성했고 약 5페이지 분량이 되었다. 이 정리집은 시험 당일날 버스에서 한번 쭉 훑어보는걸로 활용되었다. 시험은 크게 9문제인가가 나왔는데 그중 1문제는 질문지 작성문제였으며 문제 푸는데 큰 어려움은 없었다. 시간적 여유도 충분했다.

 

<응시 결과>

 

그리고 공부하면서 느꼈던 애로사항? 3가지를 끄적여본다. 공부하는 사람이라면 참고해도 좋을 듯 싶다.

 

1) 내가 본 책은 방대한 양과 많은 기출문제를 담고 있지만 그에 비례해 오타가 너무 많았다. 처음엔 몰랐으나 계속 읽다보니 오타가 너무 많이 보인다. 특히 기술통계 부분에서는 기호나 공식이 꽤 나오는데 여기서 마저도 오타가 있었고, 비전공자는 그 책만 바라보고 공부할텐데 어떻게 하란 소리인가...? 오타로 인해 만약 실전에서 실수가 발생한다면 그 책임은 누가지나!!?

 

2) 같은 개념의 정의를 다른말로 풀어서 기재하는 경우가 있다. 앞의 설명 부분에서 나온 어떤 개념에 대한 내용이 뒤의 문제풀이에서는 또다른 내용으로 적혀있다. 그 맥락은 통하나 한가지 개념을 2가지로 풀이를 해주게 되는것이므로 한글의 위대함을 느낌과 동시에 앞쪽으로 돌아가서 본래의 개념에 추가적인 내용을 기재하면서 공부했다. 이럴바엔 그냥 처음부터 상세하게 개념정의를 여러가지로 적어놨으면 될텐데 말이다. 

 

3) 두번째 경우와 반대로 같은 개념에 대한 정의를 말하곤 있지만 그 개념에 대한 항목 명칭 자체를 다르게 기재하는 경우가 있다. 앞에서 나온 어떤 개념의 명칭이 뒤의 문제풀이에서는 다른 명칭으로 불리우고 있다. 이렇게 다르게 부를 수 있는 것이라면 처음부터 그것을 다 포함해서 제시를 해주던가.... 예를 들자면 실제 공부할 때 나오는 "액면타당도"는 나중에는 "표면타당도, 논리타당도, 논리적타당도, 외견상의타당도"로 다양하게 언급하고 있다.

우리가 궁극적으로 알고싶은 전체 집단을 모집단 이라고 한다. 하지만 전체 집단을 모두 조사하는 것은 현실적으로 불가능하다. 고혈압 환자에게 A약을 투여해서 얼마나 효과가 있는지 알고 싶을 때 전세계의 모든 고혈압 환자(모집단)를 대상으로 효과를 파악할 수도 없는 노릇이다. 이때 우리가 할 수 있는 것은 적절한 표본집단을 지정하여 이 표본집단에서 평균, 표준편차와 같은 통계량을 구한 뒤 이를 통해 모평균과 모펴준편차를 추정하는 것이다. 이렇게 추출된 표본의 평균, 표준편차, 분산 등을 통계량이라고 하며 모집단의 모평균, 모표준편차, 모분산 등을 모수라고 한다. 통계적 검정을 위해 표본으로부터 계산된 검정통계량도 통계량의 일종이다.

 

 

ㅁ 모수적 방법

  우리는 중심극한정리에 의해서 본래의 분포에 상관없이 무작위로 복원추출된 연속형 자료의 평균의 분포는 정규분포를 띤다는 것을 알고 있다. 비교하고자 하는 두 집단이 모두 정규분포를 띤다면 그 두 집단은 평균을 비교함으로써 차이를 밝힐 수 있다. 이렇듯 정규성을 갖는다는 모수적 특성을 이용하는 통계적 방법을 모수적 방법(parametric method)이라고 한다.
  그러면 중심극한정리에 의해 정규분포를 가정할 수 있는 최소한의 표본의 크기는 얼마나 될까? 이 질문에 대한 대답은 모집단의 분포에 따라 차이가 있겠지만, 일반적으로 군 당 30명 이상으로 구성된 표본의 경우에 정규분포를 따른다고 가정한다. 그리고 군 당 10명~30명 규모인 경우에는 따로 정규성 검정을 통해 정규분포임이 확인되면 다음 모수적 방법을 사용할 수 있다.

 

 

비모수적 방법

  정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 군 당 10명 미만의 소규모 실험에서는 정규분포임을 가정할 수 없으므로 모수적 방법을 사용할 수 없다. 이런 경우에는 자료를 크기 순으로 배열하여 순위를 매긴 다음 순위의 합을 통해 차이를 비교하는 순위합검정을 적용할 수 있는데 이런 방법들은 모수의 특성을 이용하지 않는다고 하여 비모수적 방법(nonparametric method)이라고 한다. 또, 숫자로는 표현되지만 수량화할 수 없고, 평균을 낼 수도 없는 순위 척도의 경우에는 비록 연속형 자료는 아니지만, 순위의 합을 이용하는 비모수적 방법을 적용하는 것은 가능하다.


 정리
  정리해 보면, 일반적으로 위 표본의 개수가 n>=30으로 충분히 크거나, 10=<n<30 이면서 정규성 검정에서 정규분포로 간주되는 연속형 자료의 경우 모수적 방법을 사용할 수 있으며, 그 외의 경우는 비모수적 방법을 사용한다. 일반적으로 비모수적 방법보다 모수적 방법을 선호하는 이유는 모수적 방법이 검정력이 다소 높고, 두 군 사이에 크기의 차이가 있는 경우 차이의 정도를 함께 제시해 줄 수 있는 장점 때문이다. 비모수적 방법은 검정력이 다소 떨어지고, 크기의 차이를 보여주지 못하는 대신에 표본수가 작은 경우이거나, 순위 척도인 경우를 비롯하여 숫자로 되어 있는 모든 경우에 적용을 할 수 있는 장점이 있다.

 층화표본추출법 (=층별표본추출법=층화랜덤추출법)

 

 ㅇ 개념

   - 층화표본추출법

     1) 모집단이 특성에 따라 층화된 곳에서 각 층 마다 표본을 무작위로 추출하는 방법 

     2) 모집단을 어떤 기준에 따라 상이한 소집단으로 나누고, 각 소집단들로부터 표본을 무작위로 추출하는 방법

 ㅇ 사용시기

     1) 각 층에 대하여 상이한 표집방법 또는 상이한 목록표를 사용하여야 할 경우이다.

     2) 일정한 정확도를 확보하는데 필요한 표본의 수를 되도록 적게 하고자 하는 경우이다. 조사하고자는 층이 동질적

        이라면 층화표집방법을 사용하므로써 최소한의 사례로 주어진 정확성을 확보할 수 있을 것이다.

 ㅇ 종류

   - 층화표본추출법은 "비례 층화추출법", "불비례 층화추출법"으로 구분

     1) 비례 층화추출법 : 소집단 내에서 추출되는 표본의 수가 소집단의 크기에 비례하도록 표본을 추출

     2) 불비례 층화추출법 : 소집단의 크기와 분산도를 모두 고려하여 표본을 추출

 ㅇ 포본의 배분법

   - 전체 모집단에서 추출하고자 하는 표본(N개)을, 각 층(h개)에서 몇 개씩 추출할 것인가에 대한 방법

    1) 균등배분법 : 추출코자 하는 표본을 각 층에 동일하게 배분하는 방법으로 모집단 전체에서 추출하고자 하는 표본

                        크기를 층의 수로 나누어 배분

    2) 비례배분법 : 각 층의 크기에 비례하여 표본을 각 층에 배분하는 방법

    3) 최적배분법 : 각 층의 표본 추출 단위당 비용과 총비용을 고려하고, 추정치의 분산을 최소가 되도록 하는 방법

    4) 네이만배분법 : 각 층의 표본 추출 단위당 비용이 모두 동일하다는 가정 하에서 주어진 총비용을 조건으로하고,

                           추정치의 분산을 최소화하는 배분법을 찾는 방법으로 최적배분의 한 종류

    5) 데밍배분법 : 총비용이 일정하게 주어지고 조사단위당 조사비용이 층에따라 크게 다를 경우 분산이 최소가 되도록

                        표본크기를 결정하는 방법

 ㅇ 장점 및 단점

   - 장점

    1) 집단간의 이질성이 존재하는 경우 무작위추출법보다 추출된 표본이 모집단의 특성을 잘 반영

    2) 단순임의표본추출법과 같이 표본의 무작위성이 확보되면서 불필요한 분산을 줄임

    3) 층화된 부분집단의 특성을 잘 알고 이를 비교 가능

   - 단점

    1) 모집단의 각 부분층을 정확히 알고 있지 않으면 안된다.

    2) 표본추출과정에서 비용이나 시간이 많이 들 수 있다.

 ㅇ 층화표본추출법 vs 할당표본추출법

   - 공통점 : 모집단을 어떤 기준에 따라 소집단들로 나누고, 소집단별로 표본을 추출한다는 부분

   - 차이점 :  할당표본추출법(비확률 표본추출법의 한 종류)의 표본추출과정은 편의표본추출과 같이 비확률적인 방법임.

                 층화표본추출법의 표본추출과정은 무작위적으로 이루어짐

 

 

 

 

 군집표본추출법 (=집락표본추출법)

 

 ㅇ 개념

   - 군집표본추출법

    1) 모집단을 소집단(군집)들로 나누고, 일정수의 소집단을 무작위로 표본추출한 다음, 추출된 소집단내의 구성원들을

       모두 조사하는 방법

 ㅇ 사용시기

     1) 모집단 집락내에는 서로 이질적이고, 집락간에는 동질적이 되도록 집락을 나눌 수 있는 경우 아주 유용

     2) 소집단 자체를 표본대상으로 하기 때문에 각 소집단이 가능한 한 모집단을 대표할 수 있는 소규모의 집단될 경우

 ㅇ 군집표본추출법 vs 층화표본추출법

   - 공통점 : 모집단을 수개의 소집단으로 분류한다는 점

   - 차이점

    -> 층화표본추출법은 모든 층으로부터 표본을 추출하여 각 층은 일정한 사례를 통해서 모두 다 대표되며, 표집의 변

        량은 각층내의 변량을 포함함. 따라서 층화표집시 각각 동질적인 집단이기를 기대함

    -> 군집표본추출법은 추출된 집락에 대해서는 사례 전부를 표본으로 선택하므로 집락내 표집 오차는 있을 수 없음.

        다만 집락간의 표집변량이 있을 것이다. 군집표집시에서는 이질적으로 구성된 집락을 기대함

 ㅇ 장점 및 단점

   - 장점

    1) 집락을 잘 규정하면 비용이 절감됨

    2) 집락의 특성을 평가하고 모집단의 특성과 비교 가능. 선정된 각 집락은 다른 조사의 표본에도 사용 가능

   - 단점

    1) 집락이 동질적이라면 오차의 개입가능성이 높음

    2) 단순임의추출법보다 집락을 과대 또는 과소 평가해서 표본오차를 계산하기가 어려움

+ Recent posts