네이버 사전에서 발췌 :  

통계적 유의성 모집단에 대한 가설이 가지는 통계적 의미를 말한다. 다시 말해서, 어떤 실험 결과 자료를 두고 "통계적으로 유의하다."라고 하는 것은 확률적으로 봐서 단순한 우연이라고 생각되지 않을 정도로 의미가 있다는 뜻이다. 반대로 "통계적으로 유의하지 않다."라고 하는 것은 실험 결과가 단순한 우연일 수도 있다는 뜻이다.

가설 검정에서 통계값과 연구자가 설정한 수준(유의수준)을 비교·판단하여 영가설을 기각할 때, 연구가설이 "통계적으로 유의하다"라고 한다.

 

 

 

 

통계적으로 유의하다는 말의 뜻을 쉽게 설명하면? 일단 단어 찾기부터. 

 

● 통계(統計=합친+계산) = statistics 
● 유의(有意=있음+의미) = meaningful/significant = 의미 있다!?

 

그렇다면 통계적으로 유의하다는 말이 무슨 뜻인가? 예를 들어보자. 유의차라는 말을 들어 보았을 것이다. 아마도 차이가 있다는 뜻일 것이다. 즉, 두 값은 차이가 있다는 뜻이다. 차이가 있으면 있지 유의차는 무슨 말인가? 예를 들어 두 집단이 있다. 키 큰 부족과 키 작은 부족이다. 단순히 평균만 취해서 비교해 보면 쉽게 알 것이다. 그런데 왜 이런 말을 하는가? 평균을 취해서 비교하는 것으론 부족하다. 만약 한 놈을 잡았는데 이놈이 키 큰 부족인지 키 작은 부족인지 결정해야 한다고 하자. 그렇다면 평균 키만으론 되지 않는다. 키 작은 부족에서 키가 가장 큰 놈일 수도 있기 때문이다. 또는 키 큰 부족 중에서 키가 가장 작은 놈일 수도 있기 때문이다. 이 무슨 말인고 하면 당신이 10명을 잡아서 평균을 취한 키는 그 부족 전체 평균과 다르다는 것이다. 그래서 몇 명의 키만 가지고는 이 놈들이 어느 부족인지 판단이 어렵다는 것이다.

 

이런 문제는 전문적으로 통계학자들이 수학적으로 처리하도록 만들어 놓았다. 그러나 일반인은 그 설명을 듣기에는 불필요하게 복잡하다. 그렇다고 쉽게 설명하는 학자들도 없다. 즉, 일반인이 실용적으로 알아들으면 될 정도의 설명이 없다. 다음 그림을 보라. 그림으로 간단하게 이해만 하자. 3가지 경우가 있다. 거의 확실하게 다른 경우와 같은 경우, 그리고 그 중간의 애매모호한 경우이다. 이런 경우 거의 확실하게 같거나 다른 경우가 유의한 것이다. 유의차가 있다는 말은 거의 90%, 95%, 99%, 100% 다르다고 말할 수 있다는 말이다. 좀 이해가 가는가?

 

 

통계학을 배우지 못한 일반인에게 수식을 펼치며 설명할 필요도 증명을 할 필요도 없다. 누가 그것을 기억하겠는가? 통계 소프트웨어를 돌리고 나서 그 결과로 어떠하다고 말을 해도 듣는 사람에게 쉽게 설명하지 못한다면 자신도 정확하게 알고 있는 것이 아니다. 당신이 몇 가지 자료만 가지고 판단한다고 할 경우 틀린 판단을 내릴 경우는 어느 정도인가? 그것을 통계가 말해주는 것이다. 유의하다거나 유의차가 있다고 하면 거의 확실하게(아마도 95%나 99%) 그렇다고 말하는 것이다. 가장 무의미한 것이 50%이다. 0%는 의미가 있다. 확실하게 아무 일도 없다는 의미다. 동전던지기와 같은 것은 50%로 판단이 무의미하다. 심하면 40:60, 30:70, 20:80 도 무의미하다고 할 수 있다. 최소한 10:90, 5:95, 1:99 정도는 되어야 통계적으로 의미 있다고 말하는 것이다. 사격에서 유효사거리가 맞거나 말거나 한 거리 즉, 적중률 50%인 거리를 말한다.

 

사람들은 보통 평균을 구해서 비교하여 판단한다. 이런 분들은 평균만 차이가 나면 다른 것이라고 생각한다. 그러나 편차를 고려하지 못하면 사실은 거의 같은 것을 다르다고 오인할 경우가 있다. 앞의 그림으로 상상해 보라. 평균 차이가 10m이지만 편차가 100m이면 차이가 있는 것이 아니다. 그러나 편차를 고려하고자 통계 소프트웨어를 돌리고 나서 “통계적으로 유의차가 없다/있다.”라고만 이야기 하는 친구들이 있다. 이 말은 1과 2를 더하니 3이요라고 하는 것과 같다. 모든 숫자에는 물리적인 의미가 있다. 그래서 어쨌다는 것인가? 1은 무엇을 나타내고 2는 무엇이며 3은 무슨 뜻인가? 답답한 친구들이다. 사람이 계산기인가? 의미 없이 계산결과만 알려주게? 자료가 너무 적어서 오류가 너무 크니 무의미하더거나, 자료가 충분하지만 명확한 차이를 보이지 않는다고 하거나 무슨 구체적인 답변이 나와야 하지 않은가?

 

회사에서 한 때 6 Sigma 바람이 불어서 통계소프트웨어 배우고 통계 수업 듣고 그런 적이 있었다. 그 때 보고 느낀 바가 있다. 예를 들어 10개의 물건을 취해서 평균을 냈다고 하자. 이 평균이 전체 평균과 얼마나 같은가? 물론 전체 평균을 알 수 없다. 누가 미쳤다고 전체 물건의 평균을 취하고 있겠는가? 전체 평균을 내려면 수십만개를 측정해야 한다. 이런 경우 통계가 필요하다. 당신의 판단이 맞을지 점을 쳐보는 것이다. 그래서 소프트웨어를 돌린다. 그러나 그 결과는 앞에서 말한 바와 같이 숫자로만 나온다. 그 의미를 말해야 하는 것이 사람이다. 그런데 이 사람들 하는 짓이 가관이다. 의미를 해석하지 못한다. 또한 의미를 해석하도록 가르치지도 못한다. 항상 무의미하다거나 유의차가 없다거나 하는 식이다.(^^) 그럴 수 밖에 없다. 평균을 취한 개수가 적은 것이 현실이고 충분한 개수로 평균을 취해도 거의 약간 향상된 정도이기 때문이다. 이런 경우는 향상 되었다고 인정을 해야하지 않겠는가? 통계학이 이 정도 결론 밖에 내지 못한다면 사용할 필요가 없다.

 

더 웃긴 일이 있다. 6 Sigma란 단순히 제품의 편차를 줄이자는 뜻이 아니다. 좀 더 통계적으로 사고하자는 의미다. 나는 그런 의미로 받아 들였다. 단순히 제품의 편차를 줄이는 것은 통계가 없어도 할 수 있다.(^^) 측정을 하면 제품의 편차와 측정기의 편차가 합쳐져서 결과에 반영된다. 정확한 판단을 하려면 우선 측정기의 편차가 작아야 한다. 물론 정밀한 측정기는 비싸다. 결국 회사에서 구입 가능한 보편적인 측정기로 거의 최대한 제품의 오차를 줄인 상태이다. 이 상태에서 무슨 제품의 편차를 줄이겠다고 하겠는가? 제품의 편차는 기술혁신으로 이루어지는 것이지 통계학으로 이루는 것이 아니다. 제품의 편차를 줄이려면 통계학자를 내쫓고 정밀 가공하는 기능직 사원을 구하고 정밀 측정기를 구입하면 된다.

 

6 Sigma의 본 의미는 뭔가를 판단을 할 때 통계적으로 고려해 보자는 그런 의미다. 기술은 이미 포화상태일 것이다. 그러니 이것은 일종의 실수나 허점을 줄이자는 운동이다. 그래서 이 운동을 해도 제품의 품질 향상은 크게 일어나지 않는다. 결국 통계학자는 아무 도움도 안 된다. 이들은 통계 소프트웨어와 같이 수학적인 계산을 하고 그런 차원에서만 도움을 줄 수 있는 그런 것이다. 실제 품질 개선을 해야 하는 기술자들이 통계학을 배울 수는 없다. 그러니 통계 소프트웨어를 다루고 그 결과를 해석할 수 있기만 하면 된다. 그 정도만 가르치면 될 것을 엉뚱한 짓을 하고 있으니 이놈의 통계학이 과연 도움이 될까? 사람들 시간만 뺏을 뿐이다. 통계도 필요한 곳에 사용하고 필요 없는 곳에는 사용하지 않는 유의한 판단을 했으면 한다. 해당도 되지 않는 곳에다 통계를 들이대지 말자.

 

통계적으로 유의한 결과인지를 알려주는 숫자는 수학적으로 구한 값으로 그것이 나오는 과정과 정확한 의미를 설명하면 수학시간이 되고 만다. 그래서 불필요한 설명이 되고 만다. 그러나 정확하지 않지만 비슷하고 실용적인 수준에서 이해를 한다면 사람들에게 도움이 될 것이다. 이러한 설명을 잘 하는 기술자는 진급이 보장된다. 상사가 똑똑한 사람으로 판단을 할 것이기 때문이다. 뭔가 열심히는 하는데 설명이 부족한 친구는 억울하겠지만 인정받지 못한다. 오죽하면 기술자를 대상으로 하는 보고서 쓰는 법도 가르칠까? 보고서에 통계처리 결과를 숫자로 적어 놓고 유의하니 어쩌니 적어 놓으면 무슨 도움이 될까?

 

● 유의하다 = 거의 확실하게(99%) 다르다(크다/작다). 거의 확실하게(99%) 같다. 

 ex) 통계적으로 유의한 차이가 있다. 통계적으로 유의하다.
● 무의하다 = 다른지 같은지 확신이 없다. 애매모호하다.
 

 

통계는 숫자를 처리하는 것이니 항상 비교를 하게 되고, 비교 결과는 같은지 다른지이다. 다르면 어느 쪽이 큰지 작은지로 결론 난다. 이 숫자 비교의 물리적 의미를 해석하는 것은 해당분야 기술자들이 해야 하는 것이다. 물리적 의미를 모르고 멍청하게 통계 계산을 잘 한다고 통계 잘 하는 것이 아니다. 고런 것은 쓸모없으니 버려라. 통계적으로 의미 없다는 말에는 자료가 너무 적어서 판단 불가능이란 의미다. 자료가 많으면 충분히 판단할 수 있다. 큰지 작은지 같은지 말이다. 품질 향상보다 먼저 해야하는 것이 편차를 줄이는 것이다. 편차가 줄어야 미세한 품질 향상이 눈에 확 보이니까!(^^) 편차를 줄이지 않고 품질을 향상시키면 결국 아무 차이도 나지 않는다. 큰 놈과 작은 놈 차이가 100m인데 전체 평균이 1m 향상되었다고 하면 웃기는 놈 취급 받을 것이다. 

 

 

- Α/α(알파) (★)
- Β/β(베타)(★)
- Γ/γ(감마)(★)
- Δ/δ(델타)(★)
- Ε/ε(엡실론)
 (★)
-Ζ/ζ(제타)
-Η/η(에타)
-Θ/θ(쎄타) (★)
-Ι/ι(요타)
-Κ/κ(카파)
-Λ/λ(람다)
-Μ/μ(뮤) (★)
-Ν/ν(뉴)
-Ξ/ξ(크시)
-Ο/ο(오미크론)
-Π/π(피)
-Ρ/ρ(로우) (★)
-Σ/σ(씨그마) (★)
-Τ/τ(타우) (★)
-Υ/υ(윕실론)
-Φ/φ(휘) (★)
-Χ/χ(키 또는 카이) (★)
-Ψ/ψ(프시)
-Ω/ω(오메가)

 

(정리 중)

 

개념정리

 

(1) 가설의 종류

  귀무가설(H0 , Null hypothesis, 영가설) : 변화/효과/차이 없음. 기존에 믿어온 사실

  대립가설(H1, alternative hypothesis, 연구가설) : 변화/효과/차이 있음. 실험자가 새로이 주장하려는, 또는 입증하려는 사실, not H0,

  - 모든 검정은 특별한 이유(과학적으로 양측검정이 불가능하거나 선행연구를 통해 단측검정을 해야 하는 걸 아는 경우)를 제외하고는 양측검정을 추천

 

(2) 가설검정 목적

  실험(검정)의 목적 : 새로운 사실을 뒷받침 하기 위한 증거 확보. 따라서 이것이 대립가설(H1 )이 되어야 함

  - 실험(검정)의 목적은 새로운 사실을 입증하기 위한 것이지 과거로부터 받아들여지고 있는 귀무가설( )을 증명하기 위한 것이 아님

  - 따라서 우리가 검정을 하는 이유는 “대립가설이 옳다혹은 대립가설이 낫다고 주장하기 위함임 

 

(3) 오류 (귀무가설의 기각 관점으로 해석)

 ∙ 1종 오류( 오류) : 귀무가설이 참임에도 불구 귀무가설 기각 (실제 무죄인 피고를 유죄 판결)

 ∙ 2종 오류( 오류) : 귀무가설이 거짓임에도 불구 귀무가설 채택 (실제 유죄인 피고를 무죄 판결)

 ∙ 2종 오류보다 1종 오류를 최소화 하는 쪽으로 가설검정을 진행

  → 무죄인 자를 유죄로 만드는 것이 더 큰 오판(사형제도를 폐지하고 부활시키지 못하는 것과 같은 맥락. 부활시키지 않는게 아니라 못하는 것)

구분 사실
H0 H1
채택(판단) H0

정확한 결정

1-α

제 2종 오류

β

H1

제 1종 오류

α

정확한 결정

1-β

 

(4) 유의수준

 ∙ 유의수준(α , significance level))

  - "귀무가설이 참임에도 불구 귀무가설 기각"하는 확률

  - "1종 오류를 범할" 확률 (α의 최대 허용한계)

  

 ∙ α값이 클수록, 기각 가능성 커짐 α값이 작을수록, 기각 가능성 작아짐

  - α값이 잡을수록 더 신중한(보다 믿음이 가는) 검정 결과 산출(통상적으로 α = 0.1, 0.05, 0.01 사용)

 ∙ 유의수준 α하 검정법 : 1종 오류를 범할 확률이 α이하인 검정법

  - 해설 : α=0.05이라 할 때, 동일한 검정방법을 독립적으로 100회 실행할 경우 "H0이 참임에도 불구 H0 기각하는 오류"(1종 오류)를 최대 5번까지는 허용한다는 소리

 

 

(5) 유의확률

유의확률(p-value)

 ∙ 검정통계량(H0이 참이라는 가정 하 표본으로부터 얻은 통계량)의 값보다 더 확실하게 H0을 기각할 검정통계량의 값(같거나 그 이상)을 얻을 확률

  - 해설 : p-value=0.045라면, 이 참이라는 가정(약효가 없다) 하 표본에서 관찰된 검정통계량 값보다 더 확실하게 H0을 기각할 검정통계량의 값을 얻을 확률이 4.5%라는 소리 (더 확실하게 기각할 확률이 4.5% 정도로 낮다는 것은, 지금 정도로도 충분하게 기각할 수 있다는 소리)

 ∙ 주어진 검정통계량을 기각시키기 위한 제 1종 오류의 최소값

 ∙ H0이 기각되는 최소의 유의수준

 ∙ H0이 참이라는 가정 하 검정통계량이 어떤 값을 극단적인 것 또는 실제로 관찰되는 것보다 더 극단적인 것으로 받아들일 확률

 ∙ H0의 타당성 또는 신빙성에 대한 척도를 나타내는 값

 ∙ H0에 대한 모순을 극복할 표본을 얻을 확률, 다시 말해서 표본으로부터 얻은 검정통계량의 값을 초과할 확률

 

. p-value가 클 경우

 ∙ p-value가 크다면, 새로운 사실 입증을 위해 현재 수집한 증거보다 더 확실한 증거를 확보할 여력이 있다는 의미로써 현재 수집한 증거로는 불충분(현재 증거로 H0 기각 불가능)

 ∙ p-value가 클수록, H0에 대한 신빙성은 높아지며, p-value > α 일 경우 H0 기각하지 못함

 ∙ p-value가 크다는 것은 H0을 기각할 증거가 불충분하다는 것이지 을 H0 증명하는 증거가 있다는 것은 아님

 

. p-value가 작을 경우

 ∙ p-value가 작다면, 새로운 사실 입증을 위해 현재 수집한 증거보다도 더 확실한 증거를 확보하기가 그만큼 어렵다는 의미로써 현재 수집한 증거가 충분(현재 증거로 기각 가능)

  ∗ 수집한 증거 : “새로운 사실을 뒷받침 하기 위한 증거

 ∙ p-value가 작을수록, 에 대한 신빙성은 떨어지며, p-value < α 일 경우 기각

 ∙ p-value이 작을수록, 을 기각 할 증거가 충분해짐

  - 이때, 수치적으로 과연 유의확률이 어느 수준일 때 을 기각해야 하나?라고 고민할 수 있는데 그 기준에 바로 유의수준(α)을 활용함

 ∙ p-value가 작을수록, 와 상반되는 증거가 충분해짐

  - 귀무가설을 채택한다는 것은 표본자료가 귀무가설을 기각할(부정할) 만큼 충분한 자료를 제공하지 못했다는 것을 의미

 

(6) 통계적 유의

- 유의 : 유의확률이 유의수준(α)보다 작다면 우연이 아니라 필연적인 의미가 있다고 하는 의미에서 유의라고 한다.

- 통계적 유의성은 모집단에 대한 가설이 가지는 통계적 의미를 말한다.

1) "통계적으로 유의하다." : 실험 결과가 확률적으로 봐서 단순한 우연이라고 생각되지 않을 정도로 의미가 있다는 뜻이다.

2) "통계적으로 유의하지 않다." : 실험 결과가 단순한 우연일 수도 있다는 뜻이다.

- 해석 : 가설 검정에서 통계량과 연구자가 설정한 수준(유의수준 )을 비교·판단하여 귀무가설(영가설)을 기각할 때, 유의수준 하에서 대립가설(연구가설)"통계적으로 유의하다"라고 한다.

검정통계량은 표본 크기의 함수이므로 표본 크기가 커질수록 검정통계량의 값은 커져서 실질적으로는 유의성이 없어도 통계적으로는 유의한 것으로 판정될 수 있다. 이때의 오류는 1종오류가 된다. , 통계적 유의성은 오류가능성을 동반한다.

유의수준 α=0.05 하에서 대립가설(연구가설)이 통계적으로 유의하다고 볼 때, 이 가설검정 결과는 95%는 신뢰 가능하다 할 수 있다. (???)

 

(7) 검정통계량

- 귀무가설과 대립가설 중 어느 하나를 택하는 데에 사용되는 통계량

가설검정에서 기각역을 결정하는 기준이 되는 통계량

기각역을 정하고 그 영역에 검정통계량값이 들어가면 귀무가설 기각

- 귀무가설이 참이라는 가정 하 표본으로부터 얻은 통계량

통계적 가설검정을 위하여 확률분포를 결정하는 데 사용되는 통계량이다. , 귀무가설(또는 영가설)의 조건에서 관찰되는 추정치가 갖는 표집분포(sampling distribution)가 면적이 1인 확률분포가 되도록 추정치를 전환한 통계량이다.

표본자료에 기초하여 계산된 검정통계량은 귀무가설 가 참인 경우 해당 자료가 우리가 기대하는 것으로부터 얼마나 멀리 벗어나는지를 측정한다. 통계량의 값이 큰 경우 이것은 해당 자료가 와 일치하지 않는다는 사실을 알려준다. 검정통계량이 어떤 값을 극단적인 것 또는 실제로 관찰되는 것보다 더 극단적인 것으로 받아들일 확률을 검정의 p-(p-value)이라 하며, 이는 가 참이라는 가정 하에서 계산된다. p-값이 작을수록 해당 자료가 제공하는 와 상반되는 증거는 더 강해진다.

 

(8) 기격역(영역) vs 채택역(영역) vs 임계치()

- 기각역(c)

1) 가설 검정에서 귀무가설이 참이라는 가정 하에서 구한 검정통계량의 분포에서 확률이 유의수준 인 부분(반대는 채택역)

기각역을 정하고 그 영역에 검정통계량값이 들어가면 귀무가설 기각

2) 가설 검정에서 귀무가설을 기각할 수 있는 검정통계량 값의 영역(범위)

- 채택역

1) 가설 검정에서 귀무가설이 참이라는 가정 하에서 구한 검정통계량의 분포에서 확률이 유의수준 1- 인 부분

2) 가설 검정에서 귀무가설을 기각할 수 없는(채택하는) 검정통계량 값의 영역(범위)

검증통계량의 값이 채택역에 해당되면 귀무가설을 기각하지 못하고 채택

귀무가설을 채택한다는 것은 표본자료가 귀무가설을 기각할(부정할) 만큼 충분한 자료를 제공하지 못했다는 것을 의미

양측검정일 때 채택역은 표집분포의 중앙 1-α에 해당되는 영역이고, 단측검정일 때 채택역은 표집분포의 좌측 혹은 우측의 1-α에 해당하는 영역

채택 기준이 0.05라는 것은 채택 기준이 0.95라는 것이며, 이는 가설채택에 있어 기존의 입장을 유지하려는 경향이 크다는 것을 의미한다(보수적).

- 임계값(임계치, critical value) : 귀무가설을 기각 또는 채택하는 범위를 구분하는 경계값

 

(9) 검정력 (1-β , 확률) (귀무가설의 기각의 관점)

- 정의

1) 귀무가설이 거짓일 때 귀무가설을 기각할 확률(제대로 처리 할 확률)

2) 2종 오류를 범하지 않을 확률 ( 1-β )

3) 실제로 유죄인 피고를 유죄로 판결할 확률

A라는 학생이 우수하다는 것을 입증하기 위한 방법은 2가지 있다. 성적이 5등 이내인 경우 우수하다고 할 때에, 첫째는 그 학생의 성적을 확인하여 결정할 수 있다(등수가 5등 이내이면 우수). 둘째는 그 학생보다 더 우수한 학생의 수를 세어보는 것이다(더 우수한 학생이 4명 이내이면 우수) (이때의 귀무가설 : A라는 학생은 우수하지 않다)

(???)(이게 검정력과 무슨 상관?이며 어떻게 엮을 수 있는지??에 대한 설명이 필요함)

 

 

가설 검정하는 3가지 방법 (귀무가설의 기각”의 관점으로 해석함)

 

(1) 검정 통계량에 의한 가설 판정

- 검정통계량(계산치)이 기각치보다 작거나 같은 경우 : 기각 실패(채택)

- 검정통계량(계산치)이 기각치보다 클 경우 : 기각

기각역을 정하고 그 영역에 검정통계량값이 들어가면 귀무가설 기각

 

(2) 유의확률에 의한 가설 판정

- P-value : 기각 실패(채택)

- P-value : 기각

p-value가 허용 유의수준보다 작을 때, 유의수준 α하에서 대립가설(연구가설)통계적으로 유의하다라고 한다. (허용 유의수준은 α 로 나타낸다)

유의수준 α가 작을수록 더 신중한 검정결과를 나타낸다)

 

(3) 신뢰구간에 의한 가설 판정

- (귀무가설의 모수값이) 신뢰구간 영역 밖일 때 : 기각 실패

- (귀무가설의 모수값이) 신뢰구간 영역에 있을 때 : 기각

 

 

가설검정의 한계점

 

(1) 데이터가 많아질수록 유의확률은 작아질 수 있다.

(2) 실험을 수행해도 귀무가설 기각여부를 완벽하게 결정할 수는 없다.

(3) 실험결과는 표본 데이터이므로 오차를 동반함 항상 오류를 범할 가능성이 존해함

(4) “(1), (2), (3)”항목의 특성을 이용해 조작이 가능하다

- 신뢰구간 및 효과크기 제시 : 유의확률의 한계점을 보완하기 위해(연구의 신뢰성을 위해) 제시

신뢰도를 고무줄처럼 늘려서 연구결과를 억지로 증명하는 것은 조작이 가능하다는 뜻

- 귀무가설을 기각하는 경우는 두가지가 있음. 귀무가설이 사실임에도 귀무가설을 기각할 수 있는 경우가 있는데, 알파=0.05라면, 100번중에 5번은 귀무가설을 기각하는 경우가 생긴다(H1 채택)라는 뜻인데 이를 악용하여, 100번정도 돌려서 실제 나오는 결과를 이용해 논문결과를 내는 경우도 있음

 

 

가설검정의 절차

+ Recent posts