네이버 사전에서 발췌 :
통계적 유의성은 모집단에 대한 가설이 가지는 통계적 의미를 말한다. 다시 말해서, 어떤 실험 결과 자료를 두고 "통계적으로 유의하다."라고 하는 것은 확률적으로 봐서 단순한 우연이라고 생각되지 않을 정도로 의미가 있다는 뜻이다. 반대로 "통계적으로 유의하지 않다."라고 하는 것은 실험 결과가 단순한 우연일 수도 있다는 뜻이다.
가설 검정에서 통계값과 연구자가 설정한 수준(유의수준)을 비교·판단하여 영가설을 기각할 때, 연구가설이 "통계적으로 유의하다"라고 한다.
통계적으로 유의하다는 말의 뜻을 쉽게 설명하면? 일단 단어 찾기부터.
● 통계(統計=합친+계산) = statistics
● 유의(有意=있음+의미) = meaningful/significant = 의미 있다!?
그렇다면 통계적으로 유의하다는 말이 무슨 뜻인가? 예를 들어보자. 유의차라는 말을 들어 보았을 것이다. 아마도 차이가 있다는 뜻일 것이다. 즉, 두 값은 차이가 있다는 뜻이다. 차이가 있으면 있지 유의차는 무슨 말인가? 예를 들어 두 집단이 있다. 키 큰 부족과 키 작은 부족이다. 단순히 평균만 취해서 비교해 보면 쉽게 알 것이다. 그런데 왜 이런 말을 하는가? 평균을 취해서 비교하는 것으론 부족하다. 만약 한 놈을 잡았는데 이놈이 키 큰 부족인지 키 작은 부족인지 결정해야 한다고 하자. 그렇다면 평균 키만으론 되지 않는다. 키 작은 부족에서 키가 가장 큰 놈일 수도 있기 때문이다. 또는 키 큰 부족 중에서 키가 가장 작은 놈일 수도 있기 때문이다. 이 무슨 말인고 하면 당신이 10명을 잡아서 평균을 취한 키는 그 부족 전체 평균과 다르다는 것이다. 그래서 몇 명의 키만 가지고는 이 놈들이 어느 부족인지 판단이 어렵다는 것이다.
이런 문제는 전문적으로 통계학자들이 수학적으로 처리하도록 만들어 놓았다. 그러나 일반인은 그 설명을 듣기에는 불필요하게 복잡하다. 그렇다고 쉽게 설명하는 학자들도 없다. 즉, 일반인이 실용적으로 알아들으면 될 정도의 설명이 없다. 다음 그림을 보라. 그림으로 간단하게 이해만 하자. 3가지 경우가 있다. 거의 확실하게 다른 경우와 같은 경우, 그리고 그 중간의 애매모호한 경우이다. 이런 경우 거의 확실하게 같거나 다른 경우가 유의한 것이다. 유의차가 있다는 말은 거의 90%, 95%, 99%, 100% 다르다고 말할 수 있다는 말이다. 좀 이해가 가는가?
통계학을 배우지 못한 일반인에게 수식을 펼치며 설명할 필요도 증명을 할 필요도 없다. 누가 그것을 기억하겠는가? 통계 소프트웨어를 돌리고 나서 그 결과로 어떠하다고 말을 해도 듣는 사람에게 쉽게 설명하지 못한다면 자신도 정확하게 알고 있는 것이 아니다. 당신이 몇 가지 자료만 가지고 판단한다고 할 경우 틀린 판단을 내릴 경우는 어느 정도인가? 그것을 통계가 말해주는 것이다. 유의하다거나 유의차가 있다고 하면 거의 확실하게(아마도 95%나 99%) 그렇다고 말하는 것이다. 가장 무의미한 것이 50%이다. 0%는 의미가 있다. 확실하게 아무 일도 없다는 의미다. 동전던지기와 같은 것은 50%로 판단이 무의미하다. 심하면 40:60, 30:70, 20:80 도 무의미하다고 할 수 있다. 최소한 10:90, 5:95, 1:99 정도는 되어야 통계적으로 의미 있다고 말하는 것이다. 사격에서 유효사거리가 맞거나 말거나 한 거리 즉, 적중률 50%인 거리를 말한다.
사람들은 보통 평균을 구해서 비교하여 판단한다. 이런 분들은 평균만 차이가 나면 다른 것이라고 생각한다. 그러나 편차를 고려하지 못하면 사실은 거의 같은 것을 다르다고 오인할 경우가 있다. 앞의 그림으로 상상해 보라. 평균 차이가 10m이지만 편차가 100m이면 차이가 있는 것이 아니다. 그러나 편차를 고려하고자 통계 소프트웨어를 돌리고 나서 “통계적으로 유의차가 없다/있다.”라고만 이야기 하는 친구들이 있다. 이 말은 1과 2를 더하니 3이요라고 하는 것과 같다. 모든 숫자에는 물리적인 의미가 있다. 그래서 어쨌다는 것인가? 1은 무엇을 나타내고 2는 무엇이며 3은 무슨 뜻인가? 답답한 친구들이다. 사람이 계산기인가? 의미 없이 계산결과만 알려주게? 자료가 너무 적어서 오류가 너무 크니 무의미하더거나, 자료가 충분하지만 명확한 차이를 보이지 않는다고 하거나 무슨 구체적인 답변이 나와야 하지 않은가?
회사에서 한 때 6 Sigma 바람이 불어서 통계소프트웨어 배우고 통계 수업 듣고 그런 적이 있었다. 그 때 보고 느낀 바가 있다. 예를 들어 10개의 물건을 취해서 평균을 냈다고 하자. 이 평균이 전체 평균과 얼마나 같은가? 물론 전체 평균을 알 수 없다. 누가 미쳤다고 전체 물건의 평균을 취하고 있겠는가? 전체 평균을 내려면 수십만개를 측정해야 한다. 이런 경우 통계가 필요하다. 당신의 판단이 맞을지 점을 쳐보는 것이다. 그래서 소프트웨어를 돌린다. 그러나 그 결과는 앞에서 말한 바와 같이 숫자로만 나온다. 그 의미를 말해야 하는 것이 사람이다. 그런데 이 사람들 하는 짓이 가관이다. 의미를 해석하지 못한다. 또한 의미를 해석하도록 가르치지도 못한다. 항상 무의미하다거나 유의차가 없다거나 하는 식이다.(^^) 그럴 수 밖에 없다. 평균을 취한 개수가 적은 것이 현실이고 충분한 개수로 평균을 취해도 거의 약간 향상된 정도이기 때문이다. 이런 경우는 향상 되었다고 인정을 해야하지 않겠는가? 통계학이 이 정도 결론 밖에 내지 못한다면 사용할 필요가 없다.
더 웃긴 일이 있다. 6 Sigma란 단순히 제품의 편차를 줄이자는 뜻이 아니다. 좀 더 통계적으로 사고하자는 의미다. 나는 그런 의미로 받아 들였다. 단순히 제품의 편차를 줄이는 것은 통계가 없어도 할 수 있다.(^^) 측정을 하면 제품의 편차와 측정기의 편차가 합쳐져서 결과에 반영된다. 정확한 판단을 하려면 우선 측정기의 편차가 작아야 한다. 물론 정밀한 측정기는 비싸다. 결국 회사에서 구입 가능한 보편적인 측정기로 거의 최대한 제품의 오차를 줄인 상태이다. 이 상태에서 무슨 제품의 편차를 줄이겠다고 하겠는가? 제품의 편차는 기술혁신으로 이루어지는 것이지 통계학으로 이루는 것이 아니다. 제품의 편차를 줄이려면 통계학자를 내쫓고 정밀 가공하는 기능직 사원을 구하고 정밀 측정기를 구입하면 된다.
6 Sigma의 본 의미는 뭔가를 판단을 할 때 통계적으로 고려해 보자는 그런 의미다. 기술은 이미 포화상태일 것이다. 그러니 이것은 일종의 실수나 허점을 줄이자는 운동이다. 그래서 이 운동을 해도 제품의 품질 향상은 크게 일어나지 않는다. 결국 통계학자는 아무 도움도 안 된다. 이들은 통계 소프트웨어와 같이 수학적인 계산을 하고 그런 차원에서만 도움을 줄 수 있는 그런 것이다. 실제 품질 개선을 해야 하는 기술자들이 통계학을 배울 수는 없다. 그러니 통계 소프트웨어를 다루고 그 결과를 해석할 수 있기만 하면 된다. 그 정도만 가르치면 될 것을 엉뚱한 짓을 하고 있으니 이놈의 통계학이 과연 도움이 될까? 사람들 시간만 뺏을 뿐이다. 통계도 필요한 곳에 사용하고 필요 없는 곳에는 사용하지 않는 유의한 판단을 했으면 한다. 해당도 되지 않는 곳에다 통계를 들이대지 말자.
통계적으로 유의한 결과인지를 알려주는 숫자는 수학적으로 구한 값으로 그것이 나오는 과정과 정확한 의미를 설명하면 수학시간이 되고 만다. 그래서 불필요한 설명이 되고 만다. 그러나 정확하지 않지만 비슷하고 실용적인 수준에서 이해를 한다면 사람들에게 도움이 될 것이다. 이러한 설명을 잘 하는 기술자는 진급이 보장된다. 상사가 똑똑한 사람으로 판단을 할 것이기 때문이다. 뭔가 열심히는 하는데 설명이 부족한 친구는 억울하겠지만 인정받지 못한다. 오죽하면 기술자를 대상으로 하는 보고서 쓰는 법도 가르칠까? 보고서에 통계처리 결과를 숫자로 적어 놓고 유의하니 어쩌니 적어 놓으면 무슨 도움이 될까?
● 유의하다 = 거의 확실하게(99%) 다르다(크다/작다). 거의 확실하게(99%) 같다.
ex) 통계적으로 유의한 차이가 있다. 통계적으로 유의하다.
● 무의하다 = 다른지 같은지 확신이 없다. 애매모호하다.
통계는 숫자를 처리하는 것이니 항상 비교를 하게 되고, 비교 결과는 같은지 다른지이다. 다르면 어느 쪽이 큰지 작은지로 결론 난다. 이 숫자 비교의 물리적 의미를 해석하는 것은 해당분야 기술자들이 해야 하는 것이다. 물리적 의미를 모르고 멍청하게 통계 계산을 잘 한다고 통계 잘 하는 것이 아니다. 고런 것은 쓸모없으니 버려라. 통계적으로 의미 없다는 말에는 자료가 너무 적어서 판단 불가능이란 의미다. 자료가 많으면 충분히 판단할 수 있다. 큰지 작은지 같은지 말이다. 품질 향상보다 먼저 해야하는 것이 편차를 줄이는 것이다. 편차가 줄어야 미세한 품질 향상이 눈에 확 보이니까!(^^) 편차를 줄이지 않고 품질을 향상시키면 결국 아무 차이도 나지 않는다. 큰 놈과 작은 놈 차이가 100m인데 전체 평균이 1m 향상되었다고 하면 웃기는 놈 취급 받을 것이다.
'통계 > 통계이론' 카테고리의 다른 글
[회귀분석] 오차(error) vs 잔차(residual) (0) | 2020.04.10 |
---|---|
[통계이론] 모수적 방법 vs 비모수적 방법 (1) | 2019.09.01 |
[통계이론] 층화표본추출법 vs 군집표본추출법 (0) | 2019.08.29 |
[통계/수학] 알파?? 베타?? 감마?? 수학기호의 종류와 읽는법 (1) | 2019.08.21 |
[통계] 가설검정의 모든 것 (0) | 2019.08.21 |