Statistics & Math/기초통계학

[기초통계학] 가설검정과 P값 (p-value)

YSY^ 2023. 12. 31. 20:49

통계에서 p-value(p값) 라는 용어를 많이 쓰지만 이것이 무엇인지 제대로 알고 쓰는 사람은 많지 않습니다. 따라서 이번 포스팅에서는 p-value에 대해 알아보겠습니다.

 

가설 검정

가설검정 :  모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미

보통 p-value는 가설검정을 할 때 자주 활용되는데요. 가설을 입증하는 것은 먼저 차이가 없다는것을 가정(귀무가설)한다음, 차이가 없지 않다를 증명하는 방식입니다.

즉, 가장 보수적인 상태를 놓고 새로운 가설을 만들어서, 기존의 가설을 비판해서 반박이 되는지 확인하는 것입니다.

EX) 힉스입자를 판별한 건

힉스입자를 발견한 논문에서 힉스입자가 존재한다는 아래와 같이 증명하였습니다

귀무가설 : 우리가 이번에 관찰한 새로운 입자는, 기존에 우리가 알고 있었던 입자 중 하나이다.

검정결과 : 이번에 관찰한 입자가 이전에 인류가 관찰했던 모든 입자와 같은 확률은 10의 -8승이다. 그래서 이 입자는 그동안 우리가 알고 있는입자가 아니다

즉, "이 입자는 힉스입자다"가 아니라, "이 입자는 기존에 관찰되었던 입자가 아니기 때문에 힉스입자일 것이다" 라고 증명한 것입니다.

여기서 " 10의 -8승"을 P-Value라고 부릅니다.

p-값이란?

p-value는 Probability Value, 즉 확률값입니다.

p-value귀무가설이 옳다고 가정했을 때 관찰한 값 (예 : 평균값의 차이) 또는 그 이상으로 극단적인 값이 나올 확률을 일컫는다. 
EX) 현실에서 얻은 평균값의 차이가 +10이고 p-value는 0.01이라면, 귀무가설이 옳은 세계에서 평균값의 차이가 +10이상이거나 -10이하가 될 확률은 1%라는 의미

p-value를 활용한 가설 판정

 p값이 작다는 것은 귀무가설이 옳은 세계에서는 현실 데이터가 잘 나타나지 않는다는 뜻이므로, p값은 귀무가설과 현실데이터간의 괴리를 평가한다.

EX) 만약 귀무가설이 "관상동맥의 여부에 상관없이 수축기혈압의 평균의 차이가 없다" 이고 p value가 0.002라고 하면,

차이가 없을 확률은 0.002에 불과 (0.2%)하므로, 즉 사실상 불가능함에 가까우므로 귀무가설을 기각하는 것이다.

 

일반적으로 p-value가 0.05이하인 경우, 귀무가설 하에서 현실데이터는 나타나기 어렵다고 생각하고 귀무가설을 기각한다. 

참고로 귀무가설을 기각한다는 것이 대립가설을 "채택"하는 것인지, 대립가설과는 관련이 없는지는 아직도 통계학계내에서 논쟁이 있다고 한다. 따라서 대립가설을 지지하는 하나의 증거를 얻었다라고 해석하는 것이 옳다.

일반적으로 p-value가 0.05이상인 경우, 귀무가설을 기각할 수 없다. 이는 귀무가설이 옳았다기보다는, 틀렸다고 말할 수 없다는 뜻으로 해석하는 것이 옳다.

물론 0.05의 기준은 절대적이지 않으며, 산업군이나 분석주제에 따라 얼마든지 변경될 수 있다.

참고로 통계적으로 유의하다라는 말은 쓰지않는 것이 좋은데 의미가 불명확하기 때문이다. 그냥 귀무가설을 기각한다나 차이가 있다라고 표현하는 것이 좋다고 보인다.

728x90
반응형