본문으로 바로가기
43309997 0012018021443309997 09 0902001 5.17.10-RELEASE 1 경향신문 0

[미래 오디세이]‘통계적 유의성’을 폐지한다면

글자크기
경향신문

<이미지를 클릭하시면 크게 보실 수 있습니다>


온라인 뉴스 매체 ‘복스닷컴’은 지난달 “2018년에는 사라져야 할 여덟 가지 잘못된 건강·과학 상식”이라는 도발적인 제목의 기사를 게시했다. 도널드 트럼프 미국 대통령 행정부 산하 모든 과학과 보건 연방 기관에서 전방위적으로 벌어지고 있는 반과학적 태도에 대한 비판을 목적으로 매체 과학 데스크가 기획한 기사다. 유권자가 사실에 근거해 투표한다, 중독은 도덕적 실패다, 아편유사제가 만성허리통증 치료에 효과적이다, 플라세보는 쓸모없다, 비만 해결에 운동이 최고다, 동종요법이 효과가 있다, 기후변화는 ‘토론’이 필요하다, 마지막으로 ‘통계적 유의성’이 ‘강한 과학적 증거’를 뜻한다.

이 여덟 가지 상식이 사라져야 할 미신으로 제시되었다.

과학자는 자신의 연구 결과가 간단한 통계적 검정을 통과하면 ‘통계적 유의성’이 있다고 선언한다. 엄밀하게는 p값으로 정의되는 확률이 0.05 미만이면 통계적으로 유의한 결과를 얻었고 출판할 가치가 있다고 생각한다.

대부분의 과학자가 ‘영가설이 참이라고 가정할 때, 관찰된(또는 더 극단적인) 결과가 일어날 확률’이라는 p값의 정확한 정의를 제대로 설명하지 못한다는 불편한 진실이 숨겨져 있다.

최근 몇 년간 0.05라는 문턱값으로 얻은 결과가 매우 강한 증거가 아니라는 사실을 고통스럽게 절감하고 있다. 총알을 난사하듯이 통계적 검정을 수행해 요행으로 얻은 하나의 유의한 결과를 보고하는 p해킹도 학계에 만연해 있다.

p값이 0.05 미만이면 실험 결과가 우연한 기회로 얻어졌을 확률이 5% 미만이라는 의미가 아니다. 거짓 양성으로 밝혀질 확률이 5% 미만이라는 의미도 아니다. 실제로는 차이가 없는데 실험에서 차이가 있다고 나오는 확률을 거짓 양성률이라고 부른다. 실험의 거짓 양성률은 5%보다 훨씬 높다는 연구 결과를 근거로 문턱값을 0.005 미만으로 낮추자는 주장이 힘을 얻고 있다. 많은 사회과학 연구자는 결과가 재현되지 않는 ‘재현성 위기’를 고통스럽게 인지하고 있다.

지난 2016년 미국통계학회는 ‘통계적 유의성과 p값에 대한 성명서’를 발표했다. 177년의 역사를 자랑하는 미국통계학회가 통계학의 기본적인 문제에 관해 처음으로 발표한 성명서의 주요 내용은 다음과 같다.

p값은 과학적 증거가 얼마나 강력한지를 판단하는 데 흔히 사용하는 척도지만 가설이 참이거나, 결과가 중요한지 여부를 결정할 수 없다. p값을 오용하면 재현되지 않는 연구 결과가 증가하게 된다. 특히 p값이 0.05 미만과 같은 특정 문턱값을 통과했다고 해서 과학적 결론을 이끌어내거나 정책적 결정을 내려서는 안된다는 점을 역설하고 있다.

미국통계학회의 성명서가 학계에 준 충격은 상당히 컸다. 성명서가 20년 전에 발표됐다면 생명공학 연구가 훨씬 발전했으리라는 만시지탄의 감회와, 이번 성명서를 계기로 연구자가 p값에 대한 회의를 품어 다양한 통계분석 방법을 사용하게 되리라는 기대가 많았다.

반면 p값이 옳지 않으니 사용하지 말라는 주장은 자동차 사고의 위험을 없애기 위해 운전을 하지 말라는 억측과 다름없으므로, 통계를 요리책처럼 취급하지 말고 과학으로 가르치고 배워야 한다는 신중한 반응도 있었다.

0.05라는 통계적 유의수준은 확률통계의 역사에서 오랫동안 발전시켜온 개념이다. ‘미국심리학자’ 1982년 5월 호에 실린 해설 논문에 따르면, 현대 통계학의 아버지인 로널드 피셔가 ‘농업부저널’ 1926년 33호에 발표한 논문이 현대적 기원이다. 관행적으로 적용해온 확률오차의 3배가 표준편차의 2배와 같으므로 약 4.56%로 계산되는데, 피셔가 설명하기 쉽게 반올림했을 것이라는 추측이 설득력 있게 나와 있다. 피셔가 욕조 안에서 오른쪽 발가락을 문지르다 5가 좋아 보여 문턱값을 0.05로 결정했다는 설명도 간간이 보이지만 도시 전설에 지나지 않는다.

피셔의 논문과 저서 어디에도 0.05를 기준으로 과학적 결론을 내리라는 문장이 등장하지 않는다. 0.05라는 유의수준을 기계적으로 받아들인 데는 후대의 학문적 관행 탓이 크다.

경향신문
2026년은 피셔가 현대적 의미의 통계적 유의성 개념을 창안한 지 100주년이 되는 해다. 연구자는 통계적으로 유의하다는 구시대적 표현으로 과학적 중요성을 강조해서는 안된다. 언론인은 통계적으로 유의하다는 연구 결과를 맹목적으로 전달해서는 안된다.

물어야 할 질문은 통계적으로 유의한가가 아니라 효과 크기를 드러내는, 실제로 얼마나 차이가 있는가여야 한다. 현대 과학을 근본에서 흔드는 재현성 위기가 2026년에 해소되리라는 생각은 지나치게 낙관적이다. 이미 학계 일각에서 통계적 유의성 개념을 폐지하자는 주장을 다양한 방식으로 실천하고 있다. 2026년을 통계적 유의성 폐지의 원년으로 선언한다면 통계학의 역사 연표에 상징적인 사건으로 기록될 것이다.

<황승식 서울대 보건대학원 교수·과학잡지 에피 편집위원>

▶ 경향신문 SNS [트위터] [페이스북]
[인기 무료만화 보기]
[카카오 친구맺기]

©경향신문(www.khan.co.kr), 무단전재 및 재배포 금지
페이스북 공유 트위터 공유 댓글