컨텐츠 바로가기

04.25 (목)

“초자연적 힘이 있다”는 주장을 판별할 수 있을까? 350만분의 1 확률이 기준 [전문가의 세계 - 이종필의 과학자의 발상법 (12)]

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

5시그마의 비밀

[경향신문]

경향신문

일러스트 | 김상민 기자

<이미지를 클릭하시면 크게 보실 수 있습니다>


5시그마, 정규분포 이용해 구한 정량적 기준 ‘350만분의 1 확률’
과학자들 숱한 경험에서 정립돼 ‘과학적 발견’의 기준으로 삼아

코로나19 바이러스가 창궐했을 때 일부 종교인들이 종교의 힘으로 바이러스를 물리칠 수 있다고 주장해 뭇 사람들의 눈살을 찌푸리게 한 적이 있다. 바이러스의 작용과 질병 사이의 관계는 이미 100년 전부터 과학자들의 노력으로 충분히 잘 알고 있다. 덕분에 21세기의 우리는 바이러스와 질병 사이 관계에 종교의 힘을 도입할 필요가 없다. 그럼에도 누군가가 계속 성령이나 초자연적인 힘을 주장한다면 이를 어떻게 확인할 수 있을까?

문제를 간단히 하기 위해 동전던지기를 생각해 보자. 하나의 동전을 여러 번 던져도 좋고 여러 개의 동전을 한꺼번에 던져도 좋다. 어느 날 전우치라는 자가 나타나 자신은 초능력을 지니고 있어 항상 앞면만 나오게 할 수 있다고 주장했다. 우리는 전우치의 주장을 어떻게 과학적으로 검증할 수 있을까?

먼저 아주 극단적인 경우를 생각해 보자. 동전을 100번 던져 99번 앞면이 나왔다면, 또는 동전 100개를 던져 99개의 앞면이 나왔다면 전우치의 초능력을 인정해 줘야 하지 않을까? 물론 앞면이 단 3번만 나왔다 하더라도 우리는 그의 초능력이 거꾸로 작용하지 않았을까 하고 의심할 것이다. 반면 앞면이 52번 나왔다면 우리는 그에게 특별한 능력이 있다고 말하기 어렵다.

이 경우들을 아우르는 한 가지 원칙은 얼마나 드문 일이 일어났는가로 정리할 수 있다. 엄밀하게 계산해 보지 않더라도 100번 중 99번은 대단히 드문 일이다. 반면 52번은 아주 흔히 일어나는 현상이라 예상할 수 있다. 특별히 확률이론을 잘 모르더라도 우리는 상식적으로 동전을 100번 던지면 대략 50번은 앞면, 50번은 뒷면이 나오리라 기대한다. 왜냐하면 동전을 한 번 던졌을 때 앞면이 나올 확률과 뒷면이 나올 확률이 각각 ½이기 때문이다. 1회 시행 때 어떤 사건이 일어날 확률(½)을 시행횟수(100)와 곱하면 실제 시행했을 때 그 사건이 일어날 횟수의 기댓값(½×100=50)을 구할 수 있다. 이런 분포를 이항분포(binomial distribution)라고 한다. 일반적으로 이항분포의 표준편차를 제곱한 값인 분산은 시행횟수 곱하기 1회 시행 때의 확률 곱하기 그 확률의 여확률로 주어진다. 동전던지기의 경우 앞면이 나올 확률과 나오지 않을 확률이 모두 ½로 같으므로 n번 던졌을 때(또는 n개를 던졌을 때) 앞면이 나오는 횟수의 기댓값은 n×½=n/2이고 표준편차는 √(n·½·½)= √n/2으로 주어진다.

그러나 초능력이 있는지 없는지를 과학적으로 판별하려면 드물다, 흔하다 같은 정성적인 기준을 적용할 수 없다. 과학자들은 정량적인 기준을 좋아한다. 이왕 정량적인 기준을 세우려면 인간에게 편리하지만 임의적인 기준보다 분포 자체가 가지는 통계적 특성을 십분 활용하는 것이 좋은 방법일 것이다. 자연에서 볼 수 있는 가장 대표적인 분포는 지난 회에 소개했던 정규분포 또는 가우스 분포이다. 정규분포가 대표적인 이유 중 하나는 동전던지기 같은 시행의 결과를 정규분포로 근사할 수 있기 때문이다. 달리 말하자면, 동전을 던져 앞면이 나오는 횟수를 분포 그래프로 나타냈을 때 그 시행횟수가 아주 커지면 이 분포는 좌우대칭 종모양의 정규분포에 점점 가까워진다. 이를 드 무아브르-라플라스 정리라고 한다.

정규분포의 형태를 결정하는 요소는 평균과 표준편차이다. 동전던지기의 횟수가 클 때 앞면이 나오는 횟수의 분포는 동전던지기라는 이항분포의 기댓값인 n/2을 평균으로 하고 그 표준편차인 를 표준편차로 하는 정규분포로 근사할 수 있다. 100회는 비교적 큰 값이라 정규분포 근사가 유효하다.

요컨대 동전을 100회 던지는 경우 평균이 50이고 표준편차가 5인 정규분포를 따른다고 볼 수 있다는 말이다.

정규분포를 가정했을 때 과학자들이 정한 ‘과학적 발견’의 기준이 있다. 바로 ‘5시그마(5σ)’ 기준이다. 여기서 그리스 문자 시그마(σ)는 표준편차를 나타내는 기호이다. ‘5시그마’의 정확한 뜻은 평균으로부터 표준편차(시그마)의 5배 떨어진 사건이라는 뜻이다. 지난 회에서도 말했듯이 정규분포에서 임의의 영역에 속할 확률은 평균에서 표준편차의 몇 배만큼 떨어져 있는가(수능에서 Z점수에 해당하는 값)로 모두 결정할 수 있다. 과학자들이 ‘5시그마’의 유의수준이라고 말할 때 정확한 뜻은 정규분포에서 평균으로부터 표준편차의 ‘5배 이상’ 떨어져 있을 확률에 해당하는 사건이 일어났다는 것이다. 이 값을 수치로 환산하면 약 350만분의 1, 즉 0.0000003에 해당한다. 예전에 소개했던 유의성 검정의 p값으로 말하자면 ‘5시그마’의 사건은 p값이 350만분의 1에 해당하는 사건이다. 흔히 통계적으로 유의하다고 받아들이는 0.05나 0.01에 비해 굉장히 작은 값이다.

이를 전우치의 동전던지기에 적용해 보자. 앞서 말했듯이 동전 100회 던지기는 평균이 50이고 표준편차가 5인 정규분포로 근사할 수 있다. 표준편차의 5배에 해당하는 값은 5×5=25이다. 따라서 평균으로부터 표준편차의 5배 이상 떨어져 있는 사건은 50+5×5=75회 이상 앞면이 나오는 사건이다. 만약 전우치가 동전을 100회 던져 75번 앞면이 나왔다고 하자. 이때의 p값은 전우치가 초능력이 없다고 가정했을 때 ‘75회 앞면 또는 그보다 더 드문’ 사건이 일어날 확률이다. 그러니까 75회 이상의 모든 사건이 일어날 확률의 총합이 p값이다. 이항분포의 수학으로부터 이 값을 직접 계산할 수도 있다(실제로 내가 계산해 본 값은 약 355만분의 1이다). 그러나 정규분포를 이용하면 75회가 평균으로부터 5시그마 떨어진 사건이므로 정규분포 곡선의 ‘5시그마 이상’ 영역의 확률을 구하면 된다.

이 값은 정규분포표를 이용해 쉽게 구할 수 있다. 그 값은 물론 0.0000003, 즉 약 350만분의 1이다. 이렇게 5시그마 이상의 확률에 해당하는 사건이 일어났으면, 초능력이 없다고 가정했을 때 너무나 드문 사건이 일어났다고 판정하는 것이다. 따라서 초능력을 ‘발견(discover)’ 또는 ‘관측(observation)’했다고 선언할 수 있다. 1년이 365일이니까 350만분의 1의 확률은 대략 1만년의 세월 중 하루에 일어나는 사건에 해당한다고 볼 수 있다. 단군 이래 우리 민족의 역사가 한 번 더 흘러야 하루 있을까 말까 한 일이라는 셈이다.

조금 다르게 말하자면 이렇다. 350만명이 모여 동전 100개를 던지면 그중에 한 명은 앞면이 75개 이상 나오는 경우가 생긴다는 뜻이다. 확률이 아무리 작아도 시행횟수가 커지면 그 사건이 일어날 수 있다. 45개의 숫자 중 6개를 맞추는 로또의 확률이 약 814만분의 1로서 5시그마보다 낮은 확률이지만 매주 당첨자가 나온다. 물론 전우치가 그 행운의 주인공일 수도 있다. 다만 350만명 중에 특정되지 않은 누군가 한 명이 되는 것과 350만명 중 특정된 어느 한 명이 되는 것은 전혀 다른 이야기이다.

한 가지 주의할 점이 있다. 이항분포나 정규분포는 좌우대칭형이다. 따라서 5시그마 이상의 사건도 있는 만큼 5시그마 이하의 사건도 있다. 동전던지기에서는 25회 이하의 앞면이 나오는 사건이 여기에 해당한다. 만약 5시그마 이상의 사건뿐만 아니라 5시그마 이하의 사건까지도 포함한다면 그 확률은 350만분의 1의 두 배가 될 것이다. 과학자들이 그냥 5시그마라고 말할 때는 평균보다 5시그마 이상일 확률을 말한다.

5시그마보다는 못하지만 그래도 주의를 가질 만하다고 판정하는 기준이 3시그마이다. 이는 평균으로부터 표준편차의 3배 이상 떨어져 있을 확률로 약 0.00135, 즉 대략 740분의 1에 해당하는 값이다. 이 정도의 p값에 해당하는 사건이 일어났으면 보통 ‘증거(evidence)’를 봤다고 표현한다. 조금 드문 일이 일어나기는 했으나 아직 과학적인 발견까지는 아니라는 뜻이다. 동전던지기에서는 표준편차의 3배가 15회이니까 총 65회(=50+15) 이상 앞면이 나올 확률이다. 만약 전우치가 동전을 100번 던져 앞면이 70번 나왔다면, 이는 3시그마 이상의 확률이지만 아직 5시그마까지의 확률은 아니므로 과학적 발견에는 못 미치는, 그러나 주목할 만한 ‘증거’ 정도는 되는 사건이다. 2시그마 이하면 그냥 통계적 잡음이라고 봐도 무방하다.

과학자들이 이렇게 5시그마 이상을 과학적 발견의 기준으로 삼은 것은 지금까지의 숱한 경험으로부터 정립된 것이다. 한때는 3시그마나 4시그마 정도의 실험 결과도 이주 비중 있게 다루었으나 후속연구 결과 그저 통계적인 요동으로 끝난 경우도 많았다. 4시그마는 대략 3만분의 1에 해당하는 확률이다. 만약 앞으로 5시그마의 유의수준으로 관측한 값들이 최종적으로 통계적인 잡음에 불과한 것으로 판명되는 경우가 많아진다면 과학적 발견의 기준이 더 엄격해질 수도 있을 것이다. 아직은 대체로 5시그마가 발견의 기준으로 받아들여지고 있기 때문에 논문 제목만 보고도 그 결과의 통계적 유의수준을 짐작할 수 있다.

5시그마에만 무조건 매몰되어서는 안 되는 경우도 가끔 있다. 2011년 전 세계 과학계는 이른바 초광속 현상을 발견했다는 발표로 혼란에 빠졌다. 중성미자라는 소립자의 성질을 연구하던 유럽 과학자들이 실험에 사용한 중성미자의 속력이 광속보다 0.0025% 더 크다고 보고했다. 지금까지 우리가 알기로는 빛보다 빠른 물리적 신호는 존재하지 않는다. 이는 특수상대성이론의 결과이다. 만약 이 결과가 사실이라면 현대물리학의 토대를 다시 구축해야 할지도 모른다.

이 실험은 GPS를 활용해 거리와 시간을 측정했을 정도로 굉장히 정밀한 실험이었다. 실험 결과의 유의수준은 무려 6시그마로, p값이 약 10억분의 1에 해당한다. 이후 몇 달 동안 수백 편의 논문이 쏟아졌다. 나중에 밝혀진 바로는 위성신호를 컴퓨터에 연결하는 광케이블이 물리적으로 제대로 접속되지 않아 시간기록에 미세한 차이가 생겼다. 최종적으로 초광속 현상은 없던 일이 되었다.

▶이종필 교수

경향신문

1971년 부산에서 태어났다. 1990년 서울대 물리학과에 입학했으며 2001년 입자물리학으로 박사학위를 받았다. 이후 연세대·고등과학원 등에서 연구원으로, 고려대에서 연구교수로 재직했다. 2016년부터 건국대 상허교양대학에서 조교수로 재직 중이다. 저서로 <신의 입자를 찾아서> <대통령을 위한 과학 에세이> <물리학 클래식> <이종필 교수의 인터스텔라> <빛의 속도로 이해하는 상대성이론> 등이 있고, <최종이론의 꿈> <블랙홀 전쟁> <물리의 정석> <스티븐 호킹의 블랙홀> 등을 우리글로 옮겼다.


이종필 교수 ljp@kyunghyang.com

▶ [인터랙티브] 그 법들은 어떻게 문턱을 넘지 못했나
▶ 경향신문 바로가기
▶ 경향신문 구독신청하기

©경향신문(www.khan.co.kr), 무단전재 및 재배포 금지

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.