컨텐츠 바로가기

04.20 (토)

보이지 않는 ‘누락 데이터’를 주목하라

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

‘모르는 데이터’ 암흑물질에 비유

눈에 보이지 않아 기록 안남지만

결론이나 결정에 지대한 영향 끼쳐

경제 오류 등 치명적 ‘함정’ 경고

세계일보

우주 공간에서 약 27%를 차지하는 ‘암흑 물질(dark matter)’은 육안으로 관찰할 수 없지만 우주에서 일정 역할을 수행하고 있다. ‘다크 데이터’ 역시 눈에 쉽게 보이지 않지만 간과했을 때 왜곡된 시선을 불러올 수 있다. 세계일보 자료사진

<이미지를 클릭하시면 크게 보실 수 있습니다>


다크 데이터/노태복 옮김/더퀘스트/1만9000원

의학에서 트라우마는 ‘중대한 손상이 장기적으로 일어날 수 있는 심각한 부상’을 뜻한다. 영국의 ‘트라우마 검사·연구 네트워크’는 영국, 네덜란드, 스위스 등지의 병원 200여곳에서 트라우마에 대한 데이터를 수집한다. 이 데이터를 영국 레스터대 연구팀이 살펴봤더니 16만5559건의 트라우마 사례 중 1만9289건의 결과는 확인되지 않았다.

트라우마 연구에서 ‘결과’는 환자가 부상을 겪고 30일이 지난 시점의 생존 여부를 뜻한다. 즉 11%의 환자에 대한 생존 여부가 확인되지 않았다는 것이다. 그렇다면 결과가 확인되지 않은 11%를 배제하고 나머지 89%인 14만6270명에 대한 결과로 연구를 진행하면 될까. 만약 11%가 모두 극단적인 결과로 이어졌다면, 89%에 대한 연구는 의미 있는 것일까.

우리가 살아가는 사회에서도 마찬가지다. 실체가 쉽게 드러나지 않는 소수의 영역을 간과한 채 다수의 영역에서 발생하는 현상에 집중할 때, 나머지 11%가 몰고 올 충격과 혼란은 어떻게 대응할 수 있을까.

세계적인 통계학자 데이비드 핸드는 이처럼 온갖 유형의 누락된 데이터를 ‘다크 데이터’라고 부른다. 다크 데이터는 쉽게 볼 수 없도록 숨겨져 있어 잘못된 결정이나 결론으로 이어지기도 한다. 무지로 인한 오판이 내려질 수 있다는 것이다. 핸드는 신간 ‘다크 데이터’를 통해 보이지 않는 데이터의 세계를 짚어본다.

세계일보

노태복 옮김/더퀘스트/1만9000원


저자는 우리가 모르는 데이터를 물리학의 ‘암흑 물질(dark matter)’에 비유한다. 우주에서 약 27%를 차지하는 이 불가사의한 물질은 빛이나 다른 전자기파와 상호작용을 하지 않아 육안으로 관찰할 수 없다. 천문학자들은 암흑 물질의 존재를 오랫동안 알지 못했다. 은하의 중심부에서 멀리 떨어진 별들이 중력이론으로 설명할 수 없는 속도로 천천히 움직이는 것을 관찰한 뒤에야 암흑 물질을 추정했을 뿐이다. 중요한 것은 이러한 암흑물질이 일정 역할을 수행하며 우주에 영향을 끼친다는 점이다.

다크 데이터와 암흑물질의 작동 방식은 비슷하다. 이들은 눈에 보이지 않아 기록에 남지 않지만, 결론이나 결정에는 지대한 영향을 끼친다. 저자는 “다크 데이터는 보편적 현상으로 언제 어디에서나 생길 수 있지만, 그 정의상 다크 데이터가 빠져 있다는 것을 모를 수 있다는 점에서 위험하다”며 “미지의 것이 숨어 있을 가능성을 알지 못한다면, 그 결과가 참담하거나 치명적일 수 있다”고 경고한다.

경제 분야의 사례로 인플레이션을 들 수 있다. 인플레이션은 규정된 상품이나 서비스의 가격이 어떻게 변하는지 살피는 것에 기반한다. 하지만 ‘평균을 어떻게 계산하는가’라는 문제가 있다. 평균을 계산하는 방법에는 산술평균, 기하평균, 조화평균 등 여러 가지가 있기 때문이다. 영국의 경우에는 산술평균에 바탕을 둔 지수를 사용하다가 기하평균으로 방법을 바꿨다. 다른 방법을 사용한다는 것은 다른 관점에서 본다는 뜻으로 당연히 데이터의 다른 측면이 보이거나 보이지 않게 된다.

또 다른 예로 구글의 검색 알고리즘은 정확도를 높이기 위해 끊임없이 업데이트된다. 하지만 업데이트된 세부사항은 그 과정에 관여하지 않고서는 알기 어렵다. 이 모든 사항은 알고리즘의 정확도를 높이는 데 필요한 것으로 보이지만, 요점은 구글이 데이터 수집의 속성을 바꾼다는 데 있다. 이전에 수집된 데이터와 변경된 뒤 수집된 데이터를 비교하기 어려워졌다는 것이다.

이는 경제나 사회 지표에서도 마찬가지다. 종종 관련 지표들의 값이 달라질 때면 새로운 해석이나 전망이 나오곤 한다. 하지만 저자는 기본적인 현실이 바뀐 것이 아니라 현실을 다루기 위해 수집되는 데이터가 바뀐 것이라고 분석한다. 이런 변화의 기저에는 다크 데이터가 도사리고 있다고 경고한다.

저자는 빅데이터의 모멘텀이 가속화될수록 우리가 놓치고 있는 다크 데이터의 위험성도 커지고 있다고 지적한다. 결국 중요한 것은 데이터의 우주 속에 알려지지 않은 어두운 영역들이 우리의 인식을 어떻게 왜곡하는지 파악하는 것이다. 무언가를 측정하는 것이 모든 것을 측정하는 것을 뜻하지 않으며, 측정 절차와 측정 대상은 미묘하고도 비뚤어진 방식으로 상호작용할 수 있다는 점을 인식해야 한다. “데이터가 불일치할 때 새로운 통찰을 줄 수 있다는 것을 깨달아야 한다. 데이터는 언제나 오류, 측정의 불확실성, 표본 왜곡 등의 문제를 안고 있으며 데이터 오류는 실존하는 가능성이다.”

권구성 기자 ks@segye.com

ⓒ 세상을 보는 눈, 세계일보
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.