“우리 데이터는 곤란” 부서 이기주의와 법·제도 미비가 빅데이터 활성화 발목
“보건의료계 전문가들의 ‘이제 메르스 감염 우려가 더 이상 없다(7월 27일)’는 의견과 금일 총리 주재 범정부 대책회의 결정에 따라….” 지난 7월 28일 보건복지부 중앙메르스관리대책본부(메르스대책본부)의 ‘메르스 후속관리계획 발표’ 보도자료의 시작 부분이다. 언론들은 이날 발표를 기점으로 일제히 ‘정부 메르스 사실상 종식 선언’이라고 보도했다. 메르스는 정말 ‘사실상 종식’된 것일까. “그걸 두고 ‘사실상 종식’이라고 타이틀을 붙이기는 애매하긴 하다. 말 그대로 전문가들의 판단도 있었고, 우리가 물론 조심해야겠지만 메르스에 묶여서 아무것도 못하지 않았나. 마지막 확진자가 나온 지도 20여일이 지난 때였고….” 메르스대책본부 대변인실 관계자의 말이다. 메르스는 정식으로 종식된 것이 아니다. 질병관리본부 홈페이지에 들어가 보면 여전히 ‘메르스 일일현황’이 오전 8시30분을 기점으로 올라오고 있다. 8월 7일자 현황을 보면 전날 ‘신규 의심환자’는 3명이 발생했다. 중동지역에서 입국한 사람들이다. 7월 4일 이후 ‘신규 확진환자’는 33일째 발생하지 않았지만, 확진환자 10명이 현재 입원 중이다. 이들 중 바이러스 음성환자는 9명이다. 세계보건기구(WHO) 규정에 따르면 정식 종식은 마지막 확진자 퇴원 28일 후 선언할 수 있다. 남은 확진환자가 8월 8일 퇴원한다고 ‘가정’하더라도 정식 종식선언 가정일은 9월 7일이다. 현재 추세대로라면 추석연휴(9월 26~29일) 이전에 종식되기는 쉽지 않아 보인다. 황교안 국무총리가 7월 28일 정부서울청사에서 열린 메르스 대응 범정부 대책회의에서 발언하고 있다. 그는 “집중관리 병원 15개 모두 관리 해제됐고, 23일간 새 환자가 전혀 없다. 국민께서는 이제 안심해도 좋다는 것이 의료계와 정부의 판단”이라고 말했다. / 강윤중 기자 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
확진환자 10명… ‘사실상 종식’ 맞을까
한국에서 첫 메르스 환자가 확인된 것은 지난 5월 20일이다. 그 후 3개월. 발병과 확산과정을 보면 한 가지 의문이 있다. 컨트롤타워 부재에 대한 비판이 나왔지만, 질병관리본부 중심의 메르스대책본부 활동이나 전환국면의 시점으로 보는 6월 4일 박원순 서울시장의 메르스 긴급기자회견 등 ‘메르스 리더십’에서 빅데이터 전문가들의 역할이 거의 눈에 띄지 않는다는 것이다. 왜일까.
전염병 확산이나 대책에서 빅데이터 분석이 상당한 역할을 해낼 것이라는 것은 일반적인 예측이었다. 빅데이터의 유용성을 설명할 때 흔히 예시를 드는 것이 구글 독감 트렌드다. 아이디어는 단순하다. 독감에 걸린 사람들이 병원에 가기 전에 ‘독감’, ‘병원 위치’ 등을 검색하는 데서 착안한 것이다. 실제 구글 독감 트렌드는 미국 질병통제예방센터(CDC)가 발표하는 공식 발병 데이터보다 수일에서 일주일 먼저 독감유행을 보여준다. 2011년에 만들어진 식웨더(SickWeather)라는 회사는 한발 더 나아가 페이스북이나 트위터와 같은 SNS 빅데이터를 스캔해 질병예측 서비스를 제공한다. 사용자가 “나 아파 조퇴했어”, “우리 아기가 열이 나”와 같은 글을 추출해내고 여기에 위치정보를 결합해 비슷한 결과들이 나오게 되면 해당 지역에서 특정질병이 유행하는 것을 예측할 수 있다는 원리에 기반한 것이다. 식웨더는 이 경보시스템을 특허까지 냈다.
메르스 국면에서 빅데이터를 활용한 분석이 없는 것은 아니다. 서울대 빅데이터연구원은 헤럴드경제와 공동기획으로 메르스 발생부터 2개월간의 5개 중앙일간지 기사 1만1467건과 댓글 21만3901건을 분석해 가장 많이 언급된 단어들을 뽑았다. 빅데이터 텍스트마이닝에서 가장 많이 언급된 단어들을 네트워크 분석을 하면 자연스럽게 가운데로 모인다. 이 조사에서 가장 많이 언급된 단어는 ‘병원’과 ‘공개’였다. 해당기사는 “민심은 정부의 판단과 달리 신속한 병원 공개를 원했던 것”이라고 해석했다. ‘병원’ 다음으로 많이 언급된 것은 ‘정부’였다. 이 결과는 빅데이터 분석 전문회사 아르스프락시아의 메르스 시멘틱 네트워크 분석 결과와 유사하다. 그런데 그것 뿐일까.
김도훈 아르스프락시아 대표는 기자를 만나 자신이 비교분석한 국제비교표를 보여줬다. 신속대응에 실패한 캐나다의 사스 감염자 수와 비교적 성공한 것으로 평가되는 싱가포르의 사스 감염자 수, 그리고 한국의 메르스 감염자 수를 비교한 그래프다. “사스의 경우, 성공했든 실패했든 피크가 두 번 나타나는 것이 관측된다. 한국의 경우 전례 없이 첫 번째 피크가 나타난 후 진정된 것으로 돼 있는데, 앞으로 어떻게 될지 지켜봐야 한다.” 전염병 유행에서 감염자 수는 첫 번째보다 규모는 작지만 일종의 여진처럼 두 번째 확산이 일어나는데, 과연 이대로 종식될지는 두고 봐야 한다는 것이 김 대표의 지적이다.
‘프라이버시 관련 국민정서’가 걸림돌
“건강보험 빅데이터와 보건의료분야 빅데이터를 연계한 빅데이터 플랫폼을 구축하면 향후 감염병 감시체계로도 활용이 가능하다.” 지난 6월 25일 열린 세미나에서 국민건강보험공단 빅데이터실 신순애 실장은 이렇게 주장했다. 건강보험공단의 빅데이터와 신용카드 이용내역, SNS 기록, 휴대폰 위치추적 등 다른 기관의 빅데이터가 연계되면 메르스와 같은 대규모 감염병을 막아낼 수 있다는 것이 신 실장의 주장이다. 건강보험공단은 지난 2012년부터 국민건강정보DB를 구축해 놓았다. 특히 전 국민의 2%에 해당하는 100만명의 건강보험 자료를 개인식별이 불가능한 일반공개용 연구자료인 ‘표본코호트DB’ 웹사이트로 구축해 지난해부터 공개해 왔다. 일반 연구자들을 대상으로 공개했다고 하지만, 접근은 쉽지 않다. 자료를 이용하려면 일단 사이트에 들어가 연구계획서를 제출해 심의를 받아야 한다. 심의를 통과하면 일정한 수수료(전체 자료의 경우 160만원 내외)를 내면 자료를 추출해 USB로 건네받을 수 있다. 외국 연구자들은 이용할 수 없다. 사실상 학교나 정책기관이 아닌 경우 민간에서 이용하기가 어렵다.
박근혜 정부가 ‘정부3.0’을 기본정책으로 하면서 각 정부기관 등이 보유하고 있는 빅데이터 정보를 공개하도록 하고 있지만 현실은 쉽지 않다. 8월 초, 통계청도 빅데이터 관련 부서를 만들 계획이라는 보도가 나왔다. “행자부나 건강보험, 국세청에도 자료가 많은데 못 받는 자료가 더 많은 것이 사실이다. 무엇보다도 관련법이 걸림돌이다.” 통계청 관계자의 말이다. 빅데이터가 활성화되려면 다른 기관이 가지고 있는 빅데이터들이 취합돼야 하는데, 그게 쉽지 않다는 것이다.
앞의 건강보험공단 주장을 보면 한 가지 눈에 띄는 것이 있다. 핵심은 각 기관이 가지고 있는 자료를 내놓겠다는 것이 아니라 다른 기관이 가지고 있는 자료를 ‘가지고 오면 된다’는 것이다. 이것은 결국 기관 이기주의가 아닐까. 신순애 실장은 “건강보험공단의 빅데이터가 아무래도 국민 개개인의 건강자료를 바탕으로 생성된 것이다 보니 예민할 수밖에 없다”며 “데이터를 일반에게 공개했을 때 오용 가능성을 생각하지 않을 수 없고, 민감한 ‘국익’에 해당하기 때문에… 이를테면 대만의 경우도 자국 연구자들 위주로 공개하고 있다”고 밝혔다.
서울대 빅데이터연구원 한규섭 언론정보학과 교수는 이렇게 덧붙였다. “댓글 빅데이터 분석 이외에 다른 것도 물론 해볼 수 있다. 이를테면 센서로 응급실 내 동선을 분석하는 작업 같은 것이 이뤄지는 것은 지금도 휴대폰 등을 활용하면 충분히 가능한 일이다. 문제는 국민정서다. 과거 권위주의 정권을 경험하다 보니 자신의 정보가 그런 식으로 활용되는 것에 대한 국민들의 거부감이 문제다.” 신 실장도 ‘프라이버시 관련 국민정서’를 빅데이터 활용과 활성화의 가장 큰 걸림돌로 거론했다.
이번 메르스 국면에서 빅데이터 정보가 활용되지 않은 것은 아니다. 6월 8일, 세종시 범정부메르스대책반은 SK텔레콤, KT, LG유플러스 관계자를 소집해 대책회의를 열었다. 이 자리에서는 메르스 격리 대상자의 동선을 파악하기 위에 개인 휴대폰 위치추적 방안이 논의됐고, 실제로 보건당국의 요청으로 이통3사로부터 관련 ‘개인정보’를 넘겨받은 경찰은 무단이탈한 격리대상자에 대한 추적작업을 진행했다. 익명을 요청한 한 업계 관계자는 “관련해서 적절한 프로토콜이 마련됐어야 하는데, 급하다 보니 그냥 가져다 쓴 것”이라며 “이번에는 그냥 쉬쉬하면서 넘어갔지만 관련 법 정비가 필요하다”고 말했다.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
“국민이 합의한 빅데이터 저장소 필요”
한국에서 빅데이터 산업이나 활용이 왜 활성화되지 않을까. 메르스 국면 이전부터 관련 업계나 학계의 ‘화두’다. 활성화를 이야기하는 쪽에서는 주로 수집된 개인정보를 다른 목적으로 활용할 수 없도록 규정돼 있는 2013년 개정 개인정보보호법 문제를 거론한다. 하지만 다른 각도에서 살펴볼 필요가 있다는 지적도 나온다. 역시 익명을 요청한 한 교수는 이렇게 말했다. “사실 가장 강력한 것은 주민번호에 기반한 행자부와 경찰 데이터다. 중소기업이 이력서를 조회하면 6촌에서 8촌까지 다 나오는 연좌제 같은 검색시스템이 윈도가 나오기 전부터 갖춰져 있었다. 그런 데이터를 다른 기관이 요청한다고 줄 가능성? 내가 볼 땐 없다. 정권이 바뀌면 어떻게 바뀔지 모르는데 왜 손해보는 일을 하나. 정부3.0을 이야기하는 것은 좋다. 문제는 거버넌스인데, 정권이 바뀌더라도 이 정책은 변경 없다는 확신을 주지 않는 한, 부처들이 자기 데이터를 내놓을 가능성은 없다.” 그는 ‘국민정서 탓’만 할 것도 아니라고 덧붙였다. “개인정보보호법은 여기서 이들 기관으로서는 좋은 방패막이다. 액티브X 문제도 똑같은데, 정작 일반인들은 법 테두리에 막혀 접근하지 못하는 사이에 국정원이나 이런 데서는 마음대로 하고 있지 않나.”
강정수 디지털사회연구소 소장은 ‘시스템적 절박함의 부족’을 빅데이터가 활성화되지 않은 이유로 꼽았다. “미국은 워낙 땅덩어리가 넓은 나리다. 이를 테면 독감백신도 전체를 커버해서 갖춘 것이 아니라 필요하면 그때 생산해서 나르는 식이다. 그러다 보니 약의 수급에서도 조기대응이 절실하다. 그럴 때 소셜데이터의 활용은 큰 의미가 있다. 그런데 우리나라는 그에 비하면 ‘물 반 고기 반’이다. 메르스 같은 사태가 터지면 인천공항과 같은 사회적 허브만 격리하면 된다.” 그는 절박함의 측면에서 기존 시스템의 최적화가 빅데이터 연구보다 더 절박하다고 덧붙였다. “우리의 관료 시스템을 보자. 나쁜 일이 생기면 덜덜 떨면서 보고도 안 하는 체계인데, 정부3.0이라고 해서 의료보험 빅데이터를 산출한다면 정규직이 볼까? 하청업체가 관리하는 자료인데. 메르스와 같은 전염병에서 빅데이터를 신속하게 활용하려면 제일 중요한 것이 일차적인 반응속도다. 페이스북이나 카카오톡에 올린 사용자 글에 대한 분석은 할 수도 없고 해서도 안 되는 자료다.”
한편 ‘감염자 수 증감패턴 그래프’에서 2개의 피크가 나온다는 지적에 대해 김영택 질병관리본부 감염관리과장은 “메르스는 중동의 풍토병이 건너온 것이기 때문에 캐나다나 싱가포르의 유행 양상과 단순비교할 수 없다”고 말했다. 휴대폰 위치정보 사용 프로토콜 마련 필요성을 지적한 데 대해서는 “격리대상자들의 구두동의를 거쳤기 때문에 법 위반은 아니다”라고 답변했다.
카이스트 맹성현 교수팀은 지난 7월 영국의 사우샘프턴대학과 함께 데이터과학과 재난관리 예측시스템 구축을 주제로 워크숍을 열었다. 워크숍에 참석했던 이원재 교수는 <주간경향>에 이런 제안을 내놓았다. “빅데이터의 산업적 잠재력 제고나 공공복리 증진에 기여하려면 아예 행정부 바깥에 국민들의 직접적인 참여가 가능한 형태로 데이터를 공개하는 것도 검토해볼 필요가 있다. 국민은 누구나 익명화된 정보에 접근할 수 있어야 한다. 익명성을 푸느냐 마느냐는 국회에서 통제해 모두가 합의하는 가운데 정보를 보호하는 동시에 다 이용할 수 있어야 한다. 이를 테면 초등학생도 빅데이터 정보를 활용해 자신의 아이디어를 내놓을 수 있어야 한다. 다른 예를 든다면 ‘어느 고등학교가 서울대에 많이 보내느냐’라는 정보가 고교 서열화를 촉진시키는 것이 아니다. 거꾸로 교육불평등은 그런 자료의 투명한 공개를 통해 해법을 찾을 수 있다.” 빅데이터 활용과 관련해 이제는 한 번쯤 논의해볼 만한 주제가 아닐까.
“빅데이터는 마이너리티 리포트가 아니다”
김도훈 아르스프락시아 대표 인터뷰- 메르스 국면에서 빅데이터 전문가들의 활약이 눈에 별로 띄지 않았던 것 같다. 빅데이터의 활용을 두고 궁극적으로는 모니터나 분석이 아닌 예측으로 가야한다는 주장이 있는데.
“빅데이터 전문가들이 흔히 사용하는 트위터 버즈나 그 외 소셜 데이터로 전염병과 관련한 버즈를 분석해 의미를 추출해내는 것은 가능은 하다. 그러나 초기에 트위터 버즈를 통해 전염병 예측이 가능하다고 사이언스에 기고했던 교수도 최근에는 보다 신중한 입장을 견지하고 있는 것으로 안다. 전염병 공포를 두고 실제보다 데이터가 과장될 수 있기 때문이다. 특히나 우리나라에서는 예측이 더 어려운 것이, 이번 메르스 사태 때 네이버 댓글을 살펴보면 환자 수 그래프와 데이터 버즈량이 일치하지 않는다. 메르스 문제가 정부 책임과 관련해 정치화된 면도 있지만, 자신이 바이러스에 걸렸다고 아프다고 댓글에 이야기하지 않는 측면도 있다. 소셜댓글로 빅데이터 예측을 하겠다는 것은 나이브한 주장이다.”
- 비슷하게 외부에서 사스가 유입된 싱가폴의 경우, 비교적 성공적으로 대처할 수 있었는데 한국은 그렇지 못했다. 이유가 무엇이었을까.
“트위터 댓글 분석을 해보면 네 가지 영역에서 핵심키워드가 떠오른다. 정부, 박근혜, 세월호 그리고 사회불신이다. 이번에 아르스프락시아의 텍스트 마이닝 분석을 보면 ‘각자도생’이라는 키워드가 두드러지게 많이 사용되었다. 결국 각자 알아서 하자는 것인 것인데, 의미망을 분석해 봐도 결국 사람들이 하는 말은 정부의 메르스 대처를 비판하고 감염을 두려워하지만, 각자 알아서 자가예방하자는 결론이다. 반면 정부의 프레임은 세월호 사건 때나 메르스 때나 그렇고 다들 신경을 꺼라, 경기만 더 나빠진다는 것이다. 실제 트위터 텍스트를 분석해보면 경기침체 담론은 굉장히 고립되어 있고 주변적이다.”
- 정부가 결국 신뢰를 얻지 못했다는 뜻인가.
“메르스와 세월호는 전혀 다른 종류의 사건이었다. 그럼에도 국민들은 메르스 사태에서 정부의 무책임성을 떠올린다. 결국 정부의 능력이 관건이다. 민관합동으로 사스를 몰아내면서 결국은 공동체 정신을 회복한 싱가폴처럼 우리도 유능한 때가 있었다. 공무원도 그때와 달라지지 않았다. 결국은 컨트롤타워가 제대로 작동했냐는 것이다. 요즘 공무원들 분위기가 최고통치권자가 나서지 않는데 굳이 자기가 일을 떠맡으려고 하지 않는다. 세월호 때 많은 사람들이 왜 정부가 안움직이냐는 의문을 제기했다. 간단한 문제다. 지시를 하지 않는데 왜 내가 굳이 나서서 독박을 써야 하나라고 생각하는 행위자들이 많은 것 같다. 공무원, 군대도 그렇고 경찰도 그렇다. 병원도 마찬가지고.”
- ‘각자도생’이라는 키워드는 다르게 해석될 수도 있을 것 같다. 메르스 국면을 지나면서 정몽준 아들의 ‘국민이 미개하다’는 언급을 끄집어내는 사람도 있었다. 무슨 일이 나도 다 대통령 탓, 대통령 책임이라고 하는 것이 마치 “천재지변은 임금 책임”이라고 인식했던 전근대적 사고방식이라는 주장이다.
“카운터 케이스가 없으면 그렇게 이야기할 수 있다. 이를테면 비행기추락 참사가 났다고 다 대통령의 부덕 탓이라고 한다면 그렇게 말할 수 있을 지도 모르겠다. 이번은 경우가 다른게 정부가 이미 성공적으로 전염병을 관리한 사례가 있었다. 노무현 정부 때는 사스를 모범적으로 관리하지 않았나. SNS가 덮어놓고 반대하는 것이 아니라 다른 대통령 때는 잘했는데, 왜 하지 못했나 이야기하는 논조가 많다. 무조건적인 정파적 반대나 미신에 근거해 담론이 형성되었다고 말 할 수는 없다.”
- 빅데이터를 활용해 예측 시스템을 만들 수는 없나. 미국의 경우 신종플루가 유행한 다음 커뮤니티플루 2.0과 같은 예측 소프트웨어도 나왔고, STEM과 같은 예측 시스템도 유명하지 않나. 플루니어유(Flur Near You)나 식웨더(SickWeather)같은 빅데이터 산업도 활성화되었고.
“개인적으로 예측에 대해서는 좀 부정적이다. 오히려 재난이 일어났을 때 기민하게 감지하고, 복구하고 대처할 수 있는 사회적 자원을 얼마나 잘 동원하는 데이터 시스템을 갖추느냐가 중요하다. 어차피 데이터도 사람이 보고하고 취합하는 것인데, 지난해 세월호 사건의 경우 적재량과 적절한 인원 모두를 다 속였다. 기초적인 데이터를 속여서 허위보고하는데 데이터 관리가 우선되어야 하는 것이 아닌가. 중요한 것은 밑바닥의 사회적 자본을 어떻게 축적할 것인가이다. 불행하게도, 세월호에 이어 메르스도 결국 정부 불신으로 귀결되었다. 이것은 사회적 손실이다. 정부나 지자체가 신뢰를 회복하게 사회적 자본을 어떻게 효율적으로 운영할 것인가의 문제로 빅데이터도 접근해야 한다. 빅데이터를 보면 결과를 예측할 수 있다는 것은 일종의 사이언스 픽션이다. 빅데이터 분석이라고 하면 마이너리티 리포트를 연상하는 것은 이제 그만둬야 한다.”
- “빅데이터는 21세기 원유”와 같은 말과 함께 빅데이터 분석이 예측력을 높여준다는 이야기가 한참 나오지 않았나. 메르스 사태와 관련, 빅데이터 쪽에 어떤 말이 오갔나보니 “빅데이터는 2년 전에 한국을 포함해 아시아가 위험하다는 것을 예견했다”는 언급이 나오던데.
“그런 이야기들을 쉽게 믿지 마라는 것이 내가 이야기하는 핵심이다. 직접 데이터를 분석하는 입장에서 말한다면 현재 수준의 데이터로 신뢰성 높은 예측을 할 수 있다는 이야기는 신빙성이 낮다. 명목적인 통계상의 약한 상관관계를 가지고 과장하는 측면이 있다. 학계 일부에서 트위터가 제일 모으기 쉬우니 그것으로 모든 것을 할 수 있다는 식으로 이야기 하는 것은 여론을 호도하는 것이다. 4년 전에는 소셜미디어가 신선했다. 하지만 그런 소셜데이터는 제한된 상관관계를 보여준다는 것이 밝혀졌다. 수집하기가 비교적 쉬운 일부 매체 데이터를 통해 나타나는 상관관계에 의미를 부여해 과잉해석하거나 섣불리 예측하려고 하면 문제다.”
<정용인 기자 inqbus@kyunghyang.com>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.