이세돌 이긴 알파고 꺾은 '알파고 제로' 등장

머니투데이 원문
류준영기자
입력

2017.10.19 09:14

최종수정

2017.10.19 09:27

주소복사가 완료되었습니다

[허사비스 CEO, 네이처 통해 발표…100전 100승]

구글 딥마인드의 창업자인 데미스 허사비스 CEO/사진=네이처

이세돌 9단을 꺾었던 구글의 AI(인공지능) 바둑 프로그램 '알파고‘(알파고 리·AlphaGo Lee)를 100대 0으로 제압한 최신 버전 '알파고 제로‘(AlphaGo Zero)가 공개됐다.

구글 딥마인드의 창업자인 데미스 허사비스 CEO(최고경영자) 등 이 회사 소속 연구원 17명은 19일(한국시간) 국제학술지 ‘네이처’를 통해 '인간 지식 없이 바둑을 마스터하기’라는 제목의 논문을 게재하며, 알파고 시리즈 중 가장 강력한 버전인 ‘알파고 제로’를 개발했다고 밝혔다.

알파고 제로는 단 36시간의 학습만으로 기존 알파고를 넘어서는 능력을 갖췄고, 대국에서도 100대 0으로 압승을 거뒀다.

특히 알파고 제로는 기보나 대국 상대조차 없이 독학으로 바둑을 배워 기존 알파고 버전들을 압도하는 능력을 갖췄다.

기존 알파고는 16만 건에 달하는 인간 바둑기사들의 기보 데이터를 학습하는 ‘딥러닝’과 이를 기반으로 스스로 바둑을 두며 실력을 쌓는 ‘강화학습’을 통해 바둑을 익혔다. 이세돌과 대국까지 12개월이란 학습 시간을 보냈고, 지난 5월 중국의 커제 9단에게 완승을 거둔 ‘알파고 마스터’ 버전은 학습시간을 3분의 1 수준으로 줄였지만, 역시 기보를 통해 학습하는 과정을 거쳤다.

알파고 제로는 바둑 규칙 외에는 아무런 사전 지식이 없는 상태에서 바둑 학습을 시작했다. 딥러닝 단계를 생략하고, 72시간의 강화학습만을 통해 세계 최고 수준의 바둑 실력을 갖췄다.

이 시간 동안 알파고 제로는 홀로 한 수에 0.4초가 걸리는 초속기 바둑으로 490만 판의 바둑을 두며 스스로 바둑의 이치를 터득했다. 승률을 높이는 좋은 수가 어떤 것인지 데이터를 스스로 실행하며 바둑을 이해하는 수준을 높여갔다.

알파고 제로는 72시간 독학 후 제한시간 2시간의 대국 조건을 걸고 알파고 리와 대결한 결과, 100전 100승 무패 기록을 세웠다. 또 알파고 마스터와의 대국에선 89대 11로 승리를 거뒀다.

과학계는 알파고 제로의 이 같은 지식학습 패턴에 대해 “인간의 한계를 뛰어넘는 AI 연구의 중요한 이정표가 될 것”이라고 강조했다. 딥마인드 연구팀은 “인간이 이미 만들어놓은 기존 바둑 이론을 버림으로써 알파고 제로가 오히려 더 똑똑해진 것”이라며 “인간의 이론이 오히려 바둑의 창의적인 새로운 수의 탄생을 막았을 수도 있다는 것이 알파고 제로를 통해 증명됐다”고 설명했다.

허사비스 CEO는 “알파고 제로는 알파고를 개발한 지 2년만에 나온 성과로, 인간의 도움 없이도 새로운 지식을 발견하고, 통상적이지 않은 전략을 개발했다”며 “AI가 사람의 독창성을 넘어설 수 있다고 확신한다”고 말했다.

기존 알파고 구동을 위해선 176개의 그래픽처리장치(GPU)와 4개의 텐서프로세싱유닛(TPU·인공지능용 칩)이 필요한 반면 알파고 제로는 4개의 TPU만으로도 작동한다.

이번 논문에선 현재까지 개발한 알파고 시리즈를 대상으로 실시한 ‘엘로(ELO) 점수’도 공개됐다. 엘로는 바둑 실력을 수치화한 것이다. 알파고 제로는 5185점, 알파고 마스터는 4858점, 알파고는 3739점을 받았다. 점수 차가 800점 이상이면 승률은 100%, 677점일 땐 99%, 366점 높다면 90% 승리한다는 의미다.

류준영 기자 joon@

<저작권자 ⓒ '돈이 보이는 리얼타임 뉴스' 머니투데이, 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

04.27 (토)

이세돌 이긴 알파고 꺾은 '알파고 제로' 등장

머니투데이 주요 뉴스