‘신 연결주의 학파’ 이끌며
다층 퍼셉트론 ‘알렉스넷’ 개발
GPU 활용, AI 오류율 크게 낮춰
2010년 개발 GTX 580 두대로
AI 경진 대회서 우승 차지해
다층 퍼셉트론 ‘알렉스넷’ 개발
GPU 활용, AI 오류율 크게 낮춰
2010년 개발 GTX 580 두대로
AI 경진 대회서 우승 차지해
다층 퍼셉트론의 창안: 딥러닝의 창시자로 불리는 제프리 힌턴(맨 오른쪽) 교수와 그의 수제자인 오픈AI 공동창업자 일리야 수츠케버(맨 왼쪽) <출처=토론토대> |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
노벨 물리학상 수상자에 존 홉필드 미국 프린스턴대 분자생물학과 교수(91)와 제프리 힌턴 캐나다 토론토대 명예교수(77)가 각각 선정됐습니다. 노벨상위원회는 “홉필드 교수는 정보를 저장하고 재구성할 수 있는 구조를 만들었고, 힌턴 명예교수는 데이터 속성을 발견하는 방법을 개발했다”며 “인공 신경망을 기반으로 한 기계학습은 현재 과학과 공학, 일상생활에 혁명을 일으키고 있다”고 선정 배경을 밝혔는데요. 그만큼 챗GPT와 같은 강력한 AI를 만드는 데 기반이 되는 머신러닝을 가능케 하는 발견과 발명을 이끌었다는 평가를 받은 선구자들입니다. 특히 이 가운데 힌턴 교수는 그래픽처리장치(GPU), 이 가운데서도 엔비디아와 밀접한 인물입니다. 정확히는 엔비디아 GPU 칩의 중요성을 발견한 인물로, 힌턴이 없었다면 아마 오늘날 엔비디아 역시 없었을 것입니다.
단층 퍼셉트론의 한계를 돌파하다
1950년대 인공지능 모형: 올리버 셀프리지가 고안한 패턴 인식 장치인 판데모니엄. 셀프리지는 인공지능학계의 고전으로 꼽히는 《판데모니엄(Pandemonium)》이라는 논문을 1959년 발간했다. 그는 두뇌에 수많은 데몬(demon)이 존재하고 이들이 사물의 이미지를 서로 얻고자 경합을 벌인다는 오늘날 패턴 인식 장치와 유사한 이색적인 아이디어를 제시했다. <출처 mindhacks.com> |
AI 역사는 하루아침에 일어나지 않았습니다. 인공지능 역사는 컴퓨터와 인터넷만큼, 아니 그보다 더 오래됐습니다. AI가 곧 컴퓨터의 역사라고 해도 과언이 아닌데요. 챗GPT마저도 인공지능이라는 도도한 물결 속에 숨어 있는 작은 파도일 뿐입니다. 오픈AI를 공동 창업한 일리야 수츠케버 (현재 세이프 슈퍼인텔리전스 창업자)는 딥러닝의 초석을 놓은 제프리 힌턴 교수의 수제자입니다. 힌턴 교수는 병렬분산처리라는 아이디어를 낸 데이비드 러멜하트 교수 밑에서 수학을 했죠. 또 러멜하트는 최초의 인공지능 기계를 발명한 로젠블랫에서 영감을 받았고, 로젠블랫은 이를 고안한 앨런 튜링에게서 큰 영향을 받았습니다. 또 튜링은 19세기 영국 수학자인 에이다 러브레이스의 아이디어를 실현하는 방법을 연구하는데 골몰했습니다.
이처럼 인공지능은 한 사람의 힘만으로 어느 날 갑자기 뚝 하고 발명된 것이 아닌데요. 잠시 1978년으로 돌아가 보겠습니다. 당시에 인공지능 학계에는 두 가지 조류가 있었습니다. 하나는 알고리즘과 같은 숫자만 있다면 모든 것을 구현할 수 있다고 믿는 ‘기호주의 학파’, 또 다른 하나는 인간 두뇌를 모방하면 AI를 구현할 수 있다고 믿는 ‘연결주의 학파’가 그것입니다. 청년 힌턴은 이런 시대에 살았습니다.
그는 매우 다양한 분야에 관심이 많았습니다. 케임브리지대에서 생리학과 물리학을 전공했고 에든버러 대학원에서 철학과 심리학을 전공했습니다. 박사학위는 크리스토퍼 롱겐 히긴스 교수 아래에서 인공신경망으로 받았는데요. 롱겐 히긴스 교수는 에든버러대에 처음으로 인공지능학과를 창설한 인물이기도 합니다.
미국에서 그를 반겨 준 것은 UC샌디에이고대였습니다. 당시 수학자이자 심리학자인 데이비드 러멜하트 교수가 병렬 분산 처리를 연구하는 PDP그룹을 이끌고 있었고, 힌턴은 이곳에 합류해 활동했습니다. 러멜하트는 맥클러랜드와 함께 1986년 《병렬분산처리》라는 두 권의 책을 발간한 인물인데요. 지금은 고전이 된 다층 학습을 위한 이론서로 꼽힙니다.
힌턴이 보기에 물리학은 세상을 이해하는 데 있어 너무 단순했고, 생물학은 너무나도 복잡했습니다. 물리학은 힘을 설명하는 데 유용했지만, 두뇌 회로처럼 목적을 가진 생물을 설명할 순 없었습니다. 그래서 힌턴을 주축으로 새로운 학파가 결성됩니다. 이름하여 연산 신경과학(Computation neuroscience)이라는 새로운 사조입니다. 이들은 1950년대 태동한 신경생물학으로부터 큰 영향을 받았습니다. 당시 하버드대 의학대학원은 살아있는 고양이의 망막으로 들어온 빚(광점)이 뉴런에 전달되고, 뉴런이 극파(가시처럼 뾰족한 형태의 파형)를 발생하는 과정을 기록하는 데 성공했는데요.
1980년대 힌턴: 제프리 힌턴(오른쪽)이 1980년 보스턴에서 볼츠만머신을 공동 개발한 테리 세지노프스키와 시각적 네트워크 모델에 대해 논의하고 있다. <출처 제프리 힌턴> |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
고양이의 특정 뉴런이 빛을 인식하면 중심이 온(on) 상태가 되고 또 주변 뉴런은 오프(off) 상태가 된 것을 확인한 것입니다. 이후 신경생물학은 이후 인간의 두뇌 신경세포인 뉴런이 약 1000억개(혹은 860억개)에 달하고, 뉴런끼리 신호를 주고받을 수 있는 통로인 시냅스는 약 100조개에 달한다는 것을 밝혀냈습니다. 뉴런은 글루타민산염, 도파민, 세로토닌과 같은 신경전달물질을 시냅스를 통해 교환하며 이런 과정을 통해 흥분과 억제가 나타내는데요. 마치 스위치를 켜고 끄는 것과 비슷한 논리입니다. 무수히 많은 과정을 매우 빠른 속도로 반복해 뉴런은 먼 거리에 있는 뉴런에까지 정보를 전달합니다.
힌턴은 이후 인공지능이 살상 무기로 이용될 수 있다는 이유로 캐나다로 넘어가 토론토대에서 교편을 잡습니다. 그리고 힌턴과 오픈AI의 공동창업자 일리야 수츠케버를 포함한 제자들은 퍼셉트론에 주목합니다. 퍼셉트론은 1957년 프랭크 로젠블랫이 만든 세계 최초의 인공신경망입니다. 힌턴은 퍼셉트론이 실패한 원인을 인풋유닛인 노드(인간의 뉴런에 해당)가 하나뿐이라는 사실에서 찾았습니다. 그래서 여러 층을 쌓는 다층 구조와 이를 효율적으로 연산할 수 있도록 하는 역전파 방식을 연구해 발표했습니다. 이름하여 다층 퍼셉트론으로 불리는 MLP(Multi-Layer Perceptron)를 개발한 것입니다.
다층 퍼셉트론은 노드를 여러 층(레이어)으로 구성한 인공 신경망인데요. 이러한 방식은 복잡한 패턴까지 학습할 수 있었으며, 잡음이 많은 데이터를 처리하는데 탁월한 성능을 보여줬습니다. 물론 이 같은 모델이 만능은 아닙니다. 모델이 크고 복잡할 경우 속도가 느려졌고, 학습하지 않은 새 데이터가 입력됐을 때 오류가 일어나는 과적합(Overfitting) 문제를 일으키기도 했습니다. 하지만 곧 힌턴과 그의 연구진은 드롭아웃(Drop out) 방식을 개발해 이를 해결했습니다. 인공신경망은 때때로 특정 노드에 대해 과도하게 의존하는데, 임의로 특정 노드를 끌 경우 오류를 10% 줄일 수 있는 사실을 발견한 것입니다. 이 역시 우리 두뇌를 모방한 것입니다. 우리 두뇌에 있는 시냅스는 과도한 정보가 들어올 경우 스스로 드롭아웃을 합니다.
힌턴은 여기서 그치지 않았습니다. 인공지능 네트워크에서 인풋과 아웃풋을 되먹여 피드백하는 순환신경망(Recurrent neural network·RNN)과 연산을 통해 이미지로부터 필요한 특징을 스스로 학습할 수 있는 신경망인 합성곱신경망(Convolution Neural Network·CNN)을 잇따라 개발해 냈습니다. 이런 모델 덕분에 음성인식이나 자연어처리 같은 시간 정보 처리가 필요한 문제들 실마리를 찾기 시작한 것입니다.
GPU의 중요성을 발견한 힌턴
힌턴과 제자들이 사용한 GPU. 2010년 개발된 엔비디아의 GTX 580 모델 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
오늘날 엔비디아 그래픽처리장치(GPU)가 부상한 이유 역시 힌턴과 밀접합니다. 2010년 초반만 하더라도 인공 신경망은 큰 한계가 있었습니다. 아무리 인공지능이 이미지를 보고 남성인지 여성인지를 식별한다고 하더라도, 인간보다 인지 능력이 떨어졌기 때문입니다. 이런 고민을 깊이 한 인물이 있었으니 바로 스탠퍼드대에서 컴퓨터비전연구실을 이끌던 페이페이 리입니다. 리는 인공지능이 학습하는 데이터양이 사람보다 너무 적다고 생각했습니다. 엄마 배에서 나온 아기가 사물을 인식하고 판별해 인지를 갖추고 기억하기 시작하는 데는 15~24개월이 걸린 것에 착안한 것입니다. 하지만 당시 인공 신경망은 그 정도 분량의 이미지를 본 적이 없었습니다.
리는 2007년 이미지넷(Image Net)이라는 프로젝트에 돌입합니다. 2년 뒤 그와 연구진들은 1500만장에 달하는 이미지를 모으는 데 성공했고 이를 모두 2만2000개 범주로 분류했습니다. 그리고 리는 이처럼 막대한 이미지 데이터베이스를 세상에 공개했습니다. 학자들은 이미지넷을 활용할 수 있었습니다. 그리고 리는 이어 인공지능 경진대회를 열었습니다. 어떤 인공지능의 이미지 인식 오류율이 낮은지 판별하는 대회였습니다. 무작위로 추출된 수많은 이미지를 보고 인공지능이 무엇인지 답변을 하는 대회로, 컴퓨터비전의 올림픽이라고까지 불렸습니다.
힌턴과 그의 제자인 수츠케버는 뉴럴 네트워크에 필요한 병렬연산에는 그래픽처리장치(GPU)가 보다 효과적이라는 사실을 간파했습니다. 그래서 만든 것이 알렉스넷(AlexNet)입니다. 이들은 2012년 이미지넷 대회에 알렉스넷을 들고 출전합니다. 그리고 알렉스넷은 이미지 인식 오류율 16%로, 그해 대회에서 당당히 1등을 차지합니다. 그 이전 대회 우승팀의 이미지 인식 오류율이 26~28%에 달했던 점을 고려하면, 엄청난 성장이었습니다. 그 이전만 하더라도 남성과 여성 사진을 컴퓨터에 보여주면 4장 중 1장이 틀렸는데 알렉스넷 태동 이후 오류율이 획기적으로 낮아진 것입니다. 그 이후 인공지능은 2015년 사람을 처음으로 능가했습니다. 당시 1위였던 알에스넷(ResNet)의 오류율은 고작 3.6%에 불과했습니다.
힌턴과 제자들이 사용한 GPU는 2010년 엔비디아가 개발한 GTX 580이었습니다. 해당 모델은 고사양 게임과 컴퓨팅 작업을 위해 설계된 제품입니다. GTX 580은 페르미(Fermi) 아키텍처를 기반으로 했는데요. 512개의 CUDA 코어, 772MHz의 코어 클럭, 1.5GB의 GDDR5 메모리를 탑재했습니다. 힌턴과 제자들은 이미지넷 대회에서 단 두 개의 GTX 580 GPU를 병렬로 사용했습니다. GTX 580를 인공 신경망에 활용한 것을 계기로, 오늘날 수많은 연구자와 학자들이 GPU를 학습과 추론에 사용하고 있습니다. 엔비디아는 그 이후 나날이 성장했고 2022년 챗GPT가 등장하면서 AI 데이터센터 시장을 독점하기 시작했습니다.
14년간 GPU의 연산속도는 크게 달라졌습니다. GTX 580은 약 1.5 테라플롭스(TFLOPS)의 단정밀도(FP32) 성능을 보여주지만, 최신 컴퓨팅 플랫폼인 블랙웰 B200은 최대 20페타플롭스(PFLOPS)의 연산 성능을 자랑합니다. 초당 약 20경번씩 연산을 하는 괴물 같은 성능입니다. 연산 성능이 14년 만에 무려 1만3000배 이상 향상된 것입니다.
오픈AI와 젠슨 황: 2016년 젠슨 황 엔비디아 CEO가 일론 머스크 테슬라 CEO 앞에 엔비디아 GPU 칩을 꺼내 보이고 있다. 당시 머스크는 샘 올트먼과 함께 오픈AI를 공동창업한 상태였다. <사진 엔비디아> |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
GPU는 순전파(Forward Propagation)와 역전파(Backpropagation)에서 모두 중요한 역할을 합니다. 순전파는 입력 데이터가 신경망의 각 층을 통해 전달되면서 예측값을 생성하는 과정인데요. GPU는 다수의 연산을 동시에 처리할 수 있는 수천 개의 코어를 가지고 있어, CPU에 비해 훨씬 빠르게 연산을 수행할 수 있습니다. 역전파는 출력에서 발생한 오류를 신경망의 각 층으로 역으로 전파해 가중치를 업데이트하는 과정인데요. 이 과정 역시 많은 양의 미분 계산과 행렬 연산이 포함돼 있다 보니 병렬 연산에 뛰어난 GPU가 CPU에 비해 우수한 것입니다. GPU의 중요성을 발견한 힌턴, 그리고 오픈AI 공동창업자로 합류한 그의 제자 수츠케버. 아마도 이 둘이 없었더라면 오픈AI도 엔비디아도 오늘날 그만큼 조명을 받지는 못했을 겁니다.
■위클리반도체
■참고문헌
· AI메이커스, 인공지능 전쟁의 최전선 (케이드 메츠, 김영사)
· A Fast Learning Algorithm for Deep Belief Nets (제프리 힌턴, 토론토대)
· 매그니피센트 7, 빅테크 투자 지도 (이상덕, 포르체)
· 챗GPT 전쟁, 실리콘밸리는 무엇을 준비하는가 (이상덕, 인플루엔셜)
매주 한편 반도체와 관련된 깊은 이야기를 전해드리는 매일경제의 프리미엄 콘텐츠입니다.
■참고문헌
· AI메이커스, 인공지능 전쟁의 최전선 (케이드 메츠, 김영사)
· A Fast Learning Algorithm for Deep Belief Nets (제프리 힌턴, 토론토대)
· 매그니피센트 7, 빅테크 투자 지도 (이상덕, 포르체)
· 챗GPT 전쟁, 실리콘밸리는 무엇을 준비하는가 (이상덕, 인플루엔셜)
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.