배경훈 LG AI연구원장 인터뷰
<이미지를 클릭하시면 크게 보실 수 있습니다> |
지난 4월 미국 스탠퍼드대학교 인간중심인공지능연구소(Human-Centered Artificial Intelligence, 이하 HAI)가 '2023 AI 지수 보고서(AI Index Report 2023)'를 발표했습니다. HAI는 매년 글로벌 AI 생태계 동향을 파악할 수 있도록, 각국의 AI 관련 데이터를 수집한 보고서를 발표하고 있습니다. 이번에 나온 보고서는 앞뒤 표지를 포함해 386쪽에 달하는데, 오늘은 그중 한 부분을 발췌해 이야기해보려고 합니다. 보고서를 넘기다 보면 중간쯤 2022년 AI 분야 민간 투자액을 국가별로 비교한 아래 그래프가 나옵니다.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
▶ 출처: https://aiindex.stanford.edu/
순위를 살펴보면 1위는 미국(474억 달러)이고 2위는 중국(134억 달러), 이어 영국과 이스라엘 순입니다. 한국(31억 달러)은 인도에 이어 6위로 표시됐습니다. 이 그래프는 지난해 투자액만을 기준으로 했는데, 기간을 최근 10년으로 늘려 집계한 그래프도 있습니다.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
▶ 출처: https://aiindex.stanford.edu/
1위부터 4위까지 순위 변화는 없는데, 투자액 규모가 크게 늘어납니다. 미국의 투자액은 무려 2,489억 달러, 지금 환율로 계산해 보니 330조 원이 넘는 엄청난 액수이고요, 2위 중국의 투자액도 951억 달러로 126조 원을 훌쩍 뛰어넘습니다.
이 그래프에서 한국은 순위가 조금 떨어져서 9위에 랭크됐습니다. 총 투자액은 56억 달러, 7조 원 대입니다. 7조 원이라는 액수 자체는 매우 큰 금액인데, 미국이나 중국과 비교하면 각각 2%와 6% 수준입니다. 결과를 보고 나니 어떤 생각이 드시나요? 한국도 이 정도면 AI 분야에서 잘해 나가고 있다? 아니다 명색이 'IT 강국'으로 불리는 한국인데 AI 분야에서 이 정도 순위는 아쉽다? 각자의 평가는 다르겠지만, AI 주요 빅테크가 포진한 미국이나 중국에 비해 한국 AI는 체급이 왜소해 보입니다.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
챗GPT와 같은 생성형 AI 챗봇이 큰 관심을 불러일으켰고, 국내에서도 대기업 스타트업 할 것 없이 AI 기술을 활용한 사업 모델을 개발하고 있습니다. 하지만 실제 산업 현장에서 AI를 활용해 경제성을 확보하고, 안정적으로 수익을 창출한 사례는 잘 떠오르지 않습니다. 왜 그런 것일까요? 국내 대기업 가운데 최초로 AI 전문 연구기관을 설립한 LG AI연구원의 배경훈 원장을 만나 한국이 'AI 강국'이 되기 위해 필요한 조건에 대해 들어봤습니다.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
Q. 미국과 중국 빅테크들이 글로벌 AI 생태계를 선도하고 있습니다. 이들이 앞서나갈 수 있는 비결은 무엇일까요?
미국은 도서나 법률 문서들이 AI로 학습할 수 있는 형태로 다 정리돼 있어요, 아예 데이터화에 대한 마인드가 있어요. 미국의 오픈 데이터, 공개 데이터셋[1]의 질이 너무 좋아요. 중국은 미국처럼 안 되어있었지만, 정부가 다 하게 만들었죠. 길거리에 있는 모든 CCTV를 다 기업이 활용할 수 있게 만들어주고요. 중국 AI는 제가 봤을 때 (한국과) 기술 편차가 그렇게 크지 않아요. 기술의 차이가 있는 게 아니라 기본 소스가 되는 데이터들을 확보할 수 있는 체계와 역량의 레벨이 다른 거예요.
[1] 데이터셋: 컴퓨터에서 처리할 수 있도록 저장된 비슷하거나 관련된 데이터들의 모음 또는 집합체이다.
Q. 한국은 AI 학습에 필요한 데이터가 많이 부족한가요?
기업의 내부 업무 문서를 바탕으로 생성형 AI 대화 모델로 바꾸는 작업을 해보려고 했어요. 신입사원이 오면 업무 문서를 누구한테 받을 것이 아니라, 그냥 자기가 질문해서 실시간으로 답을 얻고 이런 걸 저희가 만들려고 했어요. 기술도 다 준비를 했는데, 데이터가 PPT, 그림, 도형, 도표인 거예요. 해석해서 텍스트 형태로 바꿔놔야 우리가 학습할 수 있잖아요? 아직 우리는 AI가 뭔가 제대로 된 일들을 하기 위한 데이터 준비가 10%도 안 돼 있어요.
AI가 우리가 원하는 방향대로 일을 할 수 있게 데이터를 잘 모으고 또 모으는 걸 넘어서서 충분해야 되고, 그 데이터가 완전히 의미 있게 활용될 수 있는 레벨로 레이블링(labeling)[2] 돼야 하는데, 한국은 이런 것들이 많이 잘 안 돼 있어요. 미국 대비 양질의 데이터가 우리는 한 90% 이상 없다고 생각하시면 돼요.
정부가 초거대 AI 관련해서 과제를 만들고 예산을 발표할 때 핵심 중의 하나가 데이터예요. 양질의 로데이터(Raw data, 원자료)는 다 영어인 거예요. 만약 영어 논문을 번역해서 넣는다고 생각해 보세요, 번역한 글이 되게 이상해져요. 그래서 글로벌 레벨에서 저희가 역량을 쌓아나가기 위해서는 한국 기업인데도 영어를 포기할 수가 없습니다.
[2] 레이블링: 머신러닝 모델을 개발할 때 데이터에 이름을 붙여 유형별로 분류하고 가공하는 과정이다.
Q. 양질의 데이터 확보는 글로벌 AI 경쟁력과도 밀접한 관련이 있겠군요.
뉴스 데이터도 저작권이 있잖아요. 그런데 그런 것들도 막 가져다가 학습을 하다 보니까 저작권 문제도 있고 개인정보 이슈도 있고요. 이런 것들이 해결이 돼야 다음 단계의 생성형 AI, 제너럴 AI를 만들어가는 단계에 대해 조망해 볼 텐데, 지금은 그게 혼탁스러운 단계인 것 같아요. 아직은 데이터에 대한 부분이 정비가 잘 안 돼 있고요. 일반적인 업무나 상식적인 수준에서 우리가 생성형 AI를 많이 써보고 있는데 이게 전부인가? AI 기술을 실질적으로 어디에서 제일 많이 쓰고 우리가 어디에서 필요로 하지? 이런 부분도 잘 살펴봐야 하고요. 한국 시장이 작다고 그랬잖아요. 한국이 데이터를 거대하게 갖고 있다거나 플랫폼 비즈니스를 하는 게 많지 않으니까 그래서 판이 크지 않은 거죠.
저는 글로벌 빅테크들이 가지고 있는 생성형 AI 기술이 거기서 거기라고 생각해요. AI 기술 자체는 편차가 아주 클 수가 없어요. 기본적인 딥러닝 기술 기반으로 뭔가를 만들고 있기 때문에 대부분의 기술력은 유사할 거고요. AI는 오픈소스가 많으니까 가져다가 금방금방 일단 비슷하게 흉내는 내볼 수 있는 거죠. 그런데 근본적인 문제들이 각각 있는데, 추론을 더 잘하기 위해서 연구를 해야 되고, 또 모델이 너무 크다 보니까 양자적인 방법을 통해서 더 최적화하고 줄이고 이런 다양한 방법들에 대한 연구도 필요하고, 목적하는 어떤 대답을 잘하기 위해서 강화 학습 연구도 해야 되고, 이런 기초 연구들이 되게 많이 필요하거든요.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
Q. 많은 기업들이 AI 시장에 뛰어들고 있지만, 비즈니스적으로 성공을 거둔 사례를 찾긴 쉽지 않은 것 같아요.
챗GPT 사용률이 지금 줄어들고 있거든요? AI를 오래 했으니까 저는 당연히 그럴 줄 알았어요. 왜냐하면, 사람들은 늘 호기심이 있다가 어느 정도 지나면 안 써요. AI 스피커, 차량에서 내비게이션 안내도 열심히 해봤잖아요. AI 스피커 앞에서 또박또박 말하면서 날씨 물어보고 얘기해 주고 이렇게 노력해 왔지만, 그런 게 다 자연스럽지 않은 거거든요. 그러니까 결국에는 AI 스피커 사용자들도 급감했잖아요. 챗 형태의 인터페이스가 지금은 약간 내게 조금 도움을 줬어요. 그런 정도에서 쓰는 건데 그 니즈가 계속 있을까요? 사람의 니즈는 더한 걸 원하거든요. 그러니까 계속 그런 걸 좀 만족시켜 줘야 되고요.
우리가 AI로 챗GPT로 무언가를 했다 이런 사례들은 있지만 실제로 어디에 적용돼서 비즈니스가 만들어졌다, 이런 뉴스를 보신 적이 있으신가요? 거의 없으실 거예요. 저는 제일 걱정이 뭐냐면 생성형 AI도 과거 AI 스피커처럼 지금의 챗GPT처럼 한국이 열심히 투자해서 만들었는데, 또 관심을 끌다가 '재미있었어, 그런데 나는 좀 불편해' 이러다가 관심이 멀어지면 AI에 윈터(winter)가 올 수도 있겠죠. 저희는 그걸 굉장히 경계해서 처음부터 산업 현장에서 증명하고, 비즈니스 측면에서 의미 있게 사용되게 만들려고 하고 있습니다.
Q. 산업 현장에 적용될 수 있도록 추진 중인 구체적인 비즈니스 모델이 궁금해요.
잘 보면 지금 빅테크들이 생성형 AI로 하고자 하는 메인 비즈니스는 다 클라우드 업체거든요. 아마존, 구글, MS 다 그들의 클라우드 시장을 넓히고 확보하기 위해서 주력하고 있는 거예요. 클라우드 안에서 고객들이 많이 쓰고, 클라우드의 소비량을 계속 늘리게 하는 게 그들의 전략이죠.
저희는 클라우드는 없으니까, 생성형 AI를 가지고 조금 더 전문적인 일들을 하면서 실제 의사가 쓸 수 있게, 법률 쪽에 있는 사람이 쓸 수 있게, 금융권에 있는 사람이 쓸 수 있게, 우리 연구자들이 쓸 수 있게 하는 걸 목표로 해요. 아예 처음부터 조금 구체적인 목적으로 태스크 오리엔티드(task oriented, 과제 지향적)된 어떤 문제를 해결하기 위해서 전문성 있고 신뢰성 있는 AI를 잘 만드는 게 필요하다고 봅니다. 일반적인 웹 데이터는 양질의 데이터가 거의 없어요. 과학적으로 추론하고 정확하게 답할 수 있는 AI를 만들려고 처음부터 저희는 데이터 소스 자체에 논문이나 특허나 전문적인 서적들을 많이 넣었어요. 전문 영역에서 생성형 AI를 잘 쓸 수 있도록.
LG AI연구원의 '엑사원(EXAONE) 2.0'은 실제 산업 현장에서 쓸 수 있는 레벨로 특화시킨 커스텀 모델이라고 생각하시면 되고요. 저희의 글로벌 파트너사 중에는 전문적인 도메인에 데이터를 가지고 사업을 영위하는 회사들이 많아요. 이런 곳들은 구글이나 오픈AI와 절대 협업하지 않아요. 왜냐하면 이들은 제너럴한 AI를 추구하다 보니까 전문 도메인들이 구글하고 일하면 구글이 어느 순간 자기 플랫폼으로 비즈니스를 끌어갈 거라고 생각해요. 그런데 저희는 처음부터 특화된 모델을 만들다 보니까 글로벌 회사들이 같이 협업하자고 해요. 생각하지도 못한 회사들하고 얘기를 많이 하고 있고요.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
▶ LG AI연구원은 지난 7월 초거대 멀티모달(Multimodal) AI '엑사원 2.0'을 공개했다. 2021년 12월 선보인 '엑사원'의 진화된 버전으로 글로벌 파트너십을 통해 확보한 특허와 논문 등 약 4,500만 건의 전문 문헌과 3억 5천만 장의 이미지를 학습했다. 엑사원 2.0은 분야별 특화된 전문가용 AI를 지향하는데, 전문가용 대화형 AI 플랫폼인 유니버스, 신소재·신물질·신약 개발 플랫폼인 디스커버리, 인간의 창의적 발상을 돕는 멀티모달 AI 플랫폼인 아틀리에 등 세 개의 플랫폼 서비스를 제공할 예정이다.
/ 사진: LG 제공
Q. AI 규제가 필요하다는 주장에 대해서는 어떻게 생각하세요?
법, 의료, 금융, 그러니까 사례별로 논의가 돼야 된다고 생각해요. 유스 케이스(Use case) 별로 어떤 이슈를 우리는 중점적으로 봐야 할지, 그게 다 똑같을 수는 없거든요. 어느 분야에서 AI를 유의미하게 쓰고 그 이상은 좀 위험한지, 우리가 어느 정도까지 AI를 적용할 건지 논의가 필요한 건데 이걸 다 하나의 기준으로 얘기해요. 그냥 생성형 AI를 건전하게 잘 쓰면 좋겠지만, 리스크가 있으니 규제가 필요하다? 생성하는 모든 것들에 대해 부정할 건가요? 규제가 생기면 뭐가 생기죠? 규제가 생기면 반드시 이것에 대한 해결책이 생기고, 해결책이 생기면 계속해서 기술은 더 발전하게 돼 있어요, 규제를 가하면 가할수록.
물론 규제가 필요하긴 해요. 만약 페이크 뉴스가 99%의 세상을 장악하는 나라라면 리얼 월드와 가상 세계 중에서 가상 세계가 리얼 월드라고 생각하는 후손들이 있을 수도 있어요. 그러면 '이건 현실이고, 이건 가상이야'라는 것을 알려줘야 되고, 거기에 필요한 어떤 규제들도 있을 거예요. AI가 악용되는 것들을 최소화하고 선제적으로 막아야죠.
그러니까 규제라는 것을 분야별로 세그먼트(segment, 분할) 시켜서 이슈를 도출하고 거기에 필요한 생성형 AI가 어떤 기술이고, 적용했을 때 장점과 리스크는 무엇이고, 우리가 앞으로 준비해야 될 것들은 무엇인지 이런 걸 도출해야 되는 거죠. AI가 알아서 다 만들었다고 생각하지만, 사실은 사람이 어마어마하게 직접 개입해서 수정하고 만들어지고 있거든요. AI가 쉽게 우리 삶을 바꾸지 못해요. 그래서 저는 지금은 규제나 이런 고민을 하기보다는, 조금이라도 우리의 기술 수준을 빨리 높여 놓는 데에 집중하는 것이 맞지 않을까 생각합니다.
<이미지를 클릭하시면 크게 보실 수 있습니다> |
국내 기업 가운데 현재 자체 AI 모델을 갖고 있는 기업은 LG AI연구원과 네이버, 카카오 등 손에 꼽습니다. 온전히 자신만의 거대언어모델(Large Language Model)을 구축하는 것이 그만큼 쉽지 않다는 방증일 겁니다. 배경훈 원장은 자사 초거대 AI 모델의 연구개발 과정을 설명하면서 "챗GPT 발표하고 죽을 각오로 만들었어요", "올해 한 7개월 동안 거의 잠도 못 잤고요"라고 했습니다. 국가 산업적 측면에서 AI 생태계 확장을 고민하고, 기술 주도권을 선점해 한국의 미래 먹거리를 찾아내려는 기업들의 치열한 노력이 엿보였습니다. 지난 20년 간 반도체가 한국을 먹여 살렸다면, 앞으로의 20년은 어떠한 산업이 우리를 먹여 살릴까요? AI 시대 대체 불가능한 한국의 미래상을 머릿속에 그리며 인터뷰를 마무리했습니다. (글: 미래팀 이혜미 기자 param@sbs.co.kr)
** 이 기사는 매주 수요일 아침 발송되는 뉴스레터, 'SDF다이어리'에 먼저 소개됐습니다. 'SDF다이어리'는 SBS D포럼을 준비하는 SBS 보도본부 미래팀원들이 작성합니다. 우리 사회가 관심 가져야 할 화두를 앞서 들여다보고, 의미 있는 관점이나 시도를 전합니다. 한발 앞서 새로운 지식과 트렌드를 접하고 싶으신 분들은 SDF다이어리를 구독해주세요. ▶ '구독'을 원하시면 여기 클릭! |
미래팀 sdf@sbs.co.kr
▶ 네이버에서 SBS뉴스를 구독해주세요!
▶ 가장 확실한 SBS 제보 [클릭!]
* 제보하기: sbs8news@sbs.co.kr / 02-2113-6000 / 카카오톡 @SBS제보
Copyright ⓒ SBS. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.