최근 기자가 LG AI연구원이 있는 서울 강서구 마곡동 LG사이언스파크를 찾았을 때, 연구동은 서울 강남 코엑스 전시장에 들어선 것처럼 인파들로 붐볐다. 임직원, 협력사, 스타트업, 지역 주민이 참여하는 3주간의 문화·혁신·예술 축제인 ‘LG 스파크 2024′가 한창이었다. 올해 스파크 행사에선 처음으로 계열사 R&D 구성원이 한자리에 모여 연구 현황을 공유하고 난제 해결을 위해 머리를 맞대는 자리도 있었다.
이진식 LG AI연구원 엑사원 랩장(왼쪽)과 최정규 LG AI연구원 랭기지 랩장/ LG AI연구원 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
세계 대전을 방불케 하는 AI 전쟁에서 LG 엑사원이 만든 ‘해자(垓子· 성 주위에 파놓은 물길)’는 무엇일까. 기술 업계에선 해자가 경쟁자가 감히 넘볼 수 없는 방어벽을 뜻한다. LG AI연구원의 최정규 랭기지 랩장과 이진식 엑사원 랩장을 만나 이 부분을 집중적으로 물었다. 다음은 일문일답.
― LG 스파크 2024 중 열린 ‘DX(디지털 트랜스포메이션) 페어’의 규모를 보고 놀랐다. LG화학·LG디스플레이·LG유플러스 등 LG 주요 계열사들이 32개 부스를 차리고 환율 예측부터 특허 검색 까지 AI 활용 사례를 공유하더라. LG AI연구원 원장이 콘퍼런스의 기조연설을 맡은 것도 눈길을 끈다.
최정규 “엑사원 3.0을 공개한 지금, LG AI연구원의 최우선 목표는 28만명에 달하는 LG 임직원들이 ‘엑사원’을 많이 쓰는 것이다. ‘챗GPT’와는 비교할 수 없는 수준으로 말이다. 지난 7월부터는 대화형 AI ‘챗엑사원(ChatEXAONE)’도 임직원을 대상으로 베타 서비스 중이다. 간단한 명령어로 산업 데이터를 분석·처리하고 각종 업무 노하우를 얻을 수 있어 반응이 좋다. 첫 질의를 하면 추가 질의도 추천해주는 기능도 있다.”
― 임직원들이 엑사원을 쓰는 게 왜 중요하나.
최정규 = “현재 엑사원을 쓰는 임직원 비중이 1~2% 수준인데도 엄청난 일이 벌어지고 있다. LG전자는 엑사원에 다량의 보고서를 올려 시장 분석과 대응 전략의 초안을 도출한다. LG디스플레이는 엑사원에 사내 전문 문서를 추가 학습시켰는데, 차세대 디스플레이를 개발하는 연구원들이 거의 매일 엑사원에 접속하고 있다. 카메라 모듈 등 각종 부품을 생산하는 LG이노텍은 엑사원에 비전(vision) 기술을 더해 불량품 선별을 일사천리로 해낸다. 기존엔 숙련된 인력 수백 명이 하던 일이었다.”
이진식 = “각 계열사에는 30~40년 동안 축적된 전문 지식과 개발 노하우 데이터가 있다. 세계 최고 수준의 산업 데이터와 엑사원을 연결하면, 신제품 개발과 사업 기회 포착 등이 가능해진다. 연구원은 산업 전문가 AI 개발을 목표로 초기부터 RAG(검색증강생성)에 많이 투자해 왔다. AI 모델이 답변을 생성할 때 특정 데이터베이스에서 관련 정보를 검색해 이를 반영하는 기술인데, 할루시네이션(Hallucination·AI가 만든 정보에 허위 정보가 포함되는 환각 현상)을 줄여 답변의 신뢰도를 높인다.”
LG가 8월 26일부터 3주간 서울 강서구 LG사이언스파크에서 LG 스파크 행사를 개최했다. 사진은 LG 스파크 행사장 전경. /LG |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
― 2021년 내놓은 엑사원 1.0은 파라미터(변수)가 약 3000억 개였고 엑사원 3.0의 파라미터 수는 78억 개 수준이다. 3년 전과 비교하면 AI 모델 크기가 오히려 38분의 1로 줄었다.
이진식 = “AI 모델이라는 게 엄청나게 큰 계산식을 슈퍼컴퓨터로 처리하는 거다. 모델이 커지면 성능이 대체로 좋아진다. 하지만, 운용 비용도 기하급수적으로 증가해 산업 현장에 적용하기는 어렵다. 엑사원 2.0 개발할 때부터 AI 모델 경량화에 역점을 뒀고 엑사원 3.0을 통해 성능과 경제성을 동시에 잡을 수 있다는 것을 보여줬다.”
LG AI연구원의 엑사원 3.0 기술 보고서에 따르면, 엑사원 3.0은 실제 사용성을 비롯해 코딩과 수학 영역 등 13개 벤치마크 점수 순위에서 1위를 차지했다. 엑사원 3.0은 이전 모델인 2.0보다 추론 처리 시간은 56%, 메모리 사용량은 35%, 구동 비용은 72% 절감했다.
― 경량화의 비결이 있나.
이진식 = “우선, 잘 정제된 데이터로 사전 학습을 해야 한다. LG AI 연구원은 2년 내내 양질의 데이터를 모으는 데 전념했다고 해도 과언이 아니다. 올해 말까지 법률·바이오·의료·교육·외국어 등 분야를 확장해 학습 데이터 양을 1억 건 이상으로 늘릴 계획이다.
사전 학습도 여러 단계로 나눠 진행했다. 일반 지식을 먼저 학습시킨 다음, 전문 지식을 단계적으로 가르친다. 멀티 스테이지 프리 트레이닝(Multi-stage pretraining) 기법으로 학습하면, 비용 효율적으로 학습할 수 있다. 메타가 공개한 라마(LLaMA) 3.1 모델의 파라미터는 약 80억 개로 엑사원 3.0과 유사하지만, 사전 학습량은 엑사원의 약 두 배인 15조 토큰이 넘었다.”
최정규 = “멀티 스테이지 프리 트레이닝은 대학생들이 공통 교양 과목을 배운 후 심화 전공 과목을 선택해 수강하는 것과 같다. 비유적으로 설명하기는 쉽지만, 실제로 기계(컴퓨터)한테 가르치긴 어렵다. 예전에 학습한 것을 잊기도 하고 편향된 답변을 내놓기도 한다. 학습용 데이터 수집 등 AI 모델 개발에 필요한 인간의 수작업과 편향성도 줄이려고 노력 중이다.”
오픈 소스 AI 모델 비교 /LG AI연구원 |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
― 국가 핵심 기술로 취급되는 LG화학, LG디스플레이 등의 데이터를 다루는 일은 매우 민감한 작업이다.
최정규 = “국가 전략 산업 분야의 경우 개별 기업들이 자체 AI를 구축해야 하는 이유다. 이는 곧 국가 경쟁력과도 연결되는 문제다. LG 그룹에서도 AI 모델의 추가 학습과 운영 등 데이터를 다루는 일은 계열사에서 자체적으로 한다. 연구원은 AI 학습 노하우를 공유하고 운용을 돕는다.”
― 엑사원 3.0의 사업화에도 시동을 걸었는데.
이진식 = “엑사원 3.0의 첫 승부처는 온디바이스 AI(On-Device AI·인터넷 연결 없이 기기 자체에서 실행되는 AI)가 될 것이다. 클라우드 기반으로 작동하는 AI와 비교하면, 온디바이스 AI는 비용 절감, 개인화, 데이터 보안이라는 장점이 있다.”
최정규 = “LG 전자가 만드는 노트북, TV 등에 AI를 탑재할 수 있고, 산업별로 특화한 온디바이스 AI를 제공할 수도 있다. 올 연말부터 적용 사례가 나온다. 엑사원 3.0의 소스 코드를 공개한 후 중소 기업과 외국계 기업에서 사업 제휴를 먼저 제안하기도 한다. 공개한 소스 코드를 상업적으로 활용하려면 별도의 라이선스 비용을 지불해야 한다.”
― LG AI연구원에서 근무하는 연구원들의 배경이 다양하더라.
이진식 = “컴퓨터 공학뿐만 아니라 언어학, 뇌공학, 초끈이론, 북한학, 법학, ASMR(소리로 심리적 안정을 유도하는 영상) 전공자도 있다. 직급이나 직책에 관계없이 모두가 ‘님’으로 소통한다. 연봉도 성과와 역량에 따라 받는다. 국내 대기업 중 AI 전담 연구 조직을 꾸린 곳은 LG가 거의 유일하다. 대형 AI 모델을 다뤄보며 연구할 기회와 젊고 역동적인 문화 덕분에 AI 인재들이 선호하는 근무처라 자부한다.”
― AI 개발 거품론도 일고 있다. 막대한 투자에 비해 수익이 저조한 탓이다.
최정규 = “2019년 AI 연구원 추진단 규모는 30명 수준이었다. 2020년 연구원 출범 당시엔 70여 명이었는데, 이제 연구원 인력이 300명이 넘는다. 우리 연구원이 계속 규모를 늘릴 수 있는 이유는 비용 절감, 생산성 향상 등을 ‘숫자’로 보여주기 때문이다.”
― 두 사람의 가장 중요한 일상을 소개한다면.
이진식 = “매일 아침 눈을 뜨면 단체 채팅방, 소셜미디어, 블로그 등에서 새롭게 공개된 AI 모델이나 방법론이 있는지부터 확인한다. AI 분야는 기술 발전이 매우 빠르기 때문에 최신 기술 트렌드를 파악하고 이에 맞춰 대응하는 것이 여전히 중요하다.”
최정규 = “정부의 AI 정책 세미나에 적극 참여해 LG AI 연구원의 기술력을 알리는 일이다. 국가 AI 경쟁력 강화를 위한 정책 수립에도 아이디어를 보탠다. 최근엔 국립국어원의 한국어 말뭉치 구축 사업에도 자문하고 있다.”
최근 삼성, SK, 네이버, 카카오, KT 등 주요 IT 기업의 인력들이 LG AI연구원에 모여 들고 있다. LG가 ‘AI 진지(陣地)’ 구축에는 일단 성공한 것이다. LG라는 거함이 AI라는 새 목표로 정렬할 수 있었던 데는 2018년 ‘구광모 호’ 출범이라는 조직 쇄신 기회가 있었기 때문이다. LG AI연구원 출범식은 2020년 코로나 와중에 온라인으로 열렸다.
LG가 구축한 AI 진지가 최후의 방어선이 아닌, 새로운 공격 거점이 될까. LG는 고삐를 더 세게 당겼다. AI를 차세대 먹거리로 점찍고 2027년까지 AI·데이터 분야 R&D에 총 3조 6000억 원을 투입하기로 했다.
류현정 기자 (dreamshot@chosunbiz.com)
<저작권자 ⓒ ChosunBiz.com, 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.