생성형 AI, 스스로 학습하는 법을 배우다…LLM 훈련의 새로운 패러다임 : zum 뉴스

[AI리포터]

LLM [사진: 셔터스톡]

[디지털투데이 AI리포터] 생성형 인공지능(AI)의 훈련 방식이 바뀌며, 대규모언어모델(LLM)의 능력이 급격히 향상되고 있다.

7일(현지시간) IT매체 아스테크니카는 AI 훈련의 핵심이 된 강화학습(RL)이 LLM의 성능을 어떻게 끌어올렸는지 분석했다.

매체에 따르면 지난 2023년 GPT-4 출시 직후 등장한 인공일반지능(AGI) 초기 단계인 'BabyAGI'와 언어 예측 모델 'AutoGPT'는 LLM을 활용해 복잡한 문제를 해결하려 했지만, 반복적인 실수로 기대에 미치지 못했다. 인간 데이터를 모방하는 '모방학습'에 의존한 초기 LLM은 반복적인 실수를 유발했고, GPT-4 기반 챗봇이 대화가 길어질수록 비정상적인 응답을 한 것도 이러한 한계 때문이었다.

이후 AI 업계는 훈련 전략을 전환하며 더 강력한 모델을 개발하기 시작했다. AI 모델이 스스로 학습할 수 있도록 RL을 도입한 것이다. 구글 딥마인드, 앤트로픽, 오픈AI는 RL을 활용해 모델이 오류를 수정하고 복잡한 문제를 해결하는 능력을 키웠다.

특히, 중국 딥시크의 R1 모델은 RL을 통해 수백~수천 개의 토큰을 사용해 문제를 해결하는 사고 과정을 스스로 발전시켰다. 이는 단순히 데이터를 모방하는 단계를 넘어 AI가 스스로 학습하는 새로운 패러다임을 보여준다.

RL은 AI 모델은 반복적인 실수를 통해 학습하고, 점점 더 복잡한 문제를 해결할 수 있도록 돕는 핵심 기술로 자리 잡았다. 오픈AI의 o1 모델은 RL을 통해 단계별 사고를 강화하며 이전보다 훨씬 긴 생각의 사슬(Chain-of-Thought) 기법을 활용해 정확한 답변을 생성한다. 이는 AI가 스스로 사고하고 학습하는 방향으로 나아가는 중요한 진전을 의미한다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.