컨텐츠 바로가기

03.26 (수)

'이미지 전문' 미드저니, 창의적 글쓰기를 위한 LLM 훈련법 공개

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

이미지 생성 모델로 유명한 미드저니가 대형언어모델(LLM)이 창의적으로 글을 작성하도록 훈련하는 방법을 공개했다. 이번 발표를 통해 비주얼 분야를 넘어서 다양한 영역으로의 확장을 목표로 하고 있다는 것을 보여줬다.

미드저니는 24일(현지시간) LLM의 창의적 글쓰기를 위한 사후 훈련(post-training) 방법에 관한 논문을 온라인 아카이브에 게재했다.

일반적으로 창의적 글쓰기는 정답이 존재하지 않으며, 따라서 이를 수행하는 AI 모델은 폭넓은 표현과 다양한 스타일을 생성할 수 있어야 한다. 하지만 기존 LLM의 사후 훈련 과정은 주로 응답 품질 향상에 초점을 맞추고 있어, 생성되는 문장의 다양성을 확보하는 데는 한계가 있었다.

이에 따라 미드저니 연구팀은 창의적 글쓰기에서 품질과 다양성을 동시에 높일 수 있는 새로운 훈련 방식을 제안했다.

이 방법의 핵심은 '편차(deviation)' 개념을 훈련 과정에 반영하는 것이다. 동일한 프롬프트를 가진 여러 샘플 간의 차이를 측정, 상대적으로 희귀하지만 높은 품질을 가진 샘플에서 집중적으로 학습할 수 있도록 설계했다.

이를 기반으로, 기존의 '직접 선호 최적화(DPO)' 및 '승산비 선호 최적화(ORPO)' 기법을 확장해 '다변화된 DPO(DDPO)' 및 '다변화된 ORPO(DORPO)'라는 방법을 개발했다.

DPO는 '인간 프드백 강화 학습(RLHF)' 없이 선호 데이터를 직접 활용해 모델을 학습하는 방식이다. ORPO는 DPO와 유사하지만, 특정 응답이 더 선호되는 정도를 확률적으로 비교해 모델을 최적화하는 방법으로, 계산량이 적고 학습이 더 효율적이다.

DDPO와 DORPO는 이처럼 기존 방법에 편차 개념을 도입해 응답의 다양성을 강화하는 방식이다.

이를 통해 AI가 생성하는 글이 반복적이고 단조로워지는 것을 방지하고, 인간 작가처럼 다양한 캐릭터와 배경, 주제 등을 다룰 수 있도록 한다.

AI타임스

연구진은 '라마-3.1-8B'와 '미스트랄-7B-v0.3'를 기반으로 'r/writingPrompts' 서브레딧에서 수집한 데이터를 활용해 '지도 미세 조정(SFT)' 방식으로 추가 훈련을 진행했다.

이어 선호 최적화 단계에서 기존의 DPO와 ORPO을 적용한 뒤 출력 다양성을 향상하기 위해 DDPO와 DORPO를 도입, 편차 기반 가중치를 적용했다.

모델 성능 평가는 의미와 스타일의 다양성을 측정하는 자동 평가와 출력물이 'GPT-4o'나 '클로드 3.5'에 비해 얼마나 다양한 표현과 흥미로운 내용을 담고 있는지를 분석하는 인간 평가를 통해 이뤄졌다.

AI타임스

그 결과, DDPO와 DORPO를 적용한 모델은 문장의 의미 및 스타일 다양성이 향상되면서도 글쓰기 품질 저하를 최소화하는 것으로 나타났다.

DDPO 및 DORPO 기반 모델은 GPT-4o와 클로드 3.5 소네트, '딥시크-R1' 등 기존 명령어 튜닝(instruction-tuned) 모델보다 높은 다양성을 보였다.

특히, DDPO 기반 라마-3.1-8B 모델은 기존 최고 품질의 모델과 유사한 수준의 글쓰기 품질을 유지하면서 인간이 생성한 데이터셋과 비슷한 수준의 창의적 다양성을 보여줬다는 평가다.

인간 평가에서도 DDPO 모델은 기존 DPO 및 GPT-4o 대비 출력 품질을 유지하면서 더 다양한 결과를 생성할 수 있다고 밝혔다.

또 연구진은 프롬프트당 훈련 샘플 수를 조정하는 실험을 진행, 샘플 수가 극히 적은 경우를 제외하고는 다변화된 접근 방식이 기존 방법과 유사한 품질을 유지하면서도 출력 다양성을 효과적으로 증가시킬 수 있음을 확인했다고 강조했다.

한편, 이번 연구는 미드저니가 본격 확장에 나섰다는 것을 의미한다는 평이다. 이 회사는 지난해 8월에는 하드웨어 분야로의 진출을 선언한 바 있다.

미드저니의 디스코드 채널 사용자는 약 200만명에 달하며, 웹사이트 사용자 수는 그보다 더 많은 것으로 알려져 있다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.