맞춤형 데이터셋으로 성능 향상 가능
샘 올트먼 오픈AI CEO.매경DB |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
오픈AI는 차세대 언어모델인 GPT-4o의 파인튜닝(미세조정) 기능을 모든 개발자들에게 제공한다고 21일 발표했다. 맞춤형 데이터셋을 사용해 GPT-4o 모델의 성능을 향상시킬 수 있다. 또 오는 23일까지 매일 100만 개의 훈련 토큰을 무료로 제공받을 수 있다.
AI 파인튜닝(fine-tuning)은 응답 구조와 톤을 커스터마이징하거나 복잡한 도메인별 지침을 따르게 하는 데 유용한 기능이다. 적은 데이터만으로도 우수한 결과를 낼 수 있으며, 이를 통해 코드 작성부터 문장 창작 작업에 이르기까지 다양한 분야에서 성능을 크게 향상시킬 수 있다.
다만 파인튜닝 비용이 있다. GPT-4o-2024-08-06 모델 기반으로 훈련할 경우, 파인튜닝 학습 비용은 백만 토큰당 25달러, 추론 비용은 입력의 경우 백만 토큰당 3.75달러, 출력의 경우 백만 토큰당 15달러다. GPT-4o 미니 모델 역시 미세조정이 가능하다. 이번 미세조정 기능을 활용한 사례로는 코사인(Cosine)의 지니(Genie)가 SWE-bench 벤치마크에서 43.8%라는 SOTA(State of the Art)를 달성했다.
현재 AI를 도입하는 B2B기업은 메타의 라마를 주로 활용하고 있다. 파인튜닝은 특정 작업이나 목적에 맞게 사전 훈련된 AI 모델을 미세하게 조정하는 과정이다. 이를 통해 AI 모델은 더 특화된 성능을 발휘할 수 있다. 개발자는 코드 작성, 텍스트 생성, 고객 서비스 등 다양한 분야에 맞춘 모델을 만들 수 있다.
다만 오픈AI와 메타의 전략은 다소 차이가 있다.
오픈AI의 GPT-4o는 상업적 용도로 제공되며, 미세조정 훈련 비용으로 백만 토큰당 25달러를 책정하고 있다. 반면, 라마3는 메타의 오픈소스 전략에 따라 무료로 제공된다. 접근 방식에서도 차이가 나타난다. GPT-4o는 유료 사용자들을 대상으로 한 상업적 서비스를 제공하며, 안정적인 비즈니스 활용에 중점을 두고 있다. 반면, 라마3는 오픈소스 커뮤니티에 중점을 두고 있어, 사용자들이 모델을 자유롭게 수정하고 배포할 수 있는 유연성을 제공한다.
학습 데이터도 다르다. GPT-4o는 소수 예시 데이터만으로도 강력한 성능을 발휘할 수 있도록 최적화돼 있으며, 특히 코딩이나 복잡한 기술 작업에서 우수한 성능을 보일 수 있다. 반면, 라마3는 메타의 연구 개발 성과를 바탕으로 대규모 데이터셋을 활용한 학습에서 강점을 보일 가능성이 있다. 라마3는 오픈소스 커뮤니티의 강력한 지원을 받을 가능성이 높으며, 이를 통해 빠르게 확장될 수 있는 생태계를 구축할 수 있다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.