컨텐츠 바로가기

05.06 (월)

오픈AI, 정밀한 언어모델 'GPT-3' 공개..."1,750억개 파라미터"

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다

IT NEWS

<이미지를 클릭하시면 크게 보실 수 있습니다>


인공지능을 연구하는 비영리 단체 오픈AI(Open AI)가 인간이 쓴 글로 착각할 정도로 정밀한 문장을 생성할 수 있는 언어모델 ‘GPT-3’을 공개됐다.

논문에 따르면 GPT-2 업데이트 버전인 GPT-3을 이용해 작성한 뉴스기사가 인간이 쓴 것과 구별되지 않을 정도로 매우 고급 문장을 자동 생성했다고 밝혔다.

'GPT-2'가 공개된 2019년 당시 뛰어난 성능으로 인해 위험하다는 이유로 논문 발표가 연기되는 사태로까지 이어졌다. 2019년 2월과 5월, 8월 순으로 매개변수(파라미터)를 늘린 모델이 공개됐다. 당시 최종 공개된 GPT-2 매개변수는 15억 개였지만 새로운 버전 GPT-3은 1,750억 개 파라미터다.

GPT-3은 아카이브(arXiv) 학술플랫폼에 논문명 ‘몇 번만 학습하면 되는 언어모델(Language Models are Few-Shot Learners)’으로 5월 28일 공개됐다. 또한 GPT-3 오픈 소스도 깃허브(GitHub)에 공개했다.

IT NEWS

<이미지를 클릭하시면 크게 보실 수 있습니다>


GPT-2는 인간이 쓴 첫 문장에 이어서 AI가 자동으로 다음 문장을 이어서 써준다. 즉 GPT2는 오토리그레시브(AutoRegressive, AR) 모델로 이전 문장을 바탕으로 다음 단어를 예측하는 순차 학습 방법이다.

그렇다고 GPT-2가 만능은 아니다. 바로 문맥을 양방향으로 볼 수 없다는 단점이 있다. 반면 같은 언어 모델로 분류되는 엘모(Embedding for Language Model, ELMO) 경우 양방향 모두 학습한다.

2018년 10월에 공개된 구글 AI 언어모델 버트(BERT) 경우도 오토인코딩(AutoEncoding, AE) 모델이다. 입력값을 복원하는 기법으로 노이즈 문장(마스킹)을 원래대로 복원하는 과정을 통해 학습한다. 마스킹 처리가 된 단어가 실제로 어떤 단어인지 맞추는데 역점을 둔 방법이다.

하지만 버트(BERT) 역시 토큰들이 독립적이라고 가정하기 때문에 마스킹 토큰들 사이에 의존관계를 따지지 못하는 단점이 있다. 따라서 긴 문장을 학습하기에 어렵다는 것이다.

물론 현재는 이러한 단점을 뛰어넘기 위해 더 큰 모델과 학습 데이터를 이용하는 XLNet, RoBERTa 연구가 진행되고 있다. 또 모델을 경량화하는 ALBERT, Knowledge distillation 연구도 활발하게 진행되고 있다.

최근 사람의 언어를 컴퓨터가 이해하는 기술인 자연어 처리(NLP)는 AI 기술 중에서도 가장 뜨거운 분야다. 현재 한국어 자연어 처리는 영어권보다 많이 뒤떨어진 상황이다. 결국 누가 새로운 기술로 주도권을 잡을지 관련 국내 업계가 주목하고 있다.

김들풀 기자 itnews@


기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.