컨텐츠 바로가기

11.25 (월)

이슈 인공지능 시대가 열린다

"기계적 번역, AI 언어 모델 학습에 방해돼"…근거는?

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[AI리포터]
디지털투데이

잘못된 기계 번역이 인공지능(AI)의 언어 모델 학습에 방해를 일으킨다는 주장이 나왔다 [사진: 셔터스톡]

<이미지를 클릭하시면 크게 보실 수 있습니다>


[디지털투데이 AI리포터] 인터넷에서 수집된 대량의 잘못된 기계 번역 정보가 인공지능(AI)의 언어 모델 학습에 문제가 된다는 주장이 제기됐다.

26일(현지시간) 온라인 매체 기가진에 따르면 브라이언 톰슨 AWS AI랩 관계자가 기계 번역이 웹에 미치는 영향을 조사했다. 그 결과, 웹상 콘텐츠의 여러 언어가 기계 번역을 거칠 경우 품질이 저하되는 것으로 나타났다.

모두가 그런 것은 아니다. 영어와 같은 주요 언어는 인터넷상에 사람이 만든 콘텐츠, 즉 데이터가 많이 존재하기 때문에 스크래핑을 해도 품질이 낮은 데이터가 섞이는 비율이 낮다. 하지만 데이터가 적은 저자원 언어의 경우 기계 번역으로 생성된 콘텐츠가 해당 언어 콘텐츠의 대부분을 차지하게 된다.

또 언어 모델을 학습할 때 데이터 세트의 내용이 편향되지 않아야 하는데, 기계 번역으로 생성된 콘텐츠는 선택적 편향이 있는 것으로 추측된다. 이는 광고 수집을 목적으로 생성된 저품질의 콘텐츠를 기계 번역을 통해 여러 언어로 일괄적으로 번역했기 때문인 것으로 풀이된다.

연구자들은 "저품질 콘텐츠가 많아지면 해당 콘텐츠를 학습한 기계 번역에서 번역 정확도와 문장 유창성이 떨어진다"라며 "웹에서 수집한 단일 언어 데이터와 이중 언어 데이터로 대규모 다국어 언어 모델을 훈련시키는 것은 심각한 우려를 불러일으킨다"라며 심각성을 나타냈다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.