[김현기 대표]
오픈AI가 최근 출시한 추론형 챗GPT 모델 'o3'와 'o4-미니'가 성능 면에서는 개선됐지만, 동시에 AI '환각' 발생률도 급격히 높아진 것으로 나타났습니다. 환각은 인공지능이 사실과 다른 내용을 진짜처럼 제시하는 오류를 의미합니다.
미국 IT전문매체 테크크런치는 지난 20일(현지시간) 오픈AI 자체 벤치마크 실험 결과를 인용해 두 모델 환각 반응률이 각각 33%, 48%에 달했다고 보도했습니다. 이는 이전 모델인 'o1(16%)'과 'o3-미니(14.8%)' 수치를 크게 웃도는 수치입니다. 기존 대비 2배 이상 증가한 결과입니다.
비슷한 시기에 발표된 비추론형 모델 'GPT-4o'와 비교해도, o3와 o4-미니의 환각률이 더 높았습니다. 이는 새 모델들이 복잡한 추론을 수행할 수 있는 능력은 갖췄지만, 그 과정에서 잘못된 정보 생성 위험도 함께 커졌다는 뜻으로 풀이됩니다.
/사진=디디다 컴퍼니 제공 |
오픈AI가 최근 출시한 추론형 챗GPT 모델 'o3'와 'o4-미니'가 성능 면에서는 개선됐지만, 동시에 AI '환각' 발생률도 급격히 높아진 것으로 나타났습니다. 환각은 인공지능이 사실과 다른 내용을 진짜처럼 제시하는 오류를 의미합니다.
미국 IT전문매체 테크크런치는 지난 20일(현지시간) 오픈AI 자체 벤치마크 실험 결과를 인용해 두 모델 환각 반응률이 각각 33%, 48%에 달했다고 보도했습니다. 이는 이전 모델인 'o1(16%)'과 'o3-미니(14.8%)' 수치를 크게 웃도는 수치입니다. 기존 대비 2배 이상 증가한 결과입니다.
비슷한 시기에 발표된 비추론형 모델 'GPT-4o'와 비교해도, o3와 o4-미니의 환각률이 더 높았습니다. 이는 새 모델들이 복잡한 추론을 수행할 수 있는 능력은 갖췄지만, 그 과정에서 잘못된 정보 생성 위험도 함께 커졌다는 뜻으로 풀이됩니다.
두 모델은 특히 수학, 코딩, 과학 문제 해결 능력에서 높은 평가를 받았습니다. 대학 수준의 멀티모달 테스트에서는 각각 82.9%, 81.6%의 정답률을 보였고, SWE 코딩 벤치마크 테스트에서도 o3가 69.1%, o4-미니가 68.1%를 기록했습니다. 이는 경쟁 모델인 '클로드 3.7 소넷(62.3%)'보다도 앞선 수치입니다.
그러나 AI 활용도는 단순한 정답률 수치 이상을 요구합니다. AI가 정답을 내는 동시에 왜곡 없이 신뢰 가능한 정보를 제공해야 하기 때문입니다. 비영리 AI연구소 트랜슬루스는 o3가 답변 과정에서 계산 결과나 정보를 조작한 정황도 발견했다고 밝혔습니다.
연구소의 공동창립자인 사라 슈웨트만은 "성능은 뛰어나지만 환각률이 높아 실사용에서 오히려 유용성이 떨어질 수 있다"고 지적했습니다.
현재 오픈AI는 환각률 상승의 정확한 원인에 대해 공식적인 해명을 내놓지 않은 상태입니다. 생성형 인공지능의 신뢰성 향상을 위한 추가적인 분석과 연구가 필요하다는 지적이 나오는 가운데, 향후 개선 방향이 궁금합니다.
자료=미디어뱀부
정리=김현기 기자 khk@techm.kr
<저작권자 Copyright ⓒ 테크M 무단전재 및 재배포 금지>
