컨텐츠로 건너뛰기
검색
파이낸셜뉴스 언론사 이미지

AI '요약', 믿지 마세요…"요약한 과학 논문, 일반화된 편향 많아" [글로벌 IT슈]

파이낸셜뉴스 서윤경
원문보기

AI '요약', 믿지 마세요…"요약한 과학 논문, 일반화된 편향 많아" [글로벌 IT슈]

서울흐림 / 22.5 °
연구팀 "챗GPT·딥시크 등 챗봇 10개, 70% 이상 부정확한 결론 도출"
편향 줄이려면…창의성 낮게 조절하고 간접적인 과거 시제 사용 요청


/사진=연합뉴스

/사진=연합뉴스


[파이낸셜뉴스] 인공지능(AI) 이용자들이 많이 사용하는 기능 중 하나인 '요약'이 사실은 오류가 많다는 사실이 연구로 확인됐다. 챗GPT, 딥시크 등 유명 AI 챗봇의 과학 논문 요약을 분석해 보니 최대 70% 이상에서 과도한 편향이 발생한 것으로 조사됐다.

네덜란드 위트레흐트대 우베 페터스 박사와 캐나다 웨스턴대 및 영국 케임브리지대 벤저민 친이 교수팀은 14일 거대언어모델(LLM) 기반의 유명 AI 챗봇 10개가 생성한 과학 요약문을 분석해 그 결과를 발표했다.

발표된 내용을 보면 최대 73%에서 과도한 일반화로 부정확한 결론이 도출되는 걸 확인했다.

연구팀은 "대부분 AI 모델이 원문보다 더 포괄적인 결론을 일관되게 생성하는 것으로 밝혀졌다. 여기서 놀라운 건 정확성을 요구하는 프롬프트가 문제를 더 악화시키고, 최신 모델이 구형 모델보다 성능이 더 나쁘다는 사실"이라고 말했다.

연구팀은 챗GPT-4o와 챗GPT-4.5, 딥시크, 라마 3.3 70B, 클로드 3.7 소네트 등 챗봇 10개가 '네이처(Nature)', '사이언스(Science)', '랜싯(Lancet)' 등 과학·의학 저널에 게재된 초록과 논문 전문을 얼마나 정확히 요약하는지 평가했다.

그리고 4900개의 LLM 생성 요약문을 분석해 10개 AI 모델 중 6개가 원문 주장에 대해 체계적인 과장 현상을 보였다는 결론을 도출했다.


미묘한 차이를 통해 독자에게 영향을 줄 수 있는 방식으로 일어난 점도 확인했다. 가령 '이 연구에서 치료법은 효과적이었다'라는 신중한 과거 시제 표현을 AI는 '이 치료는 효과적이다'와 같이 확신에 찬 현재 시제로 바꾸는 식이다.

연구팀은 특히 이들 AI 모델이 더 정확한 요약을 요구할 경우 일반화 편향이 오히려 더 커지고 최신 모델이 구형 모델보다 성능이 더 나쁜 것으로 나타난 점 등을 문제라고 지적했다.

페터스 박사는 "학생, 연구자, 정책 결정자들은 챗GPT에 부정확성을 피하라고 요청하면 더 신뢰할 수 있는 요약을 얻을 수 있을 것이라 기대했을 것"이라며 "하지만 기대와 달리 결과는 정반대였다"고 우려했다.


연구팀은 AI의 과도한 일반화 편향을 줄이려면 챗봇의 창의성을 조절하는 변수인 온도(temperature)를 낮게 설정하는 동시에 AI에 요청할 때 반드시 간접적인 과거 시제를 사용해 요약문을 생성하도록 지시할 필요가 있다고 요청했다.
#AI #챗GPT #요약 #딥시크

y27k@fnnews.com 서윤경 기자

Copyrightⓒ 파이낸셜뉴스. 무단전재 및 재배포 금지.