컨텐츠 바로가기

11.20 (수)

“올해 문제 쉽네요”…챗GPT가 수능 국어 봤더니, 놀라운 성적이

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
매일경제

챗GPT 로고 [로이터 = 연합뉴스]


인공지능(AI) 추론능력이 날로 개선되면서 수능 국어 영역 1등급을 받는 수준까지 올라섰다.

19일 거대언어모델(LLM)의 수능 국어 역량을 평가하는 ‘수능 국어 LLM 리더보드’에 따르면 올해 9월 출시된 오픈AI의 챗GPT o1-프리뷰 모델이 2025년도 수능 국어 영역에서 원점수 97점으로 1등급 권에 안착했다. 올해 수능 국어 영역에서 단 1문제만 틀리고 모두 맞춘 셈이다. 선택 과목은 ‘화법과 작문’으로, 해당 과목의 추정 등급 컷은 93~95점 수준이다.

복잡한 추론이 필요한 수능 국어에서 기존 AI는 3~9등급 사이 점수를 받으며 고전해 왔는데, 최근 AI의 추론 능력이 비약적으로 발전하면서 o1-프리뷰 모델이 고득점 획득에 성공한 것이다. 챗GPT 기존 모델인 GPT-4o (2024년 5월 출시)모델는 지난해와 올해 수능에서 모두 중위권 학생 수준인 4등급을 기록했다.

이번 테스트는 국내 AI 연구기업 마커AI에서 진행한 프로젝트다. 10년분의 수능 국어 시험을 대상으로 주요 LLM의 성능을 평가하는 것이 목적이다. 마커AI 소속 개발자는 블로그를 통해 “2025년도 수능에서 기록한 97점이라는 점수는 LLM의 한국어 언어 능력이 인간을 뛰어넘을 시기가 멀지 않았음을 보여준다”고 평했다.

매일경제

<이미지를 클릭하시면 크게 보실 수 있습니다>


2025년도 수능 국어 문제 중 일부를 이전 모델인 GPT-4o와 새로운 모델인 o1-프리뷰에 넣고 성능을 직접 비교해봤다.

서양 과학 및 기술 수용에 관한 다양한 관점을 다룬 비문학 지문을 두고 학자들의 엇갈린 반응을 살펴보는 7번 문제의 경우 최신 모델인 o1-프리뷰는 맞췄지만 GPT-4o는 오답을 낸 문제 중 하나다.

두 모델에 지문을 맡기자 o1-프리뷰는 ‘서양 과학의 유입’, ‘역사적 변화’, ‘서양 과학을 받아들이다’ 등 스스로 주요 키워드를 뽑아가며 지문을 먼저 해석한 후 답변을 도출했다. GPT-4o의 경우 이러한 과정을 건너뛰고 바로 답변을 도출했는데, 같은 묶음의 다른 문제들은 맞췄지만 지문을 비교해야 하는 문제엔 어려움을 겪은 것으로 보인다.

문학 영역 26번도 o1-프리뷰만 정답을 도출한 문제다. 이 문제는 장석남 ‘배를 밀며’, 허수경 ‘혼자 가는 먼 집’, 이광호 ‘이젠 되도록 편지 안 드리겠습니다’가 지문으로 나왔다. 주어진 지문 여러 개를 모두 읽고 비교 분석해야 하는 문제로 유형 자체는 7번과 유사하다.

국어 교사 출신인 이만기 유웨이 교육평가연구소장은 “7번과 26번 모두 주어진 지문에서 두 군데를 표시해두고 정확한 이해를 했는지 서로 비교하며 물어보는 비슷한 유형”이라며 “전반적으로 읽고 분석해야 하는 정보의 양이 많은 문제로 지문을 세부적으로 이해하는데 어려움을 겪을 수 있다”고 평가했다.

모의고사 출제 경험이 많은 김현진 종로학원 국어 책임연구원 역시 정보량이 많은 문제라는 의견에 동의했다. 그는 “지문 분량이 길거나 지엽적인 부분을 찾아봐야 해서 문제를 푸는데 시간이 걸릴 수 있는 문제로 보인다”고 말했다.

비교 모델인 GPT-4o 또한 올해 출시된 모델이지만, 이처럼 큰 격차를 보인 것은 o1-프리뷰 모델이 단계적인 사고 과정을 통해 복잡한 문제를 해결하는 데 특화돼 있기 때문이다. 복잡한 수능 지문을 읽고 이에 딸린 3~5개의 문제를 빈틈없이 풀어낼 수 있었던 이유다.

다만 답변을 제공하기까지 걸리는 시간은 o1-프리뷰 모델은 더 길었다. (가)~(다)의 지문을 읽고 22~27번까지 총 6개의 문제를 풀어야 하는 과제를 주자, 약 1분 10초의 시간이 걸리기도 했다.

오픈AI는 o1-프리뷰 모델 출시 당시 “사람처럼 문제를 해결하기 전에 더 많은 시간을 생각하도록 훈련시켰다”라고 설명했다. 시간을 더 많이 들이되 추론 과정을 꼼꼼히 하는 데에 주안점을 뒀다는 설명이다. 물론 실제 사람이 푸는 속도보다는 훨씬 빠르다.

한 AI 개발자는 이번 챗GPT의 수능 결과에 대해 “GPT 성능이 많이 좋아진 것을 체감하고 있는데, 이를 수치로 확인하니 흥미롭다”며 “다만 o1 모델의 경우 추론 속도가 느리고 비용이 높아 대규모 작업에는 적합하지 않을 것”라고 말했다.

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.