[이한영 기자] 대충 설명만 입력해도 이전보다 훨씬 참신하고 유용한 이미지가 생성되는 시대가 열리고 있다.
기존에 학습된 AI 이미지 생성 모델이 스스로 '창의적인' 결과물을 낼 수 있도록 만드는 기술이 국내 연구진에 의해 개발됐다.
KAIST 김재철AI대학원 최재식 교수 연구팀이 네이버 AI Lab과 공동으로, 별도 학습이나 파인튜닝 없이도 텍스트 기반 이미지 생성 모델의 창의성을 강화할 수 있는 새로운 알고리즘을 개발했다고 19일 밝혔다.
기존에 학습된 AI 이미지 생성 모델이 스스로 '창의적인' 결과물을 낼 수 있도록 만드는 기술이 국내 연구진에 의해 개발됐다.
개발팀에서 연구한 방법론의 적용 사례 |
KAIST 김재철AI대학원 최재식 교수 연구팀이 네이버 AI Lab과 공동으로, 별도 학습이나 파인튜닝 없이도 텍스트 기반 이미지 생성 모델의 창의성을 강화할 수 있는 새로운 알고리즘을 개발했다고 19일 밝혔다.
연구팀은 스테이블 디퓨전(Stable Diffusion) 등 이미지 생성 모델의 내부 '특징 맵(feature map)'을 주파수 영역으로 변환한 뒤, 창의성에 영향을 주는 특정 주파수 성분을 선택적으로 증폭하는 방식으로 모델의 생성 결과를 향상시켰다.
개발팀에서 연구한 방법론 개요 |
특히 모델 내 '얕은 블록(shallow blocks)'의 낮은 주파수 성분을 조정함으로써, 이미지에 구조적 다양성과 시각적 창의성을 더할 수 있음을 입증했다.
기존에는 '창의적'이라는 단어를 텍스트로 입력하더라도, 생성 모델이 이를 효과적으로 반영하지 못하거나 지나치게 왜곡된 이미지를 출력하는 한계가 있었다. 그러나 이번 알고리즘은 내부 블록마다 '독창성'과 '유용성'이라는 두 핵심 요소를 균형 있게 고려해 최적의 증폭 비율을 자동 산출하고, 이를 통해 참신하면서도 실제 활용 가능한 이미지를 생성해 낸다.
공동 1 저자인 한지연·권다희 박사과정은 "이번 연구는 별도의 추가 학습 없이도 생성 모델 내부의 잠재된 창의성을 끌어내는 첫 시도"라며 "특징 맵 조작만으로도 텍스트만 입력하면 창의적인 이미지를 쉽게 만들어낼 수 있게 됐다"고 강조했다.
KAIST 김재철AI대학원 최재식 교수 |
연구팀은 해당 기술을 스테이블 디퓨전 XL(SDXL)·고속화 모델인 SDXL-Turbo에 적용해 실험을 진행했으며, 그 결과 이미지 다양성이 향상되고, 생성 속도 저하 없이도 참신성이 크게 증가하는 것을 확인했다. 사용자 평가에서도 "기존보다 훨씬 새로운 느낌의 이미지가 생성된다"는 긍정적인 반응이 이어졌다.
KAIST-네이버 초창의적 AI 연구센터와 과학기술정보통신부·정보통신기획평가원(IITP) 등이 공동 지원한 이번 연구는 AI 창작 기술의 실용적 전환점으로 평가된다. 나아가 제품 디자인, 예술 창작, 게임 콘텐츠 등 창의성이 요구되는 산업 현장에서 기존 모델보다 직관적으로 활용될 수 있는 가능성도 제시했다.
NAVER AI Lab 이가영 연구원, KAIST 김재철AI대학원 권다희 박사과정, KAIST 김재철AI대학원 한지연 박사과정 |
해당 연구는 인공지능 분야 최고 권위 학술대회 중 하나인 'CVPR 2024(국제 컴퓨터 비전·패턴인식 학술대회)'에서 지난 15일 발표됐다.
이번 연구는 KAIST-네이버 초창의적 AI 연구센터, 정보통신기획평가원(IITP)의 혁신성장동력사업, KAIST AI 대학원 프로그램, 방위사업청·국방과학연구소의 '미래 국방 인공지능 특화연구센터' 등의 지원을 받아 수행됐다. 연구진은 해당 기술을 기반으로 영상, 3D 모델, 애니메이션 등 다양한 콘텐츠 제작에도 적용 범위를 넓혀 나아갈 계획이다. /대전=이한영기자
<저작권자 Copyright ⓒ 충청일보 무단전재 및 재배포 금지>
