인공지능 화가 `달리2(DALL-E 2)`가 그린 페르메이르의 `진주 귀걸이를 한 소녀`의 모작. 가운데는 원본. |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
얀 페르메이르가 1665년 그린 '진주 귀걸이를 한 소녀'는 북유럽의 모나리자라고 불린다. 페르메이르 작품 중 유일하게 대상의 얼굴만을 클로즈업해 그린 작품이다. 레오나르도 다빈치가 안개에 싸인 듯 부드럽게 처리하는 대기원근법인 스푸마토 기법으로 모나리자를 그린 것과 닮았다고 해서 '북유럽의 모나리자'라는 별칭이 붙었다.
이런 명화를 직접 그릴 필요 없이 문장을 입력하는 것만으로 모작(模作)을 그릴 수 있는 시대가 오고 있다. 바로 시각적 세계를 해석하고 이해하도록 컴퓨터를 학습시키는 인공지능(AI)인 컴퓨터 비전의 발전이다. 인공지능을 개발하는 스타트업 오픈AI는 올해 초 달리2(DALL-E 2)라는 인공지능 엔진을 선보이고 수많은 '진주 귀걸이를 한 소녀' 모작을 쏟아내 주목받았다. 달리2는 텍스트로 지시어를 입력하는 것만으로 고품질 이미지를 생성해주는 이른바 이미지 생성기다. 사물의 고유명사뿐 아니라 동작이나 주제어 등을 입력해도 그림을 자유롭게 그릴 수 있는 것이 특징이다.
◆ 명령어만으로 그림을 그리다
인공지능 화가 `달리2(DALL-E 2)`가 그린 말을 탄 우주비행사. [사진 출처 = 게티이미지뱅크] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
샘 올트먼 오픈AI 최고경영자(CEO)는 "지금까지 만든 인공지능 중에서 그 과정이 가장 즐거웠다"며 "오랜만에 기술에서 느껴보지 못한 재미가 있었다"고 설명했다. 인공지능 엔진 이름은 애니메이션 영화 '월E(WALL-E)'와 초현실주의 화가 살바도르 달리에서 따왔다. 달리1은 2021년 처음 선보이며 주목을 끌었는데, 올해 더욱 업그레이드된 달리2로 변모했다.
오픈AI는 달리1을 통해 수많은 텍스트 이미지 전환 기술을 선보였다. 예를 들어 명령어 창에 '강아지를 산책시키는 아기 무를 그려달라'고 하면 해당 캐릭터가 되고, '아보카도 모양의 의자'라고 입력하면 아보카도에서 영감을 받은 수많은 의자를 디자인하는 식이다. 또 '검은 가죽 재킷과 금색 스커트'라고 입력하면 해당 패션 디자인을 척척 그려낸다. 이뿐만이 아니다. 수정도 자유롭다. '물속에서 트럼펫을 연주하는 테디베어'라고 입력해 그림을 확인했는데, 마음에 안 든다면 '물속에서 기타를 연주하는 테디베어'라고 입력해 수정이 가능하다.
달리2는 한 차원 더 업데이트됐다. 달리1이 어디에서 본 듯한 그림을 그린다면, 달리2는 매우 독창적이고 예술작품과 같은 그림을 생성해낸다. 오픈AI 홈페이지에 선보인 대표작품은 우주비행사다. '우주비행사가 말을 타고 달을 달리고 있다'는 문장만으로 마치 현대미술과 같은 작품을 얻어낼 수 있다.
또 다른 특징은 정교함이다. 달리2에서는 위치, 빛, 그림자, 질감 등을 명령어로 입력해 원하는 그림을 생성할 수 있다. '수채화 스타일로 우주에서 고양이와 농구를 하는 우주비행사'라고 입력하면 다양한 해당 그림이 생성된다. 또 왼쪽, 오른쪽, 상단, 하단 등과 같은 위치 표현으로 사용자가 원하는 그림을 보다 정확히 그려낸다. 오픈AI에 따르면 달리2는 달리1보다 약 4배 더 높은 해상도로 그림을 그린다. 또 사용자를 대상으로 설문조사한 결과 달리2가 그린 그림이 더 사실적이라고 답변한 응답자 비중이 88.8%에 달했다.
◆ 무궁무진한 사용처…구글·LG·카카오 경쟁
물론 인공지능이기 때문에 편향성이 있다는 염려가 있다. '폭탄을 든 테러리스트'라고 입력하면 특정 인종으로 그림을 그릴 수 있는 것이다. 아울러 엔지니어, 의사, 과학자와 같은 교육 수준이 높은 사람들은 백인으로, 간호사, 비서 등은 여성으로 종종 표현되는 것으로 알려졌다.
이 때문에 현재 오픈AI는 상업적 용도로 해당 프로그램을 배포하지 않은 상태다. 400명에 달하는 인원을 대상으로 사용자 테스트를 진행했는데 지금은 1만명 이상으로 확대된 상태다. 다만 샘플 버전인 달리미니를 홈페이지에 공개했다. 프라풀라 다리왈 오픈AI 연구과학자는 "안정성을 위해 프로그램을 개선하고 있다"고 말했다. 또 일부에서는 100% 정확하게 그림을 그리는 것은 아니라는 지적도 있다.
하지만 문장을 이미지로 전환해주는 인공지능은 편향성에도 불구하고 사용처가 무궁무진할 것으로 전망된다. 따라서 수많은 기업이 해당 영역에 속속 도전하고 있다. 구글 브레인은 올해 5월 오픈AI의 달리에 버금가는 '이매전'을 발표했다. 달리2처럼 텍스트를 이해하는 대형변환기(transformer) 언어 모델을 토대로 정확도가 높은 이미지를 생성한다. 특히 구글은 앞서 5400억개 파라미터(매개변수)를 지닌 초대형 언어 모델 'PaLM'을 선보였는데, 이는 오픈AI의 1300억개에 비해 4배 이상 많은 수치다. 그만큼 언어 이해력이 높아 향후 더 정교한 그림 작성이 가능할 것이라는 전망이 나오고 있다.
카카오브레인은 지난해 말 '민달리'를 선보이기도 했다. LG는 7분 만에 그림 256장으로 바꿔주는 인공지능 엑사원을 내놓아 주목을 끌었다. 엑사원은 이미지 화질을 높여주는 이른바 '업스케일' 기술을 토대로 가로세로 2048화소까지 이미지를 생성할 수 있으며 문장에서 그림으로, 그림에서 문장으로 양방향 전환이 가능하도록 했다. 특히 엑사원은 그림 한 장을 업로드하면 영어 기준으로 64개 토큰(말뭉치 단위)에 달하는 설명을 다는 것이 특징이다.
◆ 패션·NFT 시장에 일대 혁신 예고
이처럼 문장을 그림으로 전환해주는 인공지능이 고도화된다면 대체불가토큰(NFT) 시장에 일대 변화가 있을 것으로 보인다. 상당한 그림이 쏟아질 것으로 예상된다. 현재도 상당수 알고리즘을 토대로 그림을 생성하는 제너레이티브 아트(Generative art) 방식으로 NFT 작품이 생성되고 있다.
패션 의료 산업 영역에서도 활용될 것으로 보인다. 대표적인 분야가 의료다. MRI 품질을 높이려면 방사선 양을 높여야 하는 문제점이 있다. 이 때문에 현재 인공지능을 활용해 해상도를 높이는 업스케일에 대한 수요가 많다. 또 로즈버드닷에이아이와 같은 일부 인공지능 업체는 가상 패션 모델을 생성해주는 인공지능을 선보이고 있다. 초상권을 주고 이미지를 구입하거나 패션 모델을 섭외할 필요 없이 소프트웨어를 구독하는 것만으로 수많은 패션 업체가 AI 패션 모델을 활용할 수 있다. LG는 올해 초 박윤희 디자이너와 협업해 뉴욕 패션위크에서 엑사원이 디자인한 의상을 대거 선보이기도 했다.
[실리콘밸리 = 이상덕 특파원]
[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.