구글 팀이 '잉크사이트'(InkSight) 모델을 발표했다. [사진: 구글 리서치] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 구글 팀이 '잉크사이트'(InkSight) 모델을 발표했다.
29일(현지시간) 온라인 매체 기가진에 따르면 구글 연구팀은 손글씨 메모 사진에서 펜의 움직임을 추출하는 '잉크사이트' 모델을 발표했다. 해당 모델을 통해 손글씨 메모를 디지털화하면서도 손글씨 스타일을 유지할 수 있다.
잉크사이트를 사용하면 필기 내용에서 '펜의 움직임'을 추출할 수 있다. 필기로 작성된 텍스트를 잉크사이트에 입력하면 펜의 움직임인 스트로크가 추출되는 것. 잉크사이트는 기존 OCR 모델을 사용해 손글씨 단어를 식별한 후 스트로크로 변환하는데, 이 과정에서 ViT 인코더와 mT5 인코더/디코더가 사용된다.
모델 훈련에는 텍스트 이미지와 실시간 필기 궤적에서 샘플링한 스트로크가 사용되며 이를 토큰 형태로 입력한다. 이를 위해 전용 토크나이저를 통해 스트로크를 토큰화한다.
구글 팀은 3가지 모델을 훈련시켰으며, 이 중 스몰(Small) 모델은 약 3억4000만개, 라지(Large) 모델은 약 10억개의 매개변수를 가진다. 연구팀은 동일한 텍스트 이미지를 인간과 잉크사이트의 3가지 모델로 각각 추적한 후, 인간에게 평가하도록 하는 비교 실험도 진행했다. 인간에 의한 트레이싱은 90.5%가 '좋은 트레이싱'이라고 평가했으며, 반면 잉크사이트 모델은 '좋은 트레이스' 평가가 42%~52.5%, '나쁜 트레이스' 평가가 12.5%~18% 정도였다.
연구팀은 이번 연구에 대해 "손글씨 사진을 디지털 잉크로 변환하는 최초의 접근법"이라고 밝혔다. 해당 모델과 코드는 깃허브에서 다운로드할 수 있으며, 허깅 페이스에서 데모 출력을 확인할 수 있다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.