컨텐츠 바로가기

04.26 (금)

글 쓰는 상상만으로 글쓰기 가능하다 ...AI기반 텍스트 변환 장치 개발

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
지금껏 전자책 분야에서 콘텐츠 생산과 소비에 시선추적 시스템을 활용했지만 최근 인공지능을 활용해 생산 속도와 정확도를 높이려는 움직임이 활발해지고 있다.

과학 기술 주간지 뉴사이언티스트(NewScientist)에 따르면 12일(현지시간) 스탠퍼드대 연구팀이 인공 신경망 기반 텍스트 변환 기술 논문을 유력 과학전문지 네이처에 게재했다. (논문 링크) 이 인공 신경망은 자신이 글을 쓰고 있다고 상상하는 사람의 뇌 신호를 해석해 실시간 텍스트로 변환할 수 있다.

같은 날 미국 하워드 휴즈 의학연구소(HHMI)에 따르면 이 팀은 브레인 게이트 2(BrainGate2)라는 임상 실험에 등록한 전신 마비 환자와 개발을 시작했다. 브레인 게이트 2는 뇌에서 컴퓨터로 정보를 전달하는 BCI(Brain Computer Interface)의 안전성을 테스트하는 임상 실험이다.

연구팀은 65세 전신 마비 남성의 뇌 표면 아래에 두 개의 작은 센서를 이식했다. 각 센서는 약 100개의 뉴런 신호를 감지할 수 있으며 이는 인간의 뇌에서 추정되는 1000억 개 뉴런 중 일부다.

AI타임스

사진=셔터스톡

<이미지를 클릭하시면 크게 보실 수 있습니다>


사진=셔터스톡이식된 센서는 남자가 글 쓰는 상상을 할 때 발생하는 뇌 신호를 포착하고 종합했다. 기계 학습 알고리즘은 각 문자를 표현하기 위해 뇌가 생성하는 패턴을 인식했다. 쉬노이(Shenoy) 연구원은 "수백만 뉴런이 뇌 신호 공급 과정에 관여할 수 있다. 하지만 센서가 특정 뉴런을 대상으로 하지 않고 약 200개의 뉴런을 동시에 모니터링해서 신뢰도 높은 뇌 신호 해석기 구축이 가능하다."라고 말했다.

인공신경망은 센서를 이식받은 환자의 데이터를 기반으로 한다. 이는 대용량 데이터 세트가 이미 존재하거나 자동화된 시스템에 의해 제공되는 것과 다르다. 이 경우 다량의 데이터 축적이 어렵다. 대신 연구팀은 특정 글자를 쓰는 동안 사람의 뇌에서 나오는 신호들의 대표 집단을 가져와 합성 데이터 세트를 구축했다..

이 장치는 시선 추적 입력 장치보다 두 배 이상인 분당 90자 텍스트 변환이 가능하다. 남성은 스마트폰 입력 속도와 비슷하게 문장을 읽고 질문에 답할 수 있다. 제이미 핸더슨(Jaimie Henderson) 연구원은 "시선 추적을 사용하면 쳐다보거나 주위를 둘러보는 등 다른 일을 할 수 없다. 이 모델은 뇌 신호가 입력 채널 역할을 담당하기 때문에 텍스트 변환 중 다른 활동이 가능하다"라고 말했다.

AI타임스

뇌 신호를 기반으로 작성된 알파벳. (출처= F. Willett et al. / Nature 2021)

<이미지를 클릭하시면 크게 보실 수 있습니다>


뇌 신호를 기반으로 작성된 알파벳. (출처= F. Willett et al. / Nature 2021)연구팀은 수천억 개의 뉴런을 갖고 있지만 언어 표현에 장애가 있는 사람을 위한 음성 변환 장치와 포인트 앤 클릭(Point and Click) 탐색 기능 개발을 목표로 하고 있다. 해당 기술 개발을 통해 시선추적 시스템을 이용하지 않고 머릿속 상상만으로 페이지 이동과 말하기가 가능해진다.

*포인트 앤 클릭(Point and Click) : 컴퓨터나 스마트폰 사용자가 마우스나 포인팅 장치를 이용해 커서를 한 위치로 이동해 특정 사이트에 접속하는 것.

한편, 인공지능으로 손글씨 인식ㆍ분류와 정보 추출도 가능하다. 12일(현지시간) IT 전문 미디어 인포메이션 에이지(Information Age)에 따르면, 기존 광학 문자 인식 (OCR)과 지능형 문자 인식(ICR) 엔진을 이용해 문자 분석과 구조화가 가능하다. 하지만 필기체 필기나 오래된 문서 등 서류의 가독성이 좋지 않은 경우 정확도가 떨어지고 수동으로 재입력해야 한다는 불편함이 있다.

AI타임스

OCR 엔진을 이용한 문자 인식. (사진=셔터스톡)

<이미지를 클릭하시면 크게 보실 수 있습니다>


OCR 엔진을 이용한 문자 인식. (사진=셔터스톡)정보 인식 전문 기업 IBML의 영업 부사장 켈리(Keli)는 OCR과 ICR의 불편함을 해결하기 위해 AI를 활용했다. 켈리는 "아이들이 더 많이 말하고 실수를 바로잡을수록 언어 능력은 향상된다. 문서 분석 및 처리에서 AI도 마찬가지다. 현재 OCR과 ICR은 정확도 90%이상 끌어올리기 어렵다. 지도학습을 통해 인공지능의 문서 인식과 정보 추출 정확도를 상승시킬 수 있다. 평균 정확도는 94.1%로 자동 수정 도구를 사용했을 때 99 %이상이다."라고 말했다.

IBML의 AI 기반 시스템은 특정 문서를 자동으로 인식한 다음 필기체 필기를 PDF 또는 JSON (JavaScript Object Notation)과 같은 표준 전자 형식으로 변환한다. 이를 유효성 검사 및 검증을 통해 정확도 높은 분석을 제공한다.

정부나 의료 서비스 제공 업체, 은행 및 보험 회사는 ▶설문지 ▶신청서 ▶개인 대출 ▶청구서 등 방대한 수의 수기 양식을 처리해야 한다. 수기 정보를 인공지능이 선별해 자동으로 디지털 형식으로 변환하면 수작업 오류가 줄어들고 빅데이터 분석이 가능하다. 단일 서버를 사용해 시간당 최대 5만 페이지 분량의 정보 분석을 할 수 있다.

AI타임스 정윤아 기자 donglee0408@aitimes.com

[관련기사] AI 기술이 장애인의 눈과 귀가 된다...장애인 위한 실시간 자막 서비스 지원

[관련기사] 네이버클라우드 "높은 OCR 정확도가 업무 자동화 이끈다"

Copyright ⓒ '인공지능 전문미디어' AI타임스 (http://aitimes.com)
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.