전 세계 20여개의 R&D 센터에서 연구개발
갤럭시 AI는 현재 △한국어 △중국어(간체) △영어 △프랑스어 △독일어 △힌디어 △이탈리아어 △일본어 △폴란드어 △포르투갈어 △스페인어 △태국어 △베트남어 △아랍어 △인도네시아어 △러시아어 등 16개 언어를 지원한다.
삼성리서치 인도네시아 연구소(SRIN)의 ‘갤럭시 AI’ 언어 개발 담당자 모습(사진=삼성전자) |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
삼성전자는 지원 언어를 확대하면서 언어의 특성과 문법에 대한 정량 평가와 문화에 대한 지식과 이해를 검증하는 정성 평가도 함께 진행하고 있다고 설명했다. 단순 언어 이해를 넘어 문화를 이해하고 지식을 갖춘 고도화된 AI 구현을 위해서다.
예컨대 방언이 총 30여 종에 달하는 아랍어 지원을 위해서도 정량·정성적 평가를 거쳤다. 아랍어는 20여개국 4억명 이상이 사용하는 세계에서 6번째로 많이 사용되는 언어다. 아랍어를 통번역에 활용하기 위해서는 현대 표준 아랍어인 풋스하(Fusha)와 일상생활에서 사용하는 방언인 암미야(Ammiyya)를 모두 학습해야 한다.
삼성리서치 요르단 연구소(SRJO)는 아랍어 방언을 이해하면서, 답변은 표준 아랍어로 할 수 있는 언어 모델을 개발했다. 이를 위해 각기 다른 방언의 음성 녹음 데이터를 수집하고, 이를 직접 텍스트로 변환하는 과정을 거쳤다.
데이터베이스 구축을 맡은 요르단 연구소의 아야 하산은 “여러 방언의 미묘한 차이와 변형을 정확히 이해할 수 있는 원어민들로 갤럭시 AI 팀을 구성하고, 음성 데이터를 일일이 글과 문장으로 바꾸는 수작업을 진행했다”고 설명했다.
6성조의 베트남어를 지원하기 위해서는 한 단어를 0.02초 간격으로 분석했다. 베트남어는 전세계 약 1억명이 사용하는 언어로 중국어, 태국어 등 인근 지역 언어와 비슷한 성조 체계를 지니고 있다. 특히 베트남어는 여섯 가지의 성조를 가진다. 예를 들어 베트남어 단어 ‘마(Ma)’는 성조에 따라 엄마(Ma), 무덤(Ma), 귀신(Ma) 등 전혀 다른 의미를 지녔다.
삼성리서치 베트남 연구소(SRV)는 성조의 미세한 차이를 인식할 수 있도록, 음성 데이터를 매우 정교하게 다듬고 정제하는 과정을 거쳤다. 무엇보다 성조를 정확히 구분해 내기 위해 한 단어를 0.02초 전후의 짧은 프레임으로 잘라내고 이를 데이터베이스화 했다.
삼성전자 관계자는 “삼성전자는 언어를 넘어 문화를 이해하고 지식을 갖춘 고도화된 ‘갤럭시 AI’로 언어 장벽 없이 자유로운 소통을 지원하기 위해 전 세계 총 20여개의 R&D 센터에서 언어 모델 연구·개발에 매진하고 있다”고 설명했다.
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.