컨텐츠 바로가기

11.21 (목)

[SDC2024] “극한의 AI 압축”…온디바이스 AI가 탄생하는 과정은?

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
디지털데일리

<이미지를 클릭하시면 크게 보실 수 있습니다>


[디지털데일리 오병훈기자] “각종 파인튜닝 기술, 양자화 기법, 추론 가속 등 기술을 활용한다면, 10% 미만 메모리만으로도 AI 모델 활용이 가능해진다.”

이경훈 삼성리서치 온디바이스 AI 프로젝트 리더는 21일 온라인으로 진행된 ‘삼성 개발자 컨퍼런스(SDC) 코리아 2024’에서 ‘온디바이스 AI:생성형 AI 모델의 개발 부터 기기 탑재까지’를 주제로 발표하며 이같이 강조했다.

온디바이스 AI는 클라우드 자원을 사용하지 않고 기기 내 하드웨어를 사용해 AI 모델을 구동시키는 기술이다. 낮은 비용과 사생활 보호, 네트워크 연결 없는 사용성, 빠른 응답 등은 온디바이스 AI 기술의 대표적 장점으로 꼽힌다.

그러나 생성형 AI 모델은 거대언어모델(LLM) 등 대규모 데이터 집합체를 기반으로 작동하기 때문에 이를 기기에 탑재하기 위해서는 압축 과정을 거쳐야 한다. 또, 압축된 모델을 빠르게 구동시킬 수 있는 기술도 필요하다. 기기에 탑재될 수 있는 AI 모델 크기는 한계가 있기 때문에 성능을 유지하면서 최적화된 AI 모델 개발이 필수적이라는 것이 이 리더 설명이다.

이 리더는 “클라우드 컴퓨팅 파워를 대체할 경량화 양자화 등 압축 기술이 필요하다”며 “온디바이스 AI 기술 난이도가 증가한 이유 중 하나는 저사양부터 고사양까지 다양한 하드웨어를 기반으로 추론을 가속시켜줄 수 있는 엔진과 메모리를 효율적으로 사용할 수 있는 추론 방식 등이 필요하기 때문”이라고 설명했다.

삼성리서치에서는 이같은 문제를 해결하기 위해 온디바이스 전용 모델을 개발하기 위한 파이프라인과 모델 기기 구동을 위한 프레임워크로 구성된 개발 공정을 채택했다.

그는 “전용 모델 개발 파이프라인은 ‘데이터 준비 모델’ ‘학습 모델’ ‘최적화’ ‘양자화’ 순서로 이뤄져 있다”며 “이렇게 개발된 모델은 중앙처리장치(CPU), 그래픽처리장치(GPU), 마이크로프로세서(MPU) 등 다양한 하드웨어와 다양한 운영체제(OS)에서 구동하기 위한 프레임워크 과정을 동시에 거치게 된다”고 말했다.

삼성리서치에서는 이같은 과정을 통해 다양한 크기 온디바이스 전용 생성형 AI 모델을 개발하고 있다. 이를 통해 요약·글쓰기 등 기존 생성형 언어 모델이 지원하고 있는 다양한 기능들을 구현했다. 또, 온디바이스로 작동하는 디퓨전 방식(점차 선명한 이미지를 생성하는 방식)이 적용된 생성형 이미지 모델도 개발했다. 모두 라이센스 이슈가 없는 구매 데이터로 학습된 모델이고, 텍스트를 활용한 이미지 생성, 이미지 입력을 통한 이미지를 생성 기능을 제공한다는 것이 그의 설명이다.

삼성리서치에서는 기기에 AI모델을 이식하기 위해 ‘프루닝(Pruning)’ 기법을 사용하고 있다. 큰 모델을 우선 학습하고, 가중치가 낮은 파라미터를 제거하는 방식이다. 가중치가 낮은 파라미터라도 결국 성능에 어느 정도 영향을 줄 수 있기 때문에 작은 모델을 확보하고, 추가 학습을 통해 부족한 성능을 개선할 수 있다는 것이 이 리더 분석이다.

그는 또 다른 방법으로 ‘지식증류 기법’을 소개했다. 학습 데이터를 활용해 큰 모델에서 생성된 분포 값을 작은 모델로 인식하는 방법이다. 특정 목적함수를 사용해서 작은 모델을 학습함으로써 큰 모델과 유사한 성능을 낼 수 있도록 개발할 수 있다는 것이다.

온디바이스 생성형 AI 모델은 클라우드 모델 대비 크지 않기 때문에 특정한 기능 수행을 위해서 별도의 미세조정(파인튜닝) 추가 학습이 필요하다. 최근에는 사용자 선호를 반영한 학습방식인 ‘다이렉트 프리퍼런스 옵티마이제이션이(DPO)’라는 학습방법이 자주 사용되고 있다는 것이 이 리더 분석이다.

그는 “온디바이스 생성형 모델은 클라우드 모델보다는 작다고는 하지만 여전히 기기에 탑재하기는 매우 크기 때문에 다양한 기능을 확장하는 데는 좀 제약이 있다”며 “이를 극복하기 위해서는 하나의 파운데이션 모델을 고정하고 다양한 어댑터를 학습하는 ‘로라(LaRA)’ 기법을 활용할 수 있다”고 덧붙였다.

생성형 AI 모델 크기를 본격적으로 줄이는 작업은 양자화 기술을 통해 가능하다. 사전적 의미로 양자화라는 것은 연속적인 신호를 불연속적인 값으로 변경하는 과정을 의미한다. 이를 AI 모델에 적용하면, 모델 가중치와 활성화를 정밀도 낮은 값으로 변환해 연산 효율성을 높이고 메모리 사용률을 줄이는 기술이 된다.

예컨대, 32비트로 표현된 값을 4비트로 표현해 근사치로 값을 바꿀 수 있게 된다면 모델 크기는 8분의 1로 줄일 수 있는 셈이다. 이러한 방식으로 모델을 압축하여 기계에서 구동에 필요한 메모리를 효과적으로 줄일 수 있다는 것이 이 리더 설명이다.

마지막으로 이 리더는 “이런 과정을 통해 최대 10% 미만 메모리 사용으로도 기기 내 효과적인 생성형 AI 모델 구동이 가능해진다”며 “온디바이스 AI 기술을 만들기 위해서 기술적으로 많은 난관이 있었는데, 이를 극복하기 위해 개발된 많은 기술들이 제품에 녹아져 다양한 제품에서 AI 기능을 제공하는 토대가 됐다”고 전했다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.