컨텐츠 바로가기

12.28 (토)

“AI 배포부터 운영까지 실시간으로” 지코어가 제안하는 생성형 AI 모델 지원 방법

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
ITWorld

퓨처 엔터프라이즈 서밋 지코어 김진용 팀장

<이미지를 클릭하시면 크게 보실 수 있습니다>


IDG Korea
AI는 기업의 디지털 혁신을 가속화하는 핵심 동력으로 자리 잡았다. 특히 생성형 AI 부문에 대한 투자와 AI가 IT 인프라에서 차지하는 역할은 갈수록 커지고 있다. 그러나 AI 개발에는 상당한 시간과 자원, 성능이 필요하다. 또한 자체 모델을 개발하거나 사전 학습 모델을 도입한 이후에도, 안정적으로 AI를 배포하고 다양한 환경에서 실시간으로 서비스하는 과정은 그동안 상대적으로 큰 관심을 얻지 못했다. 특히 확장성과 신뢰성이 필요한 엔터프라이즈 환경에서는 예기치 않은 장애와 성능 저하를 방지해야 하며, 생성형 AI 활용 서비스에서는 빠른 연산과 응답 속도가 필수적이다. 힘들게 구축한 AI 모델로 원활하고 빠른 서비스를 배포하고 운영할 더 나은 방법은 없을까?

생성형 AI 서비스의 과제, 지연 시간

지난 11월 27일 한국IDC와 CIO Korea가 개최한 ‘퓨처 엔터프라이즈 서밋 & 어워드’에서 지코어 김진용 팀장은 우아해 보이지만 물 속에서는 바삐 발을 움직이는 백조처럼, 기업이 AI 모델을 100% 즐기지 못하고 있다고 지적했다. AI를 ‘어떻게 서비스할지’가 해결되지 않았기 때문이다.
ITWorld

Gcore

<이미지를 클릭하시면 크게 보실 수 있습니다>


AI의 외양은 화려하다. 그러나 수면 아래에는 IT의 개발 노력과 방대한 컴퓨팅 파워 소비라는 문제가 있다. 특히 AI는 막대한 컴퓨팅 성능을 소비한다. 연산에 필요한 컴퓨팅 파워가 10개월마다 2배꼴로 늘어나는 추세다. 기존 서비스와 달리 이제는 GPU가 CPU의 연산 부담을 넘겨 받아 프로세싱을 담당할 정도로 데이터가 방대해졌다. 대다수 AI 모델이 서비스로 구현되는 과정에도 많은 컴퓨팅 파워가 필요하다. 실제 서비스에는 파라미터를 8비트 이하로 줄이기는 하지만, AI 훈련과 추론 등에는 16비트로 정밀도를 높인다. 일반적인 컴퓨터가 감당하기에는 어려운 부하이고, 시간도 오래 걸린다. AI의 외양은 화려하다. 그러나 수면 아래에는 IT의 개발 노력과 방대한 컴퓨팅 파워 소비라는 문제가 있다. 특히 AI는 막대한 컴퓨팅 성능을 소비한다. 연산에 필요한 컴퓨팅 파워가 10개월마다 2배꼴로 늘어나는 추세다. 기존 서비스와 달리 이제는 GPU가 CPU의 연산 부담을 넘겨 받아 프로세싱을 담당할 정도로 데이터가 방대해졌다. 대다수 AI 모델이 서비스로 구현되는 과정에도 많은 컴퓨팅 파워가 필요하다. 실제 서비스에는 파라미터를 8비트 이하로 줄이기는 하지만, AI 훈련과 추론 등에는 16비트로 정밀도를 높인다. 일반적인 컴퓨터가 감당하기에는 어려운 부하이고, 시간도 오래 걸린다. 김진용 팀장은 일반적으로 AI 서버와 사용자 간 거리 96km 늘어날 때마다 1ms씩 지연된다며, 추론 계산 시간이 핵심이라고 강조했다. 데이터센터가 지구 반대편에 있으면 200~400ms의 지연이 발생하는데, 비즈니스 크리티컬한 AI 애플리케이션을 실행할 때에는 중요한 문제다.

배포와 운영도 AI에 맞게

ITWorld

Gcore

<이미지를 클릭하시면 크게 보실 수 있습니다>


기업이 마주한 또 하나의 과제는 AI 서비스 운영의 여러 부분을 경험한 적이 없다는 것이다. 김진용 팀장은 기업은 보통 개발에 집중적인 투자를 하지만, 기존 IT 서비스를 AI 모델에도 그대로 적용할 수 있을지를 질문했다. 미션 크리티컬한 애플리케이션에는 지연 없는 실시간 처리가 필요하다. 의료, 스마트 시티, 자율주행 차량 등 혁신을 이끄는 기술에는 실시간 처리로 신속한 응답을 제공해야 한다. 그러려면 AI 가속기로 빠르고 현지화된 AI를 구현하고, 엣지 환경에 최적화된 하드웨어로 중요한 의사 결정을 내릴 때의 지연을 최소화해야 한다. 김진용 팀장은 실제로 챗GPT가 좋은 평가를 받은 한 이유로 마치 실제 사람과 대화하는 것 같은 빠른 응답을 꼽았다. 결국 지연 시간(Latency)은 결코 무시할 수 있는 요인이 아니다. 현재까지 AI 서비스를 빠르게 하기 위한 방법은 온디바이스 서비스뿐이었다. 그러나 이 방법은 규모의 법칙을 위반하는 부정적인 효과를 낸다. 모델은 커질수록 좋은 기능을 하는데 작은 모델은 좋은 기능을 할 수 없다. 현실적인 방법은 소규모 모델을 사용자 위치와 가장 가까운 곳에서 연산할 수 있는 방법을 찾는 것이다. 바로 엣지 추론의 배경이다.
ITWorld

Gcore

<이미지를 클릭하시면 크게 보실 수 있습니다>


데이터센터와 서비스 위치간 거리가 멀다면, 그리고 온디바이스에서는 작은 연산밖에 처리할 수 없다면, AI 데이터센터 아래 사용자와 같은 지역에 있는 PoP에서 AI 연산을 담당한다. 현재 웹 서비스 역시 CDN의 PoP 내 캐싱 서버가 응답한다. 한국의 경우 지연 시간이 최대 10ms를 넘지 않는다. AI 서비스에도 똑같은 방법을 적용하면 어떨까? 룩셈부르크 기반의 클라우드 및 엣지 기업 지코어(Gcore)는 한층 실용적이고 현실적인 접근 방법을 제시했다. 엣지 AI에는 엣지 클라우드가 필요하고, 엣지 클라우드를 묶을 수 있는 강력한 네트워크가 필요하다고 생각한 것이다. 지코어는 CDN을 서비스하는 글로벌 네트워크에 AI를 접목했다. 데이터센터는 대형 모델을 서비스하고 추론과 훈련을 도맡는다. 그러나 사용자가 이용하는 서비스는 집이나 직장과 가장 가까운 PoP이 담당한다. PoP이 받은 데이터는 다시 데이터센터로 이동해 훈련이나 추론에 재사용된다. 지코어가 제안하는 AI 서비스 방식에서는 대규모 언어 모델이 담당하던, 지연과는 큰 상관이 없는 비즈니스 외에 실제로 로봇 공학이나 자율주행 자동차, 셀프 리셀러 같은 실사용과 밀접한 서비스도 가능하다. 언어 모델은 문자로 움직이므로 데이터가 크지 않고 지연이 생겨도 타격이 적다. 그러나 자동차나 로봇은 빠른 시간 안에 큰 이미지나 영상 신호를 주고받아야 한다. 지코어는 전 세계 곳곳에 180여 군데의 PoP을 보유하고 있다. 기존 웹 서비스에 활용된 캐싱 서버에 GPU 서버를 더했다. 모델 구축과 서비스, 연동 등 심도 있는 노하우를 활용했다. CDN을 기반으로 하므로 남미, 한국, 일본 등 특정 지역과 국가에서만 서비스를 운영할 수도 있다.

AI에 최적화된 지코어의 엣지 AI 설계

ITWorld

Gcore

<이미지를 클릭하시면 크게 보실 수 있습니다>


개별 기업이 데이터센터부터 로컬 엣지의 PoP 설치와 서버 변경 등을 모두 다 할 수는 없을 것이다. 지코어의 AI 엣지 서비스는 3단계로 매우 간결하다. 모델 선택, 위치 선정, 높은 처리량과 초저지연으로 엣지에서 안전하게 모델을 실행하는 것으로 요약된다. 캐싱 서버를 사용하는 지코어는 사람들이 많이 묻는 것이나 지역별 데이터 등이 AI 캐시에 남는다는 장점이 있다. 네트워크 경로 중간에 로케이션을 추가해 네트워크 지연을 더욱 쉽게 줄였다. 지코어가 가장 잘하는 기술이다. 물론 데이터를 직접 보관하고 싶은 기업을 위해 프라이빗 데이터센터를 지원하는 방법도 있다. 지코어는 향후 계속 PoP을 확대해 나가며 기존 CDN, 쿠버네티스 서비스, 현재 서버 방식의 인플루언스 엣지를 통합할 계획이다. 전 세계의 모든 엣지와 PoP에서 AI 추론 서비스가 가능하게 될 것이다. 특히 전력 부담이 큰 로봇은 연산에 더 많은 전력을 할당하기 어렵다. 김진용 팀장은 지코어 엣지 AI 서비스는 디바이스나 비즈니스의 특성을 반영해 전력 부담을 최소화하면서 실질적 응답 속도를 더 줄이고 실시간 서비스를 지원한다고 설명했다. 또한 L40xs를 모델별로 최적 구성하고 클릭만으로 서비스할 수 있는 수준으로 사전 준비된 10여 개 모듈을 지코어의 강점으로 꼽았다.
dl-itworldkorea@foundryco.com


Erin Hur editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.