글로벌 칼럼 | 클라우드 기반 생성형 AI의 성능을 개선하는 방법

ITWorld 원문
입력

2024.05.22 14:37

주소복사가 완료되었습니다

문제를 찾기는 어렵지만 해결하기는 쉽다. 사전 예방적 접근 방식과 베스트 프랙티스를 통해 사용자 불만과 비즈니스 평판 손상을 방지할 수 있다.

월요일. 사무실에 출근하자마자 시스템 개발팀원으로부터 당장 통화하고 싶다는 이메일이 수십 통 날아왔다. 일주일 전에 배치한 생성형 AI 기반 재고 관리 시스템에 문제가 생긴 것 같다. 응답 속도가 몇 초가 아니라 몇 분이 걸리고 있다. 제품 출하가 늦어지고, 서비스 담당자가 고객의 질문에 답변하는 데 너무 오래 걸리기 때문에 고객이 전화를 끊고 있다. 응답 지연으로 인해 웹사이트 매출이 20% 감소했다. 성능 문제가 발생한 것이다.

<이미지를 클릭하시면 크게 보실 수 있습니다>

하지만 시스템은 제대로 개발했다. 학습 및 추론 처리를 위해 GPU만 사용하고 있고, 권장되는 성능 테스트를 모두 수행했으며, 메모리 용량은 오버프로비저닝했고, 최고의 I/O 성능을 갖춘 가장 빠른 스토리지만 사용하고 있다. 실제로 클라우드 요금이 한 달에 10만 달러를 넘는다. 어떻게 성능이 떨어질 수 있는 것일까?

얼리 어댑터 기업이 클라우드 기반 생성형 AI 시스템을 배포하기 시작하면서 이런 이야기를 더 자주 듣게 된다. 지금은 클라우드 서비스 업체가 생성형 AI 기능을 홍보하고, 기업은 AWS나 구글의 컨퍼런스에서 본 아키텍처 구성을 복사해 시스템을 구축하는 흥미진진한 시기이다. 많은 기업이 입증된 아키텍처와 베스트 프랙티스라고 생각되는 것을 따랐을 것이다.

새로이 떠오르는 성능 문제

성능이 떨어지는 모델에서 핵심 문제를 진단하기는 어렵지만 해결책은 어렵지 않다. 성능 문제는 일반적으로 느린 API 게이트웨이, 잘못된 네트워크 구성 요소 또는 마지막 빌드에 사용한 잘못된 라이브러리 세트와 같이 전체 AI 시스템 성능을 제한하는 하나의 구성 요소에서 발생한다. 이처럼 문제의 원인을 안다면 쉽게 바로잡을 수 있지만, 원인을 찾는 것이 어렵다.

근본적인 해법을 살펴보자.

생성형 AI 시스템의 지연 시간이 길면 자연어 처리나 이미지 생성과 같은 실시간 애플리케이션에 영향을 미칠 수 있다. 최적이 아닌 네트워크 연결이나 비효율적인 리소스 할당도 지연 시간의 원인이 될 수 있다. 여기서 시작하는 것이 좋다.

생성형 AI 모델은 리소스 집약적인 경우가 많다. 퍼블릭 클라우드에서 리소스를 최적화하는 것은 비용을 최소화하면서 효율적인 성능을 보장하는 데 필수적이다. 여기에는 자동 확장 기능과 워크로드 요구사항에 맞는 적절한 인스턴스 유형을 선택하는 것이 포함된다. 리소스를 검토하면서 해당 리소스가 포화 상태에 도달하거나 다른 성능 문제 증상을 보이는지 확인하기 바란다. 모니터링은 많은 기업이 간과하는 베스트 프랙티스이다. AI 시스템 관리 계획에 대한 통합 가시성 전략이 있어야 하며, 이런 툴을 사용할 때 성능 악화를 비교적 쉽게 진단할 수 있어야 한다.

변동이 심한 수요를 수용하기 위해 생성형 AI 워크로드를 확장하는 것은 쉽지 않은 일이며, 종종 문제를 일으킬 수 있다. 비효율적인 오토스케일링 구성과 부적절한 로드밸런싱은 리소스를 효율적으로 확장하는 데 방해가 될 수 있다.

생성형 AI 모델의 학습 및 추론 프로세스를 관리하려면 효율적인 모델 학습과 추론을 촉진하는 워크플로우가 필요하다. 물론 이 작업은 퍼블릭 클라우드가 제공하는 확장성과 유연성을 활용하면서 수행해야 한다.

추론 성능 문제는 리소스와 비용을 투입해 해결하려는 경향이 있지만, 더 나은 접근 방식은 먼저 모델을 튜닝하는 것입니다. 이런 튜닝 툴은 대부분 AI 툴킷에 포함되어 있는데, 특정 사용례에 맞게 테이블을 설정하는 방법에 대한 지침을 제공할 수 있어야 한다.

기타 고려해야 할 문제

생성형 AI 모델 학습은 특히 대규모 데이터 세트와 복잡한 아키텍처를 다룰 때 많은 시간과 비용이 소요된다. 병렬 처리 기능과 스토리지 리소스를 비효율적으로 활용하면 모델 학습 프로세스가 길어질 수 있다.

많은 인스턴스에서 GPU를 사용하고 있다는 것을 잊지 말기 바란다. GPU는 구매하든 임대하든 저렴하지 않다. 모델 학습은 가능한 한 효율적이어야 하며 모델을 업데이트해야 할 때만 수행해야 한다. RAG(Retrieval Augmented Generation)처럼, 필요한 정보에 액세스할 수 있는 다른 옵션도 있다.

RAG는 자연어 처리(NLP)에 사용되는 접근 방식으로, 정보 검색과 텍스트 생성의 창의성을 결합한 개념이다. 특히 사실 기반 정확성 때문에 어려움을 겪는 전통적인 언어 모델의 해결하고 외부 및 최신 지식에 대한 액세스를 제공한다.

필요에 따라 업데이트된 정보를 검증하고 모델에 추가할 수 있는 다른 정보 소스에 대한 액세스를 통해 추론 처리를 강화할 수 있다. 즉, 모델을 자주 재교육하거나 업데이트할 필요가 없으므로 비용 절감과 성능 향상으로 이어진다.

마지막으로 퍼블릭 클라우드에서 생성형 AI 시스템의 보안과 규정 준수를 보장하는 것이 가장 중요하다. 데이터 프라이버시, 액세스 제어, 규정 준수가 적절히 해결되지 않으면 성능에 영향을 미칠 수 있다. 성능 테스트 중에 규정 준수 거버넌스를 간과하는 경우가 종종 있다.

AI 성능 관리를 위한 베스트 프랙티스

학습. AI 툴을 지원하는 업체가 말하는 성능 관리 관련 최신 정보를 파악하라. 여러 명의 팀원이 반복적인 교육에 등록하도록 하라.
관찰 가능성. 제대로 된 관찰 가능성 프로그램을 마련하라. 여기에는 사용자가 성능 문제를 겪기 전에 이를 알려줄 수 있는 주요 모니터링 도구가 포함된다. 문제가 발생하면 이미 늦다. 신뢰를 잃기 때문이다.
테스트. 대부분 기업은 클라우드 기반 AI 시스템에 대한 성능 테스트를 수행하지 않는다. 언제든지 더 많은 리소스를 할당할 수 있기 때문에 그럴 필요가 없다는 말을 들었을 수도 있다. 이는 어리석은 생각이다. 배포의 일부로 성능 테스트를 수행하라. 예외는 없다.
성능 운영. 문제가 발생할 때까지 기다렸다가 성능 문제를 해결하지 말라. 지속적이고 적극적으로 관리하라. 발생한 성능 문제에 대응한다면, 이미 손해를 본 것이다.

이런 문제는 앞으로도 사라지지 않을 것이다. 클라우드든 온프레미스든 더 많은 생성형 AI 시스템이 등장함에 따라 지금보다 더 많은 성능 문제가 발생할 것이다. 핵심은 선제적으로 대응하는 것이다. 월요일 아침의 서프라이즈를 기다리지 말자. 절대로 재미있지 않다.
editor@itworld.co.kr

David Linthicum editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

06.16 (일)

글로벌 칼럼 | 클라우드 기반 생성형 AI의 성능을 개선하는 방법

새로이 떠오르는 성능 문제

기타 고려해야 할 문제

AI 성능 관리를 위한 베스트 프랙티스

ITWorld 주요 뉴스