라이트LLM : 통합 LLM 액세스를 위한 오픈소스 게이트웨이 : zum 뉴스

앤트로픽, 구글, 메타, 마이크로소프트, 엔비디아, 오픈AI 등 여러 업체에서 제공하는 대규모 언어 모델(LLM)이 증가하면서 개발자의 선택이 폭이 넓어진 점은 좋지만 복잡성도 함께 커졌다. 각 업체마다 API와 응답 형식에 미묘한 차이가 있어 하나의 애플리케이션에서 모델을 전환하거나 여러 백엔드를 지원하기가 쉽지 않다. 오픈소스 프로젝트인 라이트LLM(LiteLLM)은 이와 같은 단편화 문제를 해결하고자 하나의 일관된 형식을 사용해서 100개 이상의 LLM API를 호출하기 위한 통합 인터페이스(및 게이트웨이)를 제공한다.

기본적으로 라이트LLM은 LLM을 위한 “범용 리모컨” 역할을 한다. 즉, 개발자가 기반 모델 업체와 무관하게 마치 오픈AI의 API를 호출하듯이 다양한 모델을 통합할 수 있게 해준다.

라이트LLM은 출시 이후 AI 개발자 커뮤니티에서 빠르게 인기를 얻었다. 높은 관심을 반영하듯 이 프로젝트의 깃허브 리포지토리(Y 콤비네이터(Y Combinator)가 후원하는 베리AI(BerriAI)가 관리 중)의 별 수는 2만 개에 달하며 포크도 2,600개 이상이다. 이처럼 인기를 끄는 이유 중 하나는 실제 환경의 요구 사항을 충족한다는 점이다. 넷플릭스, 레모네이드(Lemonade), 로켓 머니(Rocket Money) 등의 기업은 최소한의 오버헤드로 새로운 모델에 대한 즉각적인 액세스를 제공하기 위해 라이트LLM을 도입했다. 라이트LLM의 목표는 개발자가 LLM 제공업체와 상호작용하는 방식을 표준화해서 끊임없이 발전하는 LLM 생태계에서 최신 모델의 빠른 통합과 원활한 운영을 보장하는 것이다.

여기서는 라이트LLM의 기원과 목표, 핵심 기능과 주요 특징을 자세히 알아보고 실제 사례를 통해 LLM 사용을 어떻게 간소화하는지 살펴본다. 또한 상업적 용도로 사용할 수 있는 라이트LLM 기업용 버전을 살펴보고 다른 솔루션과 비교한다.

프로젝트 개요

라이트LLM은 LLM API를 위한 범용 어댑터로 설계됐다. 즉, 개발자가 표준화된 인터페이스를 통해 다양한 제공업체와 상호작용할 수 있게 해준다. 라이트LLM은 앤트로픽, AWS 베드록, AWS 세이지메이커, 애저 오픈AI, 딥시크, 구글 버텍스 AI, 오픈AI, 올라마를 포함한 주요 LLM 제공업체를 지원한다.

이 프로젝트는 파이썬 SDK와 프록시 서버, 두 가지 핵심 구성요소를 중심으로 한다. 파이썬 SDK는 개발자에게 여러 LLM을 애플리케이션에 통합하기 위해 필요한 사용하기 쉬운 라이브러리를 제공한다. 프록시 서버는 대규모로 LLM 사용을 관리하기 위한 프로덕션급 게이트웨이 역할을 하면서 API 호출에 대한 중앙화된 비용 추적, 액세스 제어, 실시간 모니터링 기능을 제공한다.

라이트LLM의 목표는 다중 LLM 애플리케이션의 개발을 간소화하고 여러 모델 제공업체를 관리하는 데 따르는 플랫폼 팀의 마찰을 줄이는 데 있다. 프로젝트 관리자에 따르면 라이트LLM은 100개 이상의 대규모 언어 모델에 걸쳐 모델 액세스와 비용 추적, 폴백을 간소화한다.

실무적인 측면에서 라이트LLM의 목표는 개발 팀이 들이는 시간과 노력을 절약하는 것이다. 개발자는 각각의 새로운 API 모델마다 맞춤형 통합 코드를 작성하거나 벤더별 SDK를 기다릴 필요 없이 라이트LLM의 통합 SDK와 프록시 서버를 사용해 즉각적인 호환성을 얻을 수 있다.

라이트LLM은 어떤 문제를 해결하는가?

개발자는 여러 LLM을 애플리케이션에 통합할 때 큰 어려움에 직면하는 경우가 많다. 대표적인 문제 중 하나는 제공업체마다 입력/출력 형식과 인증 메커니즘이 다른 데서 비롯되는 API 이질성이다. 이로 인해 개발이 복잡해질 수 있다. 또한 제공업체의 가동 중단이나 요청 제한에 대응하기 위한 폴백을 관리하려면 맞춤형 코드가 필요한데, 이러한 맞춤형 코드는 오류가 발생하기 쉽고 구현하는 데 시간도 많이 걸린다.

또 다른 일반적인 문제는 비용 불투명성이다. 여러 프로젝트나 팀에서 다수의 LLM을 사용하는 경우 비용 지출을 정확하게 추적하기가 어렵다. 적절한 툴이 없으면 예산을 초과해 지출하거나 비용을 효과적으로 최적화하지 못하게 될 위험이 있다.

라이트LLM은 지원되는 모든 제공업체 간의 상호작용을 표준화하는 통합 API를 통해 이러한 문제를 해결한다. 또한 실패한 요청에 대한 자동 재시도, 실시간 비용 분석과 같은 기능을 기본적으로 제공해서 개발자가 인프라 관리보다 애플리케이션 빌드에 집중할 수 있게 해준다.

라이트LLM 자세히 보기

라이트LLM은 유연함과 강력함을 동시에 갖추도록 설계됐다. 핵심은 기반 제공업체와 관계없이 모든 API 호출을 오픈AI의 친숙한 completion() 구문으로 변환하는 기능이다. 즉, 개발자는 코드베이스를 크게 변경하지 않고도 모델을 전환할 수 있다.

예를 들어 개발자가 특정 작업에 오픈AI의 GPT-4 대신 앤트로픽 클로드 3를 사용하기를 원한다면 모델 이름만 지정해서 요청하면 된다. 인증과 형식 지정을 포함한 나머지 작업은 라이트LLM이 알아서 처리해준다.

통합 API 외에 라이트LLM에는 동적 폴백, 구조화된 출력과 같은 고급 기능도 포함된다. 동적 폴백은 장애 등의 이유로 주 모델을 사용할 수 없는 경우 요청을 자동으로 백업 모델로 보낼 수 있다. 폴백은 제공업체의 가동이 중단된 상황에서도 높은 가용성을 보장한다. 구조화된 출력은 개발자가 파이단틱(Pydantic) 스키마를 통해 응답을 검증해서 다운스트림 처리에서 발생하는 오류를 줄일 수 있게 해준다.

다음은 라이트LLM을 사용해서 오픈AI 형식으로 앤트로픽 클로드 3를 호출하는 방법이다.

from litellm import completion

response = completion(
    model="anthropic/claude-3",
    messages=[{"role": "user", "content": "Explain quantum computing"}]
)
print(response.choices[0].message.content)  # Outputs Claude's response

프로덕션 환경에서는 라이트LLM 프록시 서버를 중앙 게이트웨이로 배포할 수 있다. 이렇게 하면 여러 팀 또는 애플리케이션에서 LLM 액세스를 공유하면서 비용과 사용 한도에 대한 통제력을 유지할 수 있다.

litellm --model openai/gpt-4 --api_key sk-xyz

클라이언트는 표준 오픈AI 라이브러리를 사용해 프록시 서버와 상호작용할 수 있다.

import openai
client = openai.OpenAI(base_url="http://localhost:8000")
client.chat.completions.create(model="gpt-4", messages=[...])

라이트LLM의 주요 사용례

라이트LLM은 기업 사용례에 적합한 상용 등급의 다양한 기능을 제공한다. 가장 인기 있는 애플리케이션 중 하나는 멀티 클라우드 LLM 오케스트레이션이다. 기업은 중복성을 보장하거나 특정 작업에 따라 비용을 최적화하기 위해 여러 제공업체를 사용하는 경우가 많다. 라이트LLM을 사용하면 개발자는 다양한 제공업체를 대상으로 원활하게 요청을 분산할 수 있다.


response = completion(
    model=["azure/gpt-4", "aws-bedrock/claude-3"],
    messages=[{"role": "user", "content": "What are black holes?"}]
)

기업을 위한 또 다른 중요한 기능은 비용 거버넌스다. 라이트LLM은 프록시 서버 대시보드를 통해 실시간 비용 분석을 제공한다. 조직은 다양한 팀 또는 프로젝트에 대해 월별 예산을 설정하고 지원되는 모든 모델에서 지출을 모니터링할 수 있다. 이처럼 높은 투명성을 통해 예산을 초과하는 지출을 방지하고 효율적인 리소스 할당을 보장할 수 있다.

감사 규정 준수도 라이트LLM이 빛을 발하는 영역이다. 프록시 서버는 모든 입출력 메타데이터를 안전하게 기록하므로 조직은 보다 쉽게 규제 요구사항을 충족하거나 내부 검토를 수행할 수 있다.

결론

라이트LLM은 단순한 오픈소스 프로젝트가 아니라 대규모로 여러 제공업체의 LLM 환경을 관리하기 위한 포괄적인 솔루션이다. 라이트LLM은 API 상호작용을 단순화하고 동적 폴백, 비용 분석과 같은 강력한 기능을 추가해 개발자가 인프라 복잡성에 대해 걱정하지 않고 견고한 생성형 AI 애플리케이션을 구축할 수 있게 해준다.

파이썬 SDK와 프록시 서버를 결합한 라이트LLM은 AI를 실험하는 소규모 팀과 비즈니스 핵심 워크로드를 실행하는 대기업 모두에 적합하다. 활발한 커뮤니티 지원과 베리AI의 지속적인 업데이트에 힘입어 앞으로 통합 LLM 액세스를 위한 최고의 선택지로 부상할 잠재력을 지녔다.

dl-itworldkorea@foundryco.com

이 기사의 카테고리는 언론사의 분류를 따릅니다.