칩투칩·트레이간 대역폭 한계 넘는다…마이크로 LED도 대안 [소부장반차장]
이규상 버지니아 대학교 교수는 4일 서울 코엑스에서 열린 'SK AI 서밋 2025' 세션에서 "AI 발전으로 방대한 데이터를 GPU에서 GPU로 컴퓨트 트레이에서 트레이로 효율적으로 연결하기 위한 방안이 관심을 받고 있다"며 "특히 병목 자체가 컴퓨팅보다 데이터 전송에서 일어나고 있다"고 말했다.
이규상 교수는 "GPU 칩 안에서는 고대역폭메모리(HBM)가 데이터 대역폭을 늘려주고 있는 만큼, 칩과 칩간 통신의 데이터 전환 연산량을 어떻게 늘릴 수 있는지가 중요한 과제"라고 설명했다.
통상 AI 모델은 GPU를 탑재한 서버 랙(Rack)이 수십, 수백대 단위로 연결된 데이터센터에서 구동되는 형태를 띤다. 랙 내부에는 GPU가 GPU, CPU와 각각 여러개 연결된 컴퓨트 트레이가 장착돼 있고 이 컴퓨트 트레이와 트레이가 서로 연결돼 데이터를 통신하는 구조다.
기존 클라우드나 범용 서버에서는 막대한 대역폭을 요구하지 않아 구리 기반의 케이블로 연결된 시스템 구조로도 워크로드를 운영할 수 있었다. 하지만 AI 시대에 접어들면서 데이터 양이 막대해지자 병렬 연산에 최적화된 GPU가 인터커넥트·네트워크로 수백, 수천개 이상 연결되기 시작했다. 이에 따라 데이터를 옮기는 고속도로인 대역폭 한계가 찾아오면서 전송 속도 지연이 발생하는 등 난제가 부상한 것이다.
이 교수는 "구리 케이블의 단점은 면적이 작아지고 고주파(High-Frequency) 전기 저항이 높아지고 표면에 전류가 분산되며 데이터 손실이 커진다는 것"이라며 "이러한 문제로 (넓은 주파수 범위와 고속 전송이 가능한) 광 통신을 사용하려는 추세"라고 설명했다.
또 이 교수는 "당초 광 연결은 장거리 통신에서 많이 사용해온 기술로, 최근에는 구리 기반의 광손실을 줄이기 위해 반도체 칩 패키지 안에 사용하려고 있다"며 "CPO 역시 궁극적으로 (패키지 내 탑재해) 전기적 부품을 최소화하고 데이터 전송 속도를 늘리려는 노력의 일환"이라고 덧붙였다.
특히 CPO가 여러 갈래로 데이터를 보내는 패러럴(Parallel) 방식을 그대로 활용할 수 있다는 강점을 꼽았다. 통상 패러럴 데이터는 CPU, GPU와 같이 거리가 짧은 칩 내부 통신에서는 64bit 등으로 전송이 가능하지만, 칩 외부나 보드 밖으로 데이터를 전송할 때는 신호 간섭 문제 등으로 활용이 어려웠다. 이로 인해 데이터를 직렬화·비직렬화하는 서데스를 주로 활용해왔다.
그는 "이미 CPO는 엔비디아와 같이 차세대 기술을 개발하는 업체가 여러 기술 개발 진행을 많이 하고 있는 상황"이라며 "현재로서는 플러그식 케이블을 활용한 방식이 가장 용이하고 칩 패키지 내에 모듈을 올리는 2D·2.5D 방식과 (GPU 등) 위에 수직으로 올리는 3D 방식을 궁극적인 목적으로 개발되고 있다"고 말했다.
다만 이 교수는 이러한 CPO 기술도 여전히 난제가 많은 상황이라고 봤다. 광원인 레이저가 발열에 민감한 탓에 칩 위에 모듈을 얹게 되면 온도에 따라 파장이 변하고, 이로 인해 신호 간섭이 생기는 등 문제가 발생할 수 있어서다. 이를 해결하기 위해 외부 광원을 사용하는 시도도 있지만 이 경우 전송 지연 문제를 해소하지 못한다는 단점이 있다.
이 교수는 이러한 레이저 광원의 문제를 해결할 대안으로 마이크로 LED 기반의 광원 채택을 제시했다. 레이저 대신 LED 광원을 채택하면 에너지를 절약하면서도 안정적인 광연결 송수신이 가능해지고 외부 광원도 함께 채택해 채널 개수를 넓혀 대역폭을 확대할 수 있다는 이유에서다.
실제로 미국의 스타트업인 아비세나(Avicena)가 마이크로 LED 기반 CPO 기술을 개발 중이다. 국내 기업인 SK하이닉스와 삼성벤처투자도 아비세나에 투자를 단행한 상태다.
이어 그는 "LED 광원을 채택한 CPO는 실리콘(웨이퍼)에서 빛을 낼 수 없어 질화갈륨(GaN)을 접목해야 한다"면서도 "패키징 상의 정렬 오차를 극복해야 하며, 레이저와 달리 빛이 확산형으로 포지는 단점을 극복할 필요가 있다"고 설명했다.
마지막으로 이 교수는 "현재 운영하고 있는 스타트업(FSB-GaN)에서 미국 MIT와 함께 GaN의 박막만 떼어 실리콘 CMOS 위에 얹는 '리모트 에피택시' 기술을 개발 중"이라며 "현재 AI 인프라가 컴퓨팅 파워 대비 대역폭 확대의 노력이 비교적 덜한 만큼 CPO에 대한 연구를 넓혀간다면 분명히 큰 의미가 있을 것"이라고 말했다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
