글로벌 가상자산 거래소 바이낸스는 자체 개발한 '스몰 파일 닥터(Small File Doctor)' 프레임워크를 통해 대규모 데이터 처리 과정에서 발생하는 비효율성을 개선하고 시스템 안정성을 확보했다고 밝혔다. 이 프레임워크는 대규모 데이터 웨어하우스에서 스몰 파일로 인한 다양한 문제를 해결하기 위한 목적으로 개발됐다.
스몰 파일은 단순한 저장상의 불편함을 넘어서 메타데이터 처리 부담 증가, 읽기 증폭, 지연 시간 악화, 작업 불안정성 등의 문제를 야기한다. 바이낸스는 거래, 모니터링, 이상 거래 탐지, 분석, 고객 지원, 재무 등 다중 워크플로우가 동시에 운영되는 복잡한 환경에서 스몰 파일이 사용자 경험과 서비스 품질에 미치는 부정적 영향을 해소하는 데 주력했다.
바이낸스는 문제를 근본적으로 해결하기 위해 단순 수작업이 아닌 지속 가능한 프레임워크 구축에 중점을 뒀다. 이를 통해 일반 운영 중에도 안전한 파일 최적화 작업을 계속 실행하면서 지연 시간과 안정성, 비용 면에서 개선을 달성할 수 있도록 체계를 마련했다.
프레임워크는 S3, HDFS 등 스토리지 메타데이터를 분석해 파일 수와 크기 분포를 파악한다. 이후 스몰 파일이 많이 존재하거나 파일 수가 과다한 디렉터리를 선별해 데이터 소비 패턴 기반으로 최적화 우선순위를 매긴다. 대상 테이블과 파티션은 최적화 백로그 공간에 기록되며, 실제 파일 수 및 평균 파일 크기와 목표 파일 크기인 256MB를 비교해 병합 여부를 판단한다. 반복 작업의 효율 저하를 방지하기 위한 안전 규칙도 적용된다.
운영 환경 특성을 반영해 파일 최적화 작업의 동시 실행 수를 제한하고, 오프피크 시간에 실행한다. 또한 테이블 및 파티션별 파일 수 변화, 실행 시점과 상태를 기록하는 거버넌스 로그를 활용해 작업 중단 시 중복 처리 없이 중단 지점부터 재개할 수 있게 설계했다.
현재 바이낸스는 이 프레임워크를 활용해 533개 테이블을 최적화했으며, 스몰 파일 수를 5,900만 개에서 290만 개 수준으로 줄였다. 이를 통해 연간 약 9만~10만 달러에 이르는 컴퓨트와 스토리지 비용을 절감했다.
바이낸스는 앞으로 스몰 파일 닥터를 스케줄러와 통합해 파티션 생성 후 병합과 검증 등의 최적화 작업을 완료한 뒤 데이터 접근이 가능하도록 프로세스를 개선할 계획이다. 이는 성능 향상 효과를 극대화하는 데 기여할 전망이다.
바이낸스 관계자는 "스몰 파일 닥터는 데이터 규모와 서비스 복잡성이 증가하는 환경에서 바이낸스의 시스템 안정성을 유지하는 데 중요한 역할을 하고 있다"며 "지속적인 프레임워크 고도화를 통해 '보이지 않는 병목'을 유발하는 스몰 파일 문제를 근본적으로 해결하겠다"고 말했다.
★ 네티즌 어워즈 투표하러 가기 ▶ ★ 실시간 뉴스속보 - CBC뉴스 텔레그램 ▶ ★ CBC뉴스 - gonewsi로 전 세계 타전 ▶
