컨텐츠로 건너뛰기
검색
헤럴드경제 언론사 이미지

바이낸스, 프레임워크 ‘스몰 파일 닥터’ 자체 개발

헤럴드경제 유동현
원문보기

바이낸스, 프레임워크 ‘스몰 파일 닥터’ 자체 개발

서울맑음 / -3.9 °
데이터 처리 효율 및 안정성 개선
5900만개 파편화 파일 95% 이상 감축
연간 최대 10만 달러 규모 운영비 절감
[바이낸스 제공]

[바이낸스 제공]



[헤럴드경제=유동현 기자] 바이낸스가 자체 개발한 ‘스몰 파일 닥터(Small File Doctor)’ 프레임워크를 통해 대규모 데이터 처리 과정에서 발생하는 비효율을 개선하고 시스템 안정성을 확보했다고 16일 밝혔다.

대규모 데이터 웨어하우스에서 스몰 파일은 ‘메타데이터’(meta data·데이터 세부정보) 처리 부담 증가, 읽기 증폭(Read Amplification), 지연 시간(Tail Latency) 악화, 불안정한 작업 등을 야기한다. 특히 거래, 모니터링, 이상 거래 탐지, 분석, 고객 지원, 재무 등 다양한 작업이 동시에 이뤄지는 복잡한 운영 환경에서는 사용자 경험 저하 및 서비스 품질까지 직결될 수 있다.

바이낸스는 근원적 해결을 위해 상시 운영 가능한 프레임워크를 구축했다. 일반적인 운영 환경에서도 파일 최적화 작업을 안전하게 지속 실행하면서 지연 시간, 안정성, 비용 등을 개선할 수 있는 구조를 만든 것이다.

먼저 ‘스토리지’(storage·저장) 메타데이터를 분석해 파일 수와 크기 분포를 파악하고, 파일 수가 많거나 작은 파일이 많은 ‘디렉터리’(directory·저장 공간)를 선별한다. 이후 데이터 소비 유형을 기준으로 최적화 우선 순위를 정한다. 선별된 테이블과 ‘파티션’(partition·분할)은 최적화 ‘백로그’(backlog·미처리 목록) 역할을 하는 공간에 기록된다. 이 때 대상 디렉터리의 실제 파일 수 및 평균 파일 크기를 기준 목표 파일 크기(256MB)와 비교해 병합 여부를 결정한다. 효과가 미미한 반복작업을 방지하기 위한 안전 규칙도 적용된다.

가이드도 함께 마련됐다. 파일 최적화 작업은 클러스터 과부하를 방지하기 위해 동시 실행 수를 제한하고 ‘오프피크’(off peak·비수기) 시간대에 실시한다. 테이블·파티션별 전후 파일 수, 실행 시점, 상태를 기록하는 거버넌스 로그로 관리된다. 중간에 중단되더라도 중복 처리 없이 해당 지점부터 재개된다.

바이낸스는 현재 해당 프레임워크를 통해 533개 테이블을 최적화해 5900만개에 달하던 스몰 파일을 290만개 수준으로 줄였다. 연간 약 9만~10만 달러 규모의 ‘컴퓨트’(compute) 및 스토리지 비용을 절감했다.


바이낸스는 향후 스몰 파일 닥터를 스케쥴러와 통합, 파티션이 생성되면 병합 및 검증 등의 최적화 작업이 완료된 이후 데이터 접근이 가능하도록 구조를 변경해 성능 개선 효과를 극대화할 계획이다.

바이낸스 관계자는 “스몰 파일 닥터는 데이터 규모와 서비스 복잡성이 증가하는 환경에서 바이낸스의 시스템 안정성을 유지하는 데 중요한 역할을 하고 있다”며 “지속적인 프레임워크 고도화를 통해 ‘보이지 않는 병목’을 유발하는 스몰 파일 문제를 근본적으로 해결하겠다”고 했다.