[AI리포터]
[디지털투데이 애플이 개발한 FastVLM(Visual Language Model)이 이제 브라우저에서 직접 실행 가능해져, 누구나 초고속 영상 자막 기능을 체험할 수 있게 됐다.
1일(현지시간) IT매체 나인투파이브맥에 따르면, FastVLM은 애플의 오픈 ML 프레임워크인 MLX를 활용해 애플 실리콘에서 최적화된 성능을 제공하며, 기존 모델 대비 최대 85배 빠른 영상 자막 생성이 가능하다.
FastVLM은 허깅페이스에서도 실행할 수 있으며, 애플 실리콘 기반 맥에서 특히 최적의 성능을 발휘한다. 경량 버전인 FastVLM-0.5B는 실시간 이미지 분석과 텍스트 생성 기능을 제공하며 사용자는 브라우저에서 직접 모델을 로드해 체험할 수 있다.
애플이 초고속 영상 자막 생성 모델을 공개했다. [사진: 애플] |
[디지털투데이 애플이 개발한 FastVLM(Visual Language Model)이 이제 브라우저에서 직접 실행 가능해져, 누구나 초고속 영상 자막 기능을 체험할 수 있게 됐다.
1일(현지시간) IT매체 나인투파이브맥에 따르면, FastVLM은 애플의 오픈 ML 프레임워크인 MLX를 활용해 애플 실리콘에서 최적화된 성능을 제공하며, 기존 모델 대비 최대 85배 빠른 영상 자막 생성이 가능하다.
FastVLM은 허깅페이스에서도 실행할 수 있으며, 애플 실리콘 기반 맥에서 특히 최적의 성능을 발휘한다. 경량 버전인 FastVLM-0.5B는 실시간 이미지 분석과 텍스트 생성 기능을 제공하며 사용자는 브라우저에서 직접 모델을 로드해 체험할 수 있다.
또한 FastVLM은 브라우저에서 로컬로 실행되기 때문에 데이터가 외부로 전송되지 않으며 오프라인에서도 작동할 수 있다. 이러한 구조 덕분에 웨어러블 기기나 보조 기술에서도 경량화와 저지연 성능을 최대한 활용할 수 있다.
현재 FastVLM-0.5B 모델이 공개됐으며 15억과 70억 파라미터 버전도 개발 중이다. 대규모 모델을 적용하면 성능이 더 향상될 것으로 기대되지만 브라우저에서 직접 실행하기에는 한계가 있을 것으로 보인다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
