[박찬 기자]
하룻밤의 수면 데이터만으로 장기 질병 위험을 예측하는 AI 모델이 등장했다.
스탠포드 의대 연구진은 8일(현지시간) 임상 수면다원검사(PSG) 데이터로 학습, 단 하룻밤의 수면만으로 장기 질병 위험을 예측하는 멀티모달 수면 파운데이션 모델 '슬립FM 클리니컬(SleepFM Clinical)'을 의학 학술지 네이처 메디신(Nature Medicine)에 공개했다. 임상용 코드도 깃허브에 오픈 소스로 공개했다.
수면은 신체·정신 건강 전반에 중요한 영향을 미치지만, 질병과의 복잡한 관계는 아직 충분히 규명되지 않았다. 뇌파, 심전도, 호흡, 산소포화도 등 다양한 생체 신호를 기록하는 수면다원검사(PSG)는 수면의학의 표준검사지만, 표준화와 데이터 활용의 어려움으로 실제 임상에서는 주로 수면 단계 분석이나 수면무호흡증 진단에만 제한적으로 사용됐다.
하룻밤의 수면 데이터만으로 장기 질병 위험을 예측하는 AI 모델이 등장했다.
스탠포드 의대 연구진은 8일(현지시간) 임상 수면다원검사(PSG) 데이터로 학습, 단 하룻밤의 수면만으로 장기 질병 위험을 예측하는 멀티모달 수면 파운데이션 모델 '슬립FM 클리니컬(SleepFM Clinical)'을 의학 학술지 네이처 메디신(Nature Medicine)에 공개했다. 임상용 코드도 깃허브에 오픈 소스로 공개했다.
수면은 신체·정신 건강 전반에 중요한 영향을 미치지만, 질병과의 복잡한 관계는 아직 충분히 규명되지 않았다. 뇌파, 심전도, 호흡, 산소포화도 등 다양한 생체 신호를 기록하는 수면다원검사(PSG)는 수면의학의 표준검사지만, 표준화와 데이터 활용의 어려움으로 실제 임상에서는 주로 수면 단계 분석이나 수면무호흡증 진단에만 제한적으로 사용됐다.
연구진은 이런 한계를 극복하기 위해 PSG 데이터를 여러 신호가 이어진 하나의 연속적인 생체 데이터로 보고, 이를 통합적으로 학습하는 슬립FM이라는 파운데이션 모델을 개발했다.
슬립FM은 6만5000여명의 참가자로부터 수집된 58만5000시간 이상의 수면다원검사 데이터를 학습했다. 이 중 가장 큰 데이터셋은 스탠포드 수면의학센터에서 1999년부터 2024년까지 축적된 약 3만5000명의 임상 수면 기록으로, 전자의무기록(EHR)과 연계돼 장기 질병 추적이 가능하다.
연구 결과에 따르면, 슬립FM은 단 한번의 수면 검사 데이터만으로도 130개에 달하는 질환의 장기 위험을 높은 정확도로 예측했다.
예를 들어 전체 사망 위험에 대해서는 C-Index(모델의 차별 능력) 0.84를 기록했으며, 치매는 0.85, 심근경색은 0.81, 심부전은 0.80으로 나타났다. 이 밖에도 만성 신장질환은 0.79, 뇌졸중과 심방세동은 각각 0.78을 기록했다. 이런 성과는 슬립FM의 예측력이 기존에 사용되던 질병 위험 평가 모델과 비교해도 충분히 경쟁력 있는 수준임을 보여준다.
슬립FM의 핵심 기술은 여러 생체 신호를 함께 이해하도록 만드는 멀티모달 대조 학습(contrastive learning)이다. 모델은 뇌파, 심장 활동, 호흡 신호를 각각 따로 표현한 뒤 특정 신호가 없어도 남아 있는 정보만으로 수면 상태를 파악하도록 훈련했다. 이로 인해 실제 수면 검사에서 자주 발생하는 센서 누락이나 검사 방식의 차이에도 안정적으로 동작할 수 있다는 설명이다.
이 모델은 먼저 각 신호 채널에서 중요한 특징을 뽑아내는 컨볼루션 구조를 사용하고, 이후 여러 신호를 동시에 이해하기 위해 어텐션 모듈로 정보를 통합한다.
마지막으로 트랜스포머를 통해 수면이 시간에 따라 어떻게 변화하는지를 분석한다. 이런 구조는 이전 연구에서도 수면 단계 분류나 수면호흡장애 탐지에 효과적인 것으로 이미 검증됐다.
질병 예측에 앞서 연구진은 슬립FM이 기본적인 수면 분석에서도 경쟁력이 있는지를 검증했다. 그 결과, 수면 단계 분류에서는 평균 F1 점수 0.70~0.78, 수면무호흡증 중증도 및 존재 여부 분류에서는 정확도 0.69와 0.87을 기록하며 'U-Sleep' 'YASA' 등 기존 전문 모델과 비슷하거나 더 나은 성능을 보였다.
또 사전 학습에 포함되지 않았던 '슬립 허트 헬스 스터디(Sleep Heart Health Study)' 데이터셋에서도 우수한 전이 학습 성능을 보여, 특정 데이터셋에만 맞춰진 모델이 아님을 입증했다.
연구진은 슬립FM의 가장 중요한 성과로, 수면 생리 신호 그 자체에서 폭넓게 활용 가능한 표현을 학습했다는 점을 꼽았다. 실제 분석 결과에서도 복잡한 예측 구조보다, 잘 학습된 파운데이션 모델의 기본 백본이 성능을 좌우하는 핵심 요소로 나타났다.
이는 임상 현장에서 하나의 사전 학습된 모델을 공통으로 활용하면서, 각 병원이나 연구 목적에 맞춰 적은 양의 데이터만으로도 맞춤형 예측 모델을 효율적으로 구축할 수 있다는 것을 의미한다.
연구진은 "이 모델은 심혈관 질환, 신경 장애, 정신 건강 문제 등 다양한 질병을 예측하는 데 있어 기존의 머신러닝 모델보다 뛰어난 성능을 보여주며, 강력한 임상 의사 결정 지원 도구로서의 잠재력을 입증한다"라고 밝혔다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
