Cardiac health assessment across scenarios and devices using a multimodal foundation model pretrained on data from 1.7 million individuals


Information

일자 2026년 04월 27일
발표자 이건

Video


Overview

이 발표는 170만 명 규모의 심전도(ECG), 광용적맥파(PPG), 임상 텍스트 데이터를 통합 학습하여, 생체 신호 데이터의 이질성과 누락 문제를 극복하고 다양한 심혈관 다운스트림 과제에서 우수한 성능을 입증한 다중 모달 파운데이션 모델인 CSFM(Cardiac Sensing Foundation Model)을 소개합니다.

연구 배경 및 기존 모델의 한계

  • 특정 신호 유형 및 임상 작업에만 맞춰진 개발 방식으로 인한 범용성 및 확장성 부족
  • 모든 데이터가 12유도(12-lead) ECG 채널을 충족해야 하는 등 엄격한 데이터 차원 요구
  • 심장 신호의 이질성 및 라벨링 전문 지식 요구로 인한 대규모 임상 데이터 확보의 어려움

CSFM 핵심 설계 및 데이터 전처리

  • 잡음 제거(NeuroKit2), 10초 분할, 채널별 정규화 및 유사 시점(14일) 기준 텍스트 약한 매칭(Weak matching) 적용
  • 신호는 0.1초 단위 패치 분할 후 채널 및 시간 임베딩 추가, 텍스트는 WordPiece 알고리즘으로 토큰화 후 타입 및 위치 임베딩 추가
  • 신호 75%, 텍스트 50% 무작위 마스킹을 통한 연산 비용 절감 및 누락된 모달리티/채널 환경에 대한 강건성 확보
  • ViT 기반 멀티모달 인코더로 고수준 특징 추출 후, 얇은 트랜스포머 블록의 디코더로 마스킹 복원 (신호 MSE, 텍스트 교차 엔트로피 활용)

다운스트림 성능 (요약)

  • 심혈관 질환 진단: 다양한 벤치마크(CSIC 17, PTB-XL, CINC 등)에서 기존 전통적 방식 및 타 파운데이션 모델 대비 마이크로 F1 점수 향상
  • 인구 통계학적 정보 인식: 나이, 성별, BMI 예측 과제에서 전반적인 오차(MAE) 감소 및 AUC 수치 증가
  • 활력 징후 측정: 파형 재구성 및 수축기/이완기 혈압(SBP/DBP) 예측에서 기존 모델 대비 높은 R-squared 값 및 낮은 MAE 달성
  • 임상 결과 예측: 1년 사망률 및 발생 5분 전 오알람 예측에서 로지스틱 회귀, 랜덤 포레스트 등보다 높은 AUC 기록
  • 질의 응답(QA) 및 교차 복원: ECGQA 벤치마크 우수성 입증 및 단일 유도에서 12유도 ECG, PPG에서 리드 II ECG로의 크로스 모달리티 복원 성공

한계 및 향후 과제

  • 딥러닝 특유의 블랙박스 특성으로 인한 실제 임상 현장에서의 신뢰성 및 채택 한계
  • 170만 명 규모의 데이터 활용에도 불구하고 더 광범위한 대규모 데이터 세트 추가 요구
  • 거대 파운데이션 모델 구조로 인한 높은 학습 및 배포 연산 비용 발생
  • 일부 크로스 모달리티 신호 복원 작업에서의 추가적인 품질 개선 및 최적화 필요

첨부 파일