Multi-Scale and Multi-Modal Contrastive Learning Network for Biomedical Time Series
Information
| 일자 | 2025년 11월 17일 |
|---|---|
| 발표자 | 진재욱 |
Video
Overview
이 발표는 M2CL(Multi-scale & Multi-modal Contrastive Learning)을 통해 멀티모달 바이오메디컬 시계열(MBTS)의 모달 분포 차이 + 다중 스케일 구조 문제를 해결하고, 증강 없이 크로스모달 포지티브 페어로 강건한 사전학습 프레임워크를 제시합니다.
MBTS 문제 정의
- 모달 분포 차이: PPG/SPO2/ACC 등 진폭·주파수·구조가 달라 단일 인코더 학습 시 표현 오류 발생
- 다중 스케일: 심박(고주파)·호흡(저주파)·모션노이즈(중간대역) 등 한 신호 내 여러 패턴 공존
- 기존 CL 한계: jitter/scale/crop 증강이 생체신호 의미(peak/amp/long-term) 훼손 가능
M2CL 핵심 설계(3모듈)
- Inter-modal Grouping: 유사 모달끼리 그룹화 후 그룹별 인코더 학습(t-SNE 거리 기반)
- Multi-scale Temporal Extraction: 코스/미디엄/파인 패치로 분해 + 스케일별 마스킹 강도 조절 → 멀티스케일 TCN으로 특징 추출
- Cross-modal Contrastive Loss: 같은 사람의 서로 다른 모달(그룹) 표현을 positive, 다른 사람은 negative로 InfoNCE 학습(증강 불필요)
다운스트림 성능(요약)
- 호흡수 추정(RR): MAE 감소(저주파 트렌드 학습 유리)
- 운동 심박수(HR): RMSE 감소(모션 아티팩트 상황에서 크로스모달 정렬 효과)
- 활동 인식(HAR): 정확도 증가(ACC+PPG/SPO2 동시 활용)
- 수면무호흡 탐지(PSG/스마트링): AUC/F1 개선(리얼월드 노이즈·미싱에도 강건)
분석/어블레이션
- t-SNE 시각화: 모달/태스크별 임베딩 분리 확인
- Ablation: 그룹핑/멀티스케일/크로스모달 로스 중 하나만 빠져도 성능 하락 → 결합 효과 입증
한계 및 향후 과제
- 그룹핑이 데이터 분포 의존적 → 자동/도메인-어웨어 그룹핑 필요
- 모달 수↑ → 인코더 수↑로 연산비용 증가(파라미터 효율화 필요)
- 특정 모달 지배(도미넌스) 가능 → 모달 밸런싱/정렬 제어 필요