Toward Foundation Model for Multivariate Wearable Sensing of Physiological Signals
Information
| 일자 | 2026년 02월 09일 |
|---|---|
| 발표자 | 이건 |
Video
Overview
이 논문은 웨어러블 다변량 생체·관성 신호를 신호 조합/채널 수 가변 상태로 처리하는 파운데이션 모델 Nowear를 제시하고, 웨이블릿 기반 토크나이제이션 + 마스킹 재구성 사전학습 + CLS 기반 채널 퓨전 + 제로샷/리니어 프로빙 평가 + 레이어별 동력학 해석 지표로 범용성·성능·해석가능성을 함께 정리합니다.
연구 배경·문제
- 기존 생체신호/시계열 FM의 한계: 사전 정의된 신호 세트 의존, 단변수 중심 학습, 채널 간 상호작용 포착 부족
- 웨어러블 데이터 제약: 채널별 샘플링레이트·해상도 상이, 모달리티별 전처리 의존 → 범용 전처리/일관 파이프라인 부족
- 요구 조건: 다양한 신호 유형(PPG/ECG/EDA/GSR/EEG/IMU 등), 채널 수 가변, 해석가능성·강건성
데이터 구성·전처리
- 사전학습 데이터: 공개 9개 데이터셋 수집(다변량 세그먼트), Time-series mixup(구간 치환) 기반 대규모 증강
- 다운스트림 데이터: 누수 방지 목적의 추가 11개 데이터셋, 18개 태스크(정서 분류/질병 위험/수면 분석/바이오마커 추정 등)
- 전처리 파이프라인: 65Hz 리샘플링(나이퀴스트 32.5Hz), 6초 세그먼트(390샘플), 디트렌딩, 가우시안 스무딩(σ≈1.3), subject 단위 80:20 분할
입력 토크나이제이션
- 한계 지점: STFT 스펙트로그램의 시간–주파수 해상도 트레이드오프, 단일 윈도우로 다양한 스케일 패턴 일반화 어려움
- Nowear 토큰화: 1차·2차 미분 신호 생성 → 원신호/미분 신호 각각 CWT(연속 웨이블릿 변환) → 3개 스케일러그램(RGB 유사 채널) 구성 → 패치 분할 → ViT 입력 토큰
사전학습 목적·마스킹 전략
- 학습 목표: 마스킹 오토인코더 기반 재구성 학습
- 마스킹 4종: 시간+스케일 동시, 스케일 전용, 시간 전용, 비정형(패치 랜덤)
- 관찰 결과: 시간+스케일 동시 마스킹이 다운스트림 성능 최상(시간–주파수 결합 구조 학습 효과)
모델 아키텍처·채널 퓨전
- 구조: Conv 패치 프로젝션 → Transformer 백본(12블록) → 경량 디코더(2블록 + linear/conv) → 재구성 채널별 CLS 토큰 도입(전역 표현)
- 채널 관계 학습 방식 비교: All-attention(비용↑), Cross-attention(채널 수 가변에 부적합), CLS-attention(최상 성능), Min-pooling attention
- 결론: CLS 토큰 기반 채널 퓨전이 채널 간 관계 반영과 계산 효율에서 균형점
다운스트림 평가 방식
- 리니어 프로빙: 백본 고정 + 선형 분류기 학습으로 표현 품질 평가
- 제로샷: 생체신호 인코더·텍스트 인코더 고정 + 경량 매핑/대조학습 기반 유사도 분류
- 메모리 스트림 inspired 퓨전: 시간 패치 임베딩 가중 합성(관련성·최신성·중요도 점수)
- 관련성: 신호–텍스트 크로스어텐션 스코어 기반
- 최신성: 시간 인덱스 기반 지수 감쇠
- 중요도: 패치 선택(보존/무시) 확률 기반 게이팅
성능 결과 요지
- 리니어 프로빙: 신호 분석/질병 위험/활력징후 추정 등 다수 작업군에서 일관된 상위 성능(기준 모델: TFC, CLAP, Chronos, 통계적 베이스라인)
- 스케일링: 사전학습 데이터 증가(수십 시간→수백 시간/수백만 세그먼트)와 성능 향상 경향
- 제로샷: 리니어 프로빙 대비 낮지만, 다태스크 제로샷 가능성 시연
해석가능성 분석
- 레이어별 표현 특성 지표: DFA(허스트/자기상관), Lyapunov 지수(혼돈/민감도), Persistent entropy(H0/H1 토폴로지 불확실성)
- 관찰 1: 깊은 레이어에서 복잡 신호(GSR/EEG/ACC 등) 표현 분화(주기성↓, 불확실성·민감도↑)
- 관찰 2: 상대적으로 단순 신호(PPG/ECG) 표현 안정성 유지(지표 변화 완만)
한계·확장 포인트
- 사전학습용 웨어러블 헬스 라벨/태스크 다양성 부족
- 제로샷의 회귀 태스크 한계(연속값 문제의 이산화 등 근본 해결 아님)
- 주파수 대역/시간 스케일 확장 제약(오디오 고대역, 분 단위 장주기 신호 등)
- 적용 아이디어: CLS-attention 채널 퓨전, 원신호 기반 입력 vs 웨이블릿 이미지 입력의 비용–성능 트레이드오프 설계