Gated Transformer Networks for Multivariate Time Series Classification


Information

일자 2025년 11월 24일
발표자 최예은

Video


Overview

이 발표는 Gated Transformer Networks(GTN)로 다변량 시계열 분류에서 “시간 의존성(temporal)”과 “채널 상호작용(channel)”을 분리 학습하고, 게이팅으로 두 정보를 상황별로 가중 결합하는 투-타워 트랜스포머 구조를 소개합니다.

연구 배경

  • 다변량 시계열은 정보는 풍부하지만 시간 패턴 + 채널 상관관계를 동시에 모델링해야 해서 어려움.
  • CNN: 로컬 패턴은 강하지만 장거리 의존성/채널 상호작용 반영 한계.
  • RNN: 계산비용 크고 병렬화 불리 → 트랜스포머 채택.

핵심 아이디어(GTN)

  • Two-tower Self-Attention
  • Time-step tower: 시간축 의존성 학습(포지션 인코딩 + 마스킹)
  • Channel-wise tower: 채널 간 상호작용 학습(채널 순서 의미 없음 → 포지션 인코딩 없음)
  • Gating fusion
  • 두 타워 출력(시간 S, 채널 C)을 샘플별로 가중치 계산해 최종 표현을 구성.

모델 구조(요약)

  • 입력을 time-step / channel 각각 임베딩(linear projection + tanh).
  • 각 타워에 Transformer encoder(FFN + LayerNorm) 적용.
  • 마스킹으로 패딩 무시 및(필요 시) 미래 참조 제한.
  • 게이팅으로 결합 → Softmax 분류.

평가 및 결과

  • 13개 다변량 시계열 데이터셋에서 9개 모델과 비교.
  • 성능은 FCN/ResNet 대비 큰 우위 없음(통계적으로 유의 X).
  • Ablation
  • 마스킹: 전반 성능 향상(패딩/불필요 attention 차단).
  • 채널 타워 단독이 더 좋은 경우 많음 → 채널 상관관계가 핵심일 수 있음.
  • 단순 concat은 항상 이득 아님, 게이팅이 더 안정적.

해석/시각화 인사이트

  • 어텐션 맵에서 유사한 패턴을 가진 채널/구간에 높은 attention이 나타남.
  • 단순 거리(L2)와 어텐션은 완전 일치하지 않음 → “분류에 유의미한 패턴” 중심으로 선택.

한계 및 향후 방향

  • 과적합에 민감 → validation 기반 검증으로 완화.
  • 게이팅을 더 샘플-적응적으로 정교화, 트랜스포머 계산 효율 개선 방향 제안.

첨부 파일