Gated Transformer Networks for Multivariate Time Series Classification

Gated Transformer Networks for Multivariate Time Series Classification

2025-11-24 | Views:

Information

일자	2025년 11월 24일
발표자	최예은

Video

Overview

이 발표는 Gated Transformer Networks(GTN)로 다변량 시계열 분류에서 “시간 의존성(temporal)”과 “채널 상호작용(channel)”을 분리 학습하고, 게이팅으로 두 정보를 상황별로 가중 결합하는 투-타워 트랜스포머 구조를 소개합니다.

연구 배경

다변량 시계열은 정보는 풍부하지만 시간 패턴 + 채널 상관관계를 동시에 모델링해야 해서 어려움.
CNN: 로컬 패턴은 강하지만 장거리 의존성/채널 상호작용 반영 한계.
RNN: 계산비용 크고 병렬화 불리 → 트랜스포머 채택.

핵심 아이디어(GTN)

Two-tower Self-Attention
Time-step tower: 시간축 의존성 학습(포지션 인코딩 + 마스킹)
Channel-wise tower: 채널 간 상호작용 학습(채널 순서 의미 없음 → 포지션 인코딩 없음)
Gating fusion
두 타워 출력(시간 S, 채널 C)을 샘플별로 가중치 계산해 최종 표현을 구성.

모델 구조(요약)

입력을 time-step / channel 각각 임베딩(linear projection + tanh).
각 타워에 Transformer encoder(FFN + LayerNorm) 적용.
마스킹으로 패딩 무시 및(필요 시) 미래 참조 제한.
게이팅으로 결합 → Softmax 분류.

평가 및 결과

13개 다변량 시계열 데이터셋에서 9개 모델과 비교.
성능은 FCN/ResNet 대비 큰 우위 없음(통계적으로 유의 X).
Ablation
마스킹: 전반 성능 향상(패딩/불필요 attention 차단).
채널 타워 단독이 더 좋은 경우 많음 → 채널 상관관계가 핵심일 수 있음.
단순 concat은 항상 이득 아님, 게이팅이 더 안정적.

해석/시각화 인사이트

어텐션 맵에서 유사한 패턴을 가진 채널/구간에 높은 attention이 나타남.
단순 거리(L2)와 어텐션은 완전 일치하지 않음 → “분류에 유의미한 패턴” 중심으로 선택.

한계 및 향후 방향

과적합에 민감 → validation 기반 검증으로 완화.
게이팅을 더 샘플-적응적으로 정교화, 트랜스포머 계산 효율 개선 방향 제안.

첨부 파일