Why do tree-based models still outperform deep learning on typical tabular data?


Information

일자 2026년 01월 05일
발표자 한유진

Video


Overview

이 발표는 “왜 정형(tabular) 데이터에서 딥러닝이 트리 기반 모델(XGBoost/GBDT)보다 성능이 낮은가”를 45개 벤치마크와 통제된 튜닝/전처리 실험으로 비교·검증하고, 그 원인을 ‘귀납적 편향 차이’로 실증 분석합니다.

문제의식: 정형 데이터에서 딥러닝이 안 뜨는 이유

  • 이미지/텍스트에서는 딥러닝이 성공했지만, 정형 데이터 실무·경진대회는 여전히 XGBoost/GBDT 같은 트리 앙상블이 주류.
  • 주요 원인 후보로 귀납적 편향(inductive bias) 차이를 제시.
  • MLP(Fully-connected): 구조적 가정이 약해서(tabular의 복잡한 규칙을) 많은 데이터·학습이 필요.
  • CNN/RNN: 공간/순차 구조라는 강한 가정이 있어 효율적 일반화가 가능.
  • Tabular은 “이미지의 격자/언어의 순서” 같은 구조가 없어, 딥러닝의 강점이 잘 안 살아남.

기존 연구 한계와 본 논문의 기여

  • 이전 비교 연구 : 특정 데이터셋/모델에 유리하게 설계되거나, 데이터셋 수가 적거나, 최신 tabular DL 모델(FT-Transformer, SAINT 등)을 포괄적으로 비교하지 못함.
  • 본 논문은 공정한 프로토콜로 45개 중간 규모 벤치마크를 구성해 트리 vs 딥러닝 성능 격차를 안정적으로 재현.

벤치마크/실험 설계(공정성 확보)

  • 45개 데이터셋: 다양한 도메인, 현실 데이터 중심.
  • 제외 기준: 너무 작거나 / 차원 과다 / 결정론적(너무 쉬운) 데이터.
  • 중간 규모(최대 1만 샘플 수준) 위주로 비교, 결측 제외.
  • 분류는 클래스 밸런싱 고려, 범주형은 너무 큰 카디널리티는 피함.
  • 랜덤 서치 기반 하이퍼파라미터 튜닝: 데이터셋당 최대 ~400 조합 평가.
  • 점수 정규화(0~1): 데이터셋 난이도 차이를 보정(분류는 하위 10%, 회귀는 50% 분위수를 바닥점수로 두어 아웃라이어 영향 완화).

전처리/모델 구성

  • 딥러닝 전처리 최소화: 수치형: Quantile Transformer로 가우시안화
  • 회귀 타깃이 heavy-tail이면 log 변환
  • 범주형: one-hot encoding

비교 모델

  • 트리: Random Forest, GBDT, XGBoost
  • 딥러닝: MLP, ResNet, FT-Transformer, SAINT

핵심 결과: “튜닝을 많이 해도 트리가 계속 이김”

  • 모든 튜닝 예산 구간에서 트리 모델이 딥러닝보다 우수.
  • 튜닝 횟수를 늘려도 격차가 크게 줄지 않음 → “튜닝 부족 때문”이라고 보기 어려움.
  • 범주형 변수가 포함되면 격차가 더 벌어지긴 하지만, 수치형-only에서도 차이가 유지 → 문제는 범주형 처리만이 아니라 tabular 자체와 DL의 궁합 문제.

왜 트리가 유리한가? (3가지 실증 분석) 1) Tabular 타깃 함수는 “불규칙/비매끄러운” 경우가 많다

  • 타깃을 커널 스무딩으로 매끄럽게 만들수록: 트리는 성능이 급격히 하락, 신경망은 변화가 상대적으로 작음
  • 해석: 트리는 원래 불규칙한 결정경계/규칙을 잡는 데 이득을 보고 있었다. 2) 정보 없는(노이즈) 피처가 흔하다
  • 중요도 낮은 피처를 점진적으로 제거해도 트리 성능은 크게 안 떨어짐 → “진짜로 정보가 없는 피처”였음.
  • 노이즈 피처를 추가하면 MLP/ResNet 성능이 크게 하락 → DL이 노이즈에 더 취약. 3) Tabular은 회전 불변성이 성립하지 않는다
  • 피처 공간을 회전하면(축 의미가 섞임): 트리(축 정렬 분할)는 성능이 떨어짐, MLP(회전에 비교적 둔감)는 오히려 상대적으로 유리해지는 역전도 발생
  • 핵심 메시지: tabular에서 각 컬럼 축은 의미가 고정되어 있는데, MLP는 이를 크게 고려하지 않아 “구조적 편향 미스매치”가 발생.

결론 및 시사점

  • 정형 데이터에서는 트리 앙상블이 계산 효율적으로 더 쉽게 높은 성능을 낸다.
  • 그 이유는 tabular의 대표적 특성 3가지: 불규칙한 타깃 함수, 정보 없는 피처의 빈번함, 회전 불변성 불만족(축 의미 중요)

향후 과제(논문 한계)

  • 결측치, 고카디널리티 범주형 등 현실적 난제에 대한 평가 부족
  • 다중 클래스 확장 실험 부족
  • DL이 학습한 임베딩의 효과/의미 분석 필요

첨부 파일