Why do tree-based models still outperform deep learning on typical tabular data?

2026-01-05 | Views:

일자	2026년 01월 05일
발표자	한유진

이 발표는 “왜 정형(tabular) 데이터에서 딥러닝이 트리 기반 모델(XGBoost/GBDT)보다 성능이 낮은가”를 45개 벤치마크와 통제된 튜닝/전처리 실험으로 비교·검증하고, 그 원인을 ‘귀납적 편향 차이’로 실증 분석합니다.

문제의식: 정형 데이터에서 딥러닝이 안 뜨는 이유

기존 연구 한계와 본 논문의 기여

이전 비교 연구 : 특정 데이터셋/모델에 유리하게 설계되거나, 데이터셋 수가 적거나, 최신 tabular DL 모델(FT-Transformer, SAINT 등)을 포괄적으로 비교하지 못함.
본 논문은 공정한 프로토콜로 45개 중간 규모 벤치마크를 구성해 트리 vs 딥러닝 성능 격차를 안정적으로 재현.

벤치마크/실험 설계(공정성 확보)

전처리/모델 구성

비교 모델

핵심 결과: “튜닝을 많이 해도 트리가 계속 이김”

모든 튜닝 예산 구간에서 트리 모델이 딥러닝보다 우수.
튜닝 횟수를 늘려도 격차가 크게 줄지 않음 → “튜닝 부족 때문”이라고 보기 어려움.
범주형 변수가 포함되면 격차가 더 벌어지긴 하지만, 수치형-only에서도 차이가 유지 → 문제는 범주형 처리만이 아니라 tabular 자체와 DL의 궁합 문제.

왜 트리가 유리한가? (3가지 실증 분석) 1) Tabular 타깃 함수는 “불규칙/비매끄러운” 경우가 많다

타깃을 커널 스무딩으로 매끄럽게 만들수록: 트리는 성능이 급격히 하락, 신경망은 변화가 상대적으로 작음
해석: 트리는 원래 불규칙한 결정경계/규칙을 잡는 데 이득을 보고 있었다. 2) 정보 없는(노이즈) 피처가 흔하다
중요도 낮은 피처를 점진적으로 제거해도 트리 성능은 크게 안 떨어짐 → “진짜로 정보가 없는 피처”였음.
노이즈 피처를 추가하면 MLP/ResNet 성능이 크게 하락 → DL이 노이즈에 더 취약. 3) Tabular은 회전 불변성이 성립하지 않는다
피처 공간을 회전하면(축 의미가 섞임): 트리(축 정렬 분할)는 성능이 떨어짐, MLP(회전에 비교적 둔감)는 오히려 상대적으로 유리해지는 역전도 발생
핵심 메시지: tabular에서 각 컬럼 축은 의미가 고정되어 있는데, MLP는 이를 크게 고려하지 않아 “구조적 편향 미스매치”가 발생.

결론 및 시사점

향후 과제(논문 한계)