Toolformer: Language Models Can Teach Themselves to Use Tools


Information

일자 2026년 01월 26일
발표자 정성연

Video


Overview

이 논문은 LLM이 인간 주석 없이 API 호출을 “스스로 선택·학습” 하도록 만들어 최신정보/계산/번역/시간 인식 등 LLM 한계를 보완하는 self-supervised 도구 사용 학습 프레임워크를 정리합니다.

문제 배경(왜 필요한가)

  • LLM 한계: 최신 정보 접근 불가, 환각, 저자원 언어 취약, 수학/계산 약함, 시간 인식 부족
  • 기존 도구 사용 한계: 인간 주석 의존, 태스크별 고정, 확장성 부족 → 모델이 “언제/어떤 도구”를 쓸지 자율 결정 필요

핵심 아이디어(Toolformer)

  • 텍스트 생성 중 API 호출 토큰을 삽입하고, 결과를 받아 이어서 생성하는 방식으로 성능 향상
  • “도구 호출이 다음 토큰 예측에 유리한 경우만” 학습 데이터로 채택해 도구 사용을 자기지도 학습

학습 데이터 생성 파이프라인(3단계)

  • Sampling: few-shot 예시를 보고 API 호출 후보를 여러 위치에서 대량 생성(K개 위치 × 최대 M개 호출)
  • Executing: 후보 호출을 실제 실행해 결과 획득(외부 도구 출력 포함)
  • Filtering: API 호출 전/후 loss 차이로 유용성 검증 → 의미 있게 loss가 줄면 학습 데이터에 포함

사용 도구(논문 실험의 5종)

  • QA 도구(사실 확인/질의응답), Calculator(사칙연산), Wikipedia Search(스니펫 검색)
  • Machine Translation(언어 감지 후 영어 번역), Calendar(현재 날짜 반환)

파인튜닝/추론 방식

  • 최종 데이터셋(C*)으로 모델을 파인튜닝해 “언제 API를 넣을지” 학습
  • 추론 중 API 토큰 생성 시 디코딩을 잠시 멈추고 호출 실행 후 결과를 삽입해 다음 생성 지속

실험 구성 및 비교군

  • 데이터/모델: CCNet 서브셋 기반, GPT-J 기반 Toolformer 학습
  • 베이스라인: 원본 학습 GPT-J, API 없는 Toolformer(호출 비활성화), 대형 모델(OPT/GPT-3) 비교

주요 결과(성능이 좋아진 이유)

  • 사실/지식 보완(예: LAMA): QA 도구를 높은 비율로 사용하며 성능 크게 향상
  • 수학(MATH): Calculator 호출로 대형 모델보다도 좋은 결과, 호출 비활성화해도 성능 유지(파인튜닝 효과)
  • 검색 기반 질의응답: WikiSearch 활용으로 성능 개선, 다만 QA 자체는 GPT-3가 더 강한 경우 존재
  • 다국어 질의: 번역 도구 사용으로 성능 상승(특히 저자원 언어에서 개선 폭 큼)
  • 시간 관련(Temporal): Calendar 도구가 필요한 데이터셋에서 성능 향상(단일 호출 제약이 영향)

언어모델링/스케일링 분석

  • 도구 호출을 추가해도 전반적인 LM 성능(Perplexity) 큰 손상 없이 유지되는 경향
  • 모델이 충분히 커질 때(예: ~775M 이상) 도구 활용 효과가 뚜렷하게 나타남

한계 및 향후 과제(논문 결론)

  • 도구 체이닝(연속 호출)·대화형 도구 사용은 학습되지 않음
  • 검색 도구는 결과 변동성이 커서 상호작용/탐색 능력 확장이 필요
  • 프롬프트 민감성, “실제로 도구가 필요한 샘플이 적어” 데이터 효율이 낮음
  • 도구 호출 비용(계산/지연)을 학습 목표에 반영하지 못함 → 부트스트래핑 등 개선 제안

첨부 파일