Toolformer: Language Models Can Teach Themselves to Use Tools
Information
| 일자 | 2026년 01월 26일 |
|---|---|
| 발표자 | 정성연 |
Video
Overview
이 논문은 LLM이 인간 주석 없이 API 호출을 “스스로 선택·학습” 하도록 만들어 최신정보/계산/번역/시간 인식 등 LLM 한계를 보완하는 self-supervised 도구 사용 학습 프레임워크를 정리합니다.
문제 배경(왜 필요한가)
- LLM 한계: 최신 정보 접근 불가, 환각, 저자원 언어 취약, 수학/계산 약함, 시간 인식 부족
- 기존 도구 사용 한계: 인간 주석 의존, 태스크별 고정, 확장성 부족 → 모델이 “언제/어떤 도구”를 쓸지 자율 결정 필요
핵심 아이디어(Toolformer)
- 텍스트 생성 중 API 호출 토큰을 삽입하고, 결과를 받아 이어서 생성하는 방식으로 성능 향상
- “도구 호출이 다음 토큰 예측에 유리한 경우만” 학습 데이터로 채택해 도구 사용을 자기지도 학습
학습 데이터 생성 파이프라인(3단계)
- Sampling: few-shot 예시를 보고 API 호출 후보를 여러 위치에서 대량 생성(K개 위치 × 최대 M개 호출)
- Executing: 후보 호출을 실제 실행해 결과 획득(외부 도구 출력 포함)
- Filtering: API 호출 전/후 loss 차이로 유용성 검증 → 의미 있게 loss가 줄면 학습 데이터에 포함
사용 도구(논문 실험의 5종)
- QA 도구(사실 확인/질의응답), Calculator(사칙연산), Wikipedia Search(스니펫 검색)
- Machine Translation(언어 감지 후 영어 번역), Calendar(현재 날짜 반환)
파인튜닝/추론 방식
- 최종 데이터셋(C*)으로 모델을 파인튜닝해 “언제 API를 넣을지” 학습
- 추론 중 API 토큰 생성 시 디코딩을 잠시 멈추고 호출 실행 후 결과를 삽입해 다음 생성 지속
실험 구성 및 비교군
- 데이터/모델: CCNet 서브셋 기반, GPT-J 기반 Toolformer 학습
- 베이스라인: 원본 학습 GPT-J, API 없는 Toolformer(호출 비활성화), 대형 모델(OPT/GPT-3) 비교
주요 결과(성능이 좋아진 이유)
- 사실/지식 보완(예: LAMA): QA 도구를 높은 비율로 사용하며 성능 크게 향상
- 수학(MATH): Calculator 호출로 대형 모델보다도 좋은 결과, 호출 비활성화해도 성능 유지(파인튜닝 효과)
- 검색 기반 질의응답: WikiSearch 활용으로 성능 개선, 다만 QA 자체는 GPT-3가 더 강한 경우 존재
- 다국어 질의: 번역 도구 사용으로 성능 상승(특히 저자원 언어에서 개선 폭 큼)
- 시간 관련(Temporal): Calendar 도구가 필요한 데이터셋에서 성능 향상(단일 호출 제약이 영향)
언어모델링/스케일링 분석
- 도구 호출을 추가해도 전반적인 LM 성능(Perplexity) 큰 손상 없이 유지되는 경향
- 모델이 충분히 커질 때(예: ~775M 이상) 도구 활용 효과가 뚜렷하게 나타남
한계 및 향후 과제(논문 결론)
- 도구 체이닝(연속 호출)·대화형 도구 사용은 학습되지 않음
- 검색 도구는 결과 변동성이 커서 상호작용/탐색 능력 확장이 필요
- 프롬프트 민감성, “실제로 도구가 필요한 샘플이 적어” 데이터 효율이 낮음
- 도구 호출 비용(계산/지연)을 학습 목표에 반영하지 못함 → 부트스트래핑 등 개선 제안