SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering


Information

일자 2026년 06월 22일
발표자 김영돈

Video


Overview

이 발표는 LLM 에이전트가 소프트웨어 엔지니어링 환경과 상호작용할 때 모델의 가중치뿐만 아니라 에이전트-컴퓨터 인터페이스(ACI) 설계가 성능에 결정적인 영향을 미친다는 것을 증명하고, 이를 적용한 SWE-agent 시스템의 구현 및 실험 결과를 제시합니다.

SWE-agent 및 ACI 도입 배경

  • 기존 GUI 및 표준 쉘(Shell) 명령어는 인간을 기준으로 설계되어 LLM 에이전트의 컨텍스트 낭비 및 실행 오류 유발
  • 모델 고정 상태에서도 에이전트와 컴퓨터 간 상호작용 계층인 ACI(Agent-Computer Interface) 설계에 따른 성능 차이 발생
  • GPT-4 Turbo 기반 SWE-agent는 SWE-bench Lite에서 18% 해결률 달성 (기존 RAG 및 쉘 단독 에이전트 대비 대폭 향상)

ACI 설계 4대 원칙

  • 단순성: 복잡한 배시(Bash) 명령 대신 역할이 명확하고 이해하기 쉬운 전용 명령어(open, edit, search 등) 제공
  • 압축성: 여러 번의 하위 작업을 한 번의 액션으로 통합하여 안정성 확보 (예: 특정 범위 코드 일괄 교체)
  • 피드백: 컨텍스트 낭비 방지 및 상태 오해 최소화를 위해 다음 액션 결정에 필요한 핵심 정보만 요약 제공
  • 가드레일: 린팅(Linting) 등을 통해 파일에 구문 오류가 누적되기 전 사전 차단 및 복구 단서 제공

SWE-agent 핵심 기능 구현

  • 검색 및 탐색: 불필요한 컨텍스트 제한을 위해 요약된 검색 결과 제공 및 구체적인 검색 쿼리 유도
  • 파일 뷰어: 전체 파일 대신 최대 100줄 단위 윈도우 및 줄 번호 제공으로 에이전트의 안정적인 위치 추적 지원
  • 편집 및 오류 제어: 특정 줄 범위 단위의 직접 교체 및 신텍스 에러 발생 시 실제 파일 적용 전 사전 차단
  • 컨텍스트 관리: 최근 5개 관찰(Observation) 내역만 상세 유지하고 오래된 내역은 축약하여 장기 문맥 효율성 확보

실험 결과 및 실패 요인 분석

  • 검색 인터페이스: 인간에게 익숙한 순차적 탐색보다 결과를 한 번에 요약해 주는 방식이 모델 컨텍스트 비용 측면에서 유리
  • 편집 인터페이스: 쉘 직접 수정보다 전용 edit 명령 및 린팅(Linting) 가드레일 결합 시 해결률 대폭 향상
  • 실패 주요 요인: 파일 탐색 및 편집 성공 후에도 실제 문제 해결을 위한 논리가 틀리거나 지나치게 특화된 구현 오류(약 52%)가 대부분 차지

의료 AI 및 에이전트 시스템 시사점

  • 임상 에이전트 시스템(EHR, 가이드라인 검색 등) 도입 시 로우 데이터(Raw data) 직접 제공을 지양하고 명확히 구조화된 ACI 설계 필수
  • 단위 오류, 금기 약물, 비정상 수치 범위를 사전에 차단하는 임상 환경 맞춤형 가드레일 및 검증 훅(Hook) 적용 필요
  • 최종 성능 수치뿐만 아니라 도구 호출, 입력 구조화, 오류 로그 등 에이전트 하네스(Harness) 인프라 전반에 대한 평가 요구

첨부 파일