Code as Agent Harness


Information

일자 2026년 05월 25일
발표자 김민소

Video


Overview

이 발표는 “Code as agent harness” 논문을 바탕으로, 코드가 단순한 LLM의 출력물을 넘어 AI 에이전트의 실행, 검증, 상태 유지를 가능하게 하는 핵심 인프라(Harness)로 전환되고 있음을 설명하고, 이를 활용한 에이전트 시스템 설계 원리와 향후 과제를 제시합니다.

에이전트 하네스(Agent Harness)와 코드의 역할 변화

  • 단순 산출물(Output)에서 에이전트 운영의 핵심 인프라(Infrastructure)로 코드의 패러다임 전환
  • 코드를 매개로 모델의 의도를 실제 환경에서 실행(Executable) 및 결과 검증(Inspectable)
  • 파일, 변수, 실행 로그 등의 형태로 에이전트의 진행 상태를 지속적으로 저장 및 추적(Stateful)
  • 모델의 추론(Reasoning), 행동(Acting), 환경 상태(Environment Modeling)를 코드 기반으로 연결

코드 기반 장기 실행 메커니즘 (Harness Mechanisms)

  • 단순한 자연어 메모가 아닌 실행 가능한 작업 흐름과 명시적으로 연결된 플래닝(Planning)
  • 단일 컨텍스트 윈도우의 한계를 극복하고 작업 상태와 과거 경험을 재사용하는 다층적 메모리(Memory)
  • API 검색, 에디터 등 실제 환경 조작을 위한 도구 사용(Tool Use) 및 그에 따른 권한 관리
  • 계획 수립, 코드 실행, 검증(정적 분석, 테스트 등), 수정 및 롤백으로 이어지는 지속적 피드백 루프

다중 에이전트 확장 및 공유 상태 (Scaling the Harness)

  • 코드베이스, 실행 로그 등 공유 코드 아티팩트를 중심 작업 공간으로 삼는 다중 에이전트 협업 구조
  • 기획자(Planner), 개발자(Coder), 리뷰어(Reviewer), 테스터(Tester) 단위의 역할 전문화 및 교차 검증
  • 대화 기록 의존을 탈피하고 에이전트 간 인지 상태 불일치(State desync)를 해결하기 위한 명시적 공유 상태 동기화

코드 기반 에이전트의 주요 응용 분야

  • 전체 코드베이스 탐색 및 테스트, PR 피드백까지 처리하는 심층 코딩 어시스턴트 (SWE-agent 등)
  • 사용자의 실 의도를 클릭, 타이핑 등 실행 가능한 명령 코드로 변환 및 조작하는 GUI/OS 에이전트
  • 성공한 물리적/가상적 행동 절차를 코드 형태의 스킬로 축적하고 재사용하는 로봇 및 시뮬레이션 에이전트
  • 가설 수립부터 실험 실행, 데이터 분석까지의 연구 과정 전체를 코드로 추적하고 재현하는 과학 연구 에이전트
  • 다양한 피드백 신호를 관리하되 프라이버시와 사용자 통제권 보장이 필수적인 개인화 에이전트

한계 및 향후 과제 (Open Problems)

  • 단순 테스트 통과 여부를 넘어 실행 신뢰성, 피드백 품질 등 하네스 관점의 다각적 평가 지표(Metric) 개발
  • 다중 에이전트 환경에서 발생하는 공유 상태 충돌을 단순히 덮어쓰지 않고 의미론적으로 해결(Semantic merge)하는 기술
  • 중요 데이터 접근 및 위험도 높은 코드 수정 시 권한 계층화, 롤백, 인간 승인 개입(Human-in-the-loop) 등 안전성 통제 장치 마련

첨부 파일