Reflexion: Language Agents with Verbal Reinforcement Learning

2026-02-16 | Views:

Information

일자	2026년 02월 16일
발표자	최예은

Video

Overview

이 논문은 Reflection 프레임워크로 LM 기반 에이전트의 실패 경험 → 언어적 피드백 → 다음 시도 개선 루프를 만들고, 가중치 업데이트 없이(in-context) 의사결정·추론·프로그래밍 전 영역에서 성능 향상과 해석가능성을 동시에 목표로 하는 언어적 강화학습(Verbal RL) 구성을 제시합니다.

연구 배경(필요성)

기존 에이전트 학습 제약: in-context 예시 의존, 대규모 RL 파인튜닝 비용, 장기적 실패-개선 루프 부재
현실 요구: 실패 원인 기록, 다음 시도 전략 수정, 과정 추적 가능한 학습 메커니즘

핵심 개념: 언어적 강화학습(Verbal RL)

보상 신호 구성: 성공/실패 이진 신호 + 실패 원인·수정 지침 자연어 피드백
학습 신호 성격: 수치 그라디언트 대신 의미 기반 피드백(semantic signal)
기대 효과: 개선 방향 명시화, 인간 관찰 가능한 해석성(성찰 로그)

프레임워크 구성 요소

Actor(MA): 행동/텍스트 생성, CoT·ReAct 적용 가능, 메모리 컨텍스트 사용
Evaluator(ME): 궤적(trajectory) 평가로 보상 산출(태스크별 채점 방식 다름)
Self-Reflection(MSR): 궤적+보상+기억 기반 성찰 생성, 성찰을 메모리에 누적

알고리즘(반복 루프)

초기 정책/모듈 초기화 → 1회 시도 궤적 생성 → 평가 → 성찰 생성 → 메모리 저장
다음 트라이얼에서 메모리(성찰)를 컨텍스트로 사용해 행동 전략 수정
종료 조건: 성공 판정 또는 최대 트라이얼 도달

실험 1: 의사결정(텍스트 기반 환경)

환경/태스크: 탐색·이동·조작 등 134개 작업
비교 조건: ReAct 단독 vs Reflection+ReAct, 성찰 트리거 방식(휴리스틱 트리거, LLM 판정 트리거)
관찰 결과: 트라이얼 누적에 따라 성공률 상승, 단독 대비 개선

실험 2: 추론(HotpotQA 중심)

설정 1: CoT 기반 답변 생성, exact match 채점으로 이진 피드백 제공
설정 2: 그라운드트루스 컨텍스트 제공/비제공 비교(모델 검색 필요성 분리)
설정 3: ReAct+위키 API 검색 결합(외부 도구 상호작용 포함)
핵심 비교: 단순 에피소드 기억(Episodic Memory) vs 성찰 메모리(Self-Reflection) → 성찰의 추가 이득 확인

실험 3: 프로그래밍(Python·Rust)

벤치마크: MBPP, HumanEval, LeetCode Hard Gym
절차: 유닛 테스트 자동 생성 → 문법 필터링 → 테스트 스위트 샘플링(n≤6) → 실행/평가 → 성찰 → 재시도
결과 요약: 다수 벤치마크에서 Pass@1 개선, 자체 테스트 기반 예측 신뢰도(TP/FP/FN/TN) 분석 제시

한계 및 고려사항

최적화 한계: 로컬 미니마 수렴 가능성, 더 나은 해법 탐색 실패 가능성
메모리 한계: 컨텍스트 길이 제약으로 슬라이딩 윈도우 메모리, 장기 확장 필요(벡터DB/SQL 등 제안)
프로그래밍 한계: 비결정적 함수, 외부 API, 하드웨어 의존, 병렬/동시성 등 테스트로 검증 어려운 코드 취약
사회적 영향: 자동화·자율성 강화로 오용 위험 증가, 성찰 모니터링 기반 안전 점검 필요

의의

파인튜닝 없이 실패 경험을 언어로 축적·재사용하는 저비용 정책 개선 절차
추론/도구사용/코딩에서 반복 시도 성능 향상, 과정 해석 가능성 제공
이후 에이전트 학습 흐름(RLAIF 등)과 연결되는 “AI 피드백 기반 자기개선” 관점 제공

첨부 파일

Reference