Reflexion: Language Agents with Verbal Reinforcement Learningbb
Reflexion 是一个言语强化方法,通过反思总结上一次尝试的失败经验,并添加为下一次尝试时的上下文,为 Agents 提供具体的改进方向,帮助它从先前的失败中学习,从而更好地完成任务。

Reflexion 的框架
- Actor:采用 ReAct 框架生成 Action;
- Evaluator:评估 Actor 输出的质量,反映其在给定任务上下文中表现的奖励分数;
- Self-reflection:生成口头的自我反思,为未来的试验提供有价值的反馈;
- Memory:轨迹历史充当短期记忆,而 Self-reflection 的输出存储在长期记忆中;

Reflexion 应用性很强,可以提高决策和知识密集型任务的试错性能,只需要依赖一个二元的奖励模型。它应用在更复杂任务中,可以帮助智能体学会新想法,探索更大的状态空间,并通过在过去环境中的经验形成更准确的行动规划。