直达「 通往AGI之路 」飞书知识库 →
Rex: Rapid exploration and exploitation for ai agents
|最后更新: 2023-9-17
Date
Jul 18, 2023
Institution
Saleforce
Publication
CoRR
摘要:在本文中,我们提出了一种用于人工智能代理快速探索和开发的增强型方法,称为 REX。现有的 AutoGPT 式技术有其固有的局限性,例如决策严重依赖精确的描述,而且缺乏系统的方法来利用类似于传统强化学习(RL)的尝试-失败程序。REX 引入了额外的奖励层,并整合了与置信度上限 (UCB) 分数类似的概念,从而提高了人工智能代理的性能和效率。这种方法的优势在于可以利用日志中的离线行为,并能与现有的基础模型无缝集成,同时不需要对模型进行任何微调。通过与思维链(CoT)和推理规划(RAP)等现有方法的比较分析,基于 REX 的方法表现出了与这些现有技术相当的性能,在某些情况下甚至超过了这些技术所取得的结果。值得注意的是,基于 REX 的方法显著缩短了执行时间,增强了其在各种场景中的实际应用能力。
 
notion image
 
研究动机:LLM 在学习和优化性能方面面临的三个挑战。
  • 缺乏系统的奖励整合。虽然 LLM 可以根据输入数据生成操作,但他们通常很难系统地整合奖励信号。这可能会阻碍他们学习和优化绩效的能力,因为奖励是强化学习的关键组成部分。
  • 勘探与开采的权衡。探索新策略以发现潜在更好的回报和利用现有知识来最大限度地提高短期收益之间很难取得适当的平衡。
  • 长期规划不足。LLM 可能会专注于即时奖励,而忽略了长期规划的重要性。这种缺乏远见可能会阻碍他们确定更有利可图的途径和行动,从而在未来产生更大回报。
 
REX:Rapid Exploration and Exploitation
  • 不同于蒙特卡洛算法,该算法不是在每个状态中逐个执行操作,而是在每个阶段同时考虑所有可能的动作。这意味着该算法可以一次性预测整个解决方案,包括中间步骤的顺序和最终答案。 这样就无需进行状态转换和多次预测,从而节省时间和资源。
  • 一旦确定最终答案是正确的,算法就会使用反向传播将结果传播回解中的所有中间步骤。
  • 三种算法:UCB-CoT、R-CoT、UCL-CoT
 
Loading...