Towards A Unified Agent with Foundation Models

该论文的主要贡献是提出了一个利用语言模型和视觉语言模型来设计强化学习智能体的框架。该框架的核心思路是利用语言作为智能体的核心推理工具,探索语言模型如何为智能体解决一系列强化学习中的基本挑战,如有效的探索、经验数据的重用、技能调度以及从观察中学习等。
代理框架
- 使用 CLIP 模型将视觉输入映射为文本描述
- 使用语言模型 FLAN-T5 生成子目标来指导探索
- 使用基于 Transformer 的策略网络来组织子目标到动作
- 使用收集推理范式进行强化学习
该框架在以下方面显示出良好的效果:
- 稀疏奖励环境中的有效探索
- 利用历史数据加速新任务学习
- 调度已学会的技能解决新任务
- 从专家演示中进行一次性学习