WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agentsbb
摘要:现有的互动环境语言基础基准要么缺乏真实世界的语言元素,要么由于数据或反馈信号的收集需要大量人工参与而难以扩展。为了弥补这一差距,我们开发了 WebShop -- 一个模拟电子商务网站环境,其中包含 118 万种真实世界的产品和 12087 条来自人群的文本指令。给定一个说明产品需求的文本指令,代理需要浏览多种类型的网页,并采取各种行动来查找、定制和购买商品。WebShop 对语言基础提出了多项挑战,包括理解组合指令、查询(重新)表述、理解网页中的嘈杂文本并对其采取行动,以及执行策略探索。我们收集了 1,600 多次人类演示任务,并使用强化学习、模仿学习以及预训练的图像和语言模型对各种代理进行了训练和评估。我们的最佳模型实现了 29% 的任务成功率,超过了基于规则的启发式方法(9.6%),但远低于人类专家的表现(59%)。我们还分析了代理和人类的轨迹,并消除了各种模型组件,从而为开发具有更强语言理解和决策能力的未来代理提供了启示。最后,我们表明,在 amazon.com 和 ebay.com 上进行评估时,在 WebShop 上训练的代理表现出非同一般的模拟到真实的转移,这表明 WebShop 在开发可在野外操作的实用网络代理方面具有潜在价值。
