WebArena: A Realistic Web Environment for Building Autonomous Agentsbb

WebArena 模拟了一个真实的网络环境,包括电子商务、社交论坛、协作软件开发和内软管理四个类别。WebArena中的网站具有与现实世界中同类网站相同的功能和数据,开发者可以轻松的在WebArena上测试Agents。
为了使环境更加逼真,WebArena 还将工具和知识资源嵌入为独立网站。这些资源旨在帮助用户模仿人类解决问题的方法,提高开发 Agent 的效率。
WebArena 还引入了一个基准测试,用于评估 Agent 解释高级自然语言命令和执行基于网络的具体交互的能力。基准测试包括带注释的程序,这些程序旨在以编程方式验证每项任务的功能正确性。
局限性
- 创建的环境仅限于四个常见域,结果可能无法推广到其他领域;
- 测试基准人物仅评估任务的完成率,没有考虑 Agent 的效率、稳健性和适应性。