AgentSims: An Open-Source Sandbox for Large Language Model Evaluationbb
Website:https://www.agentsims.com/
摘要:在类似于 ChatGPT 的大型语言模型(LLM)盛行的今天,如何评估 LLM 的能力是一个悬而未决的问题。现有的评估方法存在以下缺陷:(1)评估能力受限;(2)基准脆弱;(3)指标不客观。我们认为,基于任务的评估(即 LLM 代理在模拟环境中完成任务)是解决上述问题的万能方案。我们提出的 AgentSims 是一种易于使用的基础架构,可供各学科研究人员测试他们感兴趣的特定能力。研究人员可以通过在交互式图形用户界面上添加代理和建筑来构建他们的评估任务,或者通过几行代码来部署和测试新的支持机制,即内存、规划和工具使用系统。
