直达「 通往AGI之路 」飞书知识库 →
AgentBench: Evaluating LLMs as Agentsbb
|最后更新: 2023-8-19
Date
Aug 7, 2023
Institution
清华大学
Publication
 
notion image
 
AgentBench 是一个多维演进基准测试,包括8个不同环境,即操作系统(OS)、数据库(DB)、知识图谱(KG)、卡牌对战(DCG)、情景猜谜(LTP)、家居(Alfworld)、网络购物(WebShop)、 和网页浏览(Mind2Web)。用于评估大型语言模型(LLMs)在多回合开放式生成环境中的推理和决策能力。
Loading...