AgentBench: Evaluating LLMs as Agentsbb|最后更新: 2023-8-19DateAug 7, 2023URLhttps://llmbench.ai/Institution清华大学PublicationPDF:https://arxiv.org/pdf/2308.03688.pdfGithub:AgentBenchTHUDM • Updated Sep 10, 2023 AgentBench 是一个多维演进基准测试,包括8个不同环境,即操作系统(OS)、数据库(DB)、知识图谱(KG)、卡牌对战(DCG)、情景猜谜(LTP)、家居(Alfworld)、网络购物(WebShop)、 和网页浏览(Mind2Web)。用于评估大型语言模型(LLMs)在多回合开放式生成环境中的推理和决策能力。