ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIsbb

ToolLLM 是一个通用的工具使用框架,使用 ChatGPT 自动构建 ToolBench 数据集,该数据集用于指令微调,涵盖了16,464个真实世界的 RESTful API,并生成涵盖单一工具和多工具场景的多样人类指令。另外开发了一种基于深度优先搜索的新型决策树 DFSDT 增强规划和推理能力,以及设计自动评估器 ToolEval,并通过在 ToolBench 上对 LLaMA 进行微调得到了 ToolLLaMA 模型,来提升开源 LLM 在复杂指令执行方面的能力。
构建 ToolBench 数据集:
- 收集 API
- 从 RapidAPI 中爬取 API 的相关信息
- 筛选出可靠且功能齐全的 API,确保最终的 API 集质量高
- API 响应压缩,减少从 API 服务器发送到客户端的数据大小,提高 API 请求的性能。以及应对 LLM 上下文窗口限制的问题
- 生成指令
- 解决方案路径标注
局限性:
拟议的 ToolLLM 框架和 ToolBench 数据集基于 ChatGPT 的使用,但 ChatGPT 是一种闭源语言模型。虽然作者在 ToolBench 上微调 LLama 并获得了 ToolLama,它的性能与 ChatGPT 相当,但目前尚不清楚拟议的框架和数据集在其他开源 LLM 中的表现如何。
注释:
深度优先搜索算法(DFS)是图遍历和搜索问题中使用的常用算法。工作原理是以深度优先的方式探索搜索空间,从根节点开始,在回溯之前尽可能地沿着每个分支进行探索。