Tree of Thoughts: Deliberate Problem Solving with Large Language Models
摘要:语言模型越来越多地被用于解决各种任务中的一般问题,但在推理过程中,它们仍局限于标记级、从左到右的决策过程。这意味着在需要探索、战略前瞻或初始决策起关键作用的任务中,语言模型可能会出现不足。为了克服这些挑战,我们引入了一种新的语言模型推理框架--思维树(ToT),它在流行的 "思维链"(Chain of Thought)方法的基础上进行了扩展,能够对作为解决问题中间步骤的连贯文本单元(思维)进行探索。ToT 允许 LM 通过考虑多种不同的推理路径和自我评估选择来执行深思熟虑的决策,以决定下一步行动,并在必要时进行前瞻或回溯以做出全局选择。我们的实验表明,ToT 能显著提高语言模型在三项需要非繁琐规划或搜索的新任务中解决问题的能力: 游戏 24、创意写作和迷你填字游戏。例如,在游戏 24 中,使用思维链提示的 GPT-4 仅解决了 4% 的任务,而我们的方法则达到了 74% 的成功率。

思维树可以让LLM:
- 进行系统2的思维
- 自己给出多条不同的推理路径
- 分别进行评估后,决定下一步的行动方案
- 在必要时向前或向后追溯,以便实现进行全局的决策
- 组合问题空间进行搜索
方法:
- 树形搜索空间设计。ToT 模型使用树形搜索空间来探索问题空间,每个节点代表一种想法或解决方案,而树枝则表示该想法或解决方案的子集或扩展。在搜索过程中,ToT 模型会评估每个节点的可行性和有效性,并选择最有可能解决问题的想法或解决方案。
- 初始状态评估。ToT 模型使用初始状态评估来减少搜索空间。在初始状态评估中,ToT 模型会评估当前状态是否可行,如果不可行,则搜索会终止。如果可行,则搜索会继续探索更高级的状态。
- 深度优先搜索。ToT 模型使用深度优先搜索来探索问题空间。在搜索过程中,ToT 模型会逐步探索每个节点,并评估每个节点的可行性和有效性,直到找到可行的解决方案或搜索空间已被探索完毕。
- 状态评估和修剪。ToT 模型使用状态评估和修剪来减少搜索空间。在状态评估中,ToT 模型会评估当前状态是否可行,如果不可行,则搜索会终止。如果可行,则搜索会继续探索更高级的状态。在修剪中,ToT 模型会修剪不可行或低效的状态,以减少搜索空间。
- 自我评估和反馈。ToT 模型使用自我评估和反馈来优化搜索过程。在自我评估中,ToT 模型会评估当前状态的解决方案的可行性和有效性,并在搜索过程中使用反馈来调整搜索策略。
- 搜索策略优化。ToT 模型使用搜索策略优化来加速搜索过程。在搜索策略优化中,ToT 模型会使用启发式函数来优化搜索策略,以更快地找到解决方案。
局限:该研究仅探讨了三个相对简单的任务,而现实世界中的决策应用程序中可能会出现更复杂的任务,这些应用程序可能需要将更好的搜索和规划能力与语言模型结合起来。