直达「 通往AGI之路 」飞书知识库 →
Large Language Models are Zero-Shot Reasonersb
|最后更新: 2023-8-27
Date
May 24, 2022
Institution
Google
Publication
NeurIPS
摘要:预训练的大型语言模型(LLM)被广泛应用于自然语言处理(NLP)的许多子领域,一般被认为是具有特定任务示例的优秀的少量学习者。值得注意的是,思维链(CoT)提示是一种通过逐步回答示例来诱导复杂的多步骤推理的最新技术,它在算术和符号推理方面达到了最先进的水平,而这些困难的系统-2 任务并不遵循 LLM 的标准缩放规律。虽然这些成功通常归功于 LLMs 的少量学习能力,但我们通过在每个答案前添加 "让我们一步一步地思考",证明 LLMs 也能胜任零次推理。实验结果表明,我们的 Zero-shot-CoT 使用相同的单一提示模板,在各种基准推理任务(包括算术(MultiArith、GSM8K、AQUA-RAT、SVAMP)、符号推理(Last Letter、Coin Flip)和其他逻辑推理任务(Date Understanding、Tracking Shuffled Objects))上的表现明显优于零次推理的 LLM。 例如,使用现成的 175B 参数模型,MultiArith 的准确率从 17.7% 提高到 78.7%,GSM8K 的准确率从 10.4% 提高到 40.7%。这种单一提示在多种推理任务中的通用性,暗示了 LLM 尚待开发和研究的基本零拍能力,表明通过简单的提示可以提取高层次、多任务的广泛认知能力。我们希望我们的工作不仅能作为具有挑战性的推理基准的最小最强零点基准,而且还能强调在制作微调数据集或少量示例之前仔细探索和分析隐藏在 LLMs 中的大量零点知识的重要性。
notion image
方法:
  • 推理提取 Prompt:Let’s think step by step
  • 答案提取 Prompt:Therefore, the answer is
Loading...