直达「 通往AGI之路 」飞书知识库 →
The Rise and Potential of Large Language Model Based Agents: A Surveyb
|最后更新: 2023-9-24
Date
Sep 14, 2023
Institution
复旦大学、米哈游
Publication
Artificial Intelligence
摘要:长期以来,人类一直在追求等同于或超越人类水平的人工智能(AI),而人工智能代理则被认为是实现这一追求的大有可为的工具。人工智能代理是能够感知环境、做出决策和采取行动的人工实体。自 20 世纪中期以来,人们为开发智能人工智能代理做出了许多努力。然而,这些努力主要集中在算法或训练策略的进步上,以提高特定能力或特定任务的性能。实际上,社会各界缺乏的是一个足够通用和强大的模型,作为设计能适应各种场景的人工智能代理的起点。由于大型语言模型(LLMs)所展示的多功能和非凡能力,它们被视为人工通用智能(AGI)的潜在火花,为构建通用人工智能代理带来了希望。许多研究工作都利用 LLM 作为构建人工智能代理的基础,并取得了重大进展。我们首先追溯了代理的概念,从其哲学起源到其在人工智能中的发展,并解释了为什么 LLM 适合作为人工智能代理的基础。在此基础上,我们提出了基于 LLM 的代理概念框架,由大脑、感知和行动三个主要部分组成,该框架可根据不同应用进行定制。随后,我们从三个方面探讨了基于 LLM 的代理的广泛应用:单代理场景、多代理场景和人-代理合作。随后,我们深入探讨了代理社会,探索了基于 LLM 的代理的行为和个性、它们组成社会时出现的社会现象以及它们为人类社会提供的启示。最后,我们将讨论该领域的一系列关键议题和开放性问题。
notion image
notion image
 
为什么 LLM 适合作为 AI Agents 的大脑?
  • 自治。LLM 可以通过生成类人文本、参与对话以及执行各种任务,展示出了某种形式的自主性。
  • 反应性。多模态技术可以扩展 LLM 感知空间的能力,能够快速处理来自环境的视觉和听觉信息。
  • 积极主动。LLM 已表现出强大的推理和规划能力。可以根据目标分解任务、规划、并根据环境变化调整计划。
  • 社交能力。LLM 表现出强大的自然语言交互能力,能够与人类很好的进行交互。
 
“大脑”是 Agent 的核心,不仅存储知识和记忆,还承担着信息处理、决策等功能;
“感知”是将 Agent 的感知空间从纯文本扩展到包括文本、听觉和视觉模态的多模态领域,使 Agent 能够有效地掌握和利用周围环境的信息;
“行动”赋予 Agent 具体的行动能力和工具处理技能,使其能够熟练地适应环境变化,提供反馈,甚至影响和塑造环境。
Loading...