MetaGPT：Agent as a Service时代，赋能个体独特智能，引领自然语言编程革新

Media/Author

非凡产研

Link

https://mp.weixin.qq.com/s/YyRfCAbSBip1eLNi3bM9zA

Date

Nov 29, 2023

Keypoint：

智能体（Agent）基于大模型，加入了记忆、规划、工具等功能，而多智能体（Multi-Agent）则进一步融入环境、SOP等因素。

在构建这个智能体系的过程中，我们得出了一个关键的公式：代码=SOP（团队）。现在我们正在将SOP替换为一种智能体系，代码的生成将来会因SOP和团队线上化而实现完全的自动化。

评估 SOP 的好坏，就跟评估代码好坏一样，最终都要有一个基准（Benchmark）。只有建立统一且合理的评估指标，才能对SOP进行科学评判。

就像OpenAI 联合创始人兼首席科学家Ilya不断发问要让人工智能服从人类，还是要让人工智能热爱人类，这同样也是我们一直在思考的。

我们一直在想哪些事情究竟应该是大模型来做？哪些事情应该由智能体来做？中间的边界是什么？目前来从效果上来看，智能体虽然有很强的必要性，但这个效果能否内化到大模型里现在也不确定。这个边界是非常模糊的。

智能体的强项在于能做更长的代码规划和代码生成。评估辅助式（Copilot）与智能体在软件开发过程中的价值的核心指标是杠杆率。辅助式的生产杠杆数是有限的，而智能体可以将杠杆无限化。

自然语言编程时代将会很快到来，将能有效解决软件开发和交付过程中很多问题。

无论是AutoGPT、AutoGen，还是MetaGPT，每个框架都有自己的设计特色和优势。MetaGPT的研究方式更像安卓路线，当然这个过程非常具有挑战。

1、MetaGPT的实际应用与优势

在MetaGPT项目中，我们目前主要开展两项工作。首先，我们致力于构建一个自然语言编程框架，让用户能够通过自然语言指导智能体，轻松编写代码。其次，我们还在打造一个智能体社会，尤其注重多智能体协同工作的典型情境。

去年年底，我们预感到了一个即将到来的重大节点——自然语言编程会在两年内成为现实。过去软件编程经历了从C、C++、Java到Python的演进，最终必定将回归到自然语言。编程语言都只是针对机器设计的，但人类的语言一直是自然语言，因此Python等编程语言只是演化的历史阶段，而非终点。

原先我们写Python可能只能对应10行代码，而通过自然语言的智能体模式来写Python，可能一句话对应无限量行，自然语言可以全面覆盖所有编码工作。在这里也要补充强调一下，智能体与Copilot模式写代码有明显的区别，Copilot的生产杠杆数是有限的，而智能体可以将杠杆无限化。

MetaGPT上线GitHub至今，已经达到3万多星标，在GitHub只用一行提示词就能成功生成小游戏，并且每行提示词仅需一美元成本。

MetaGPT既能构造出各种任务，又能在这些任务中扮演使用者的角色。通过选择与提示词相匹配的大语言模型，用户可以轻松生成特定软件。“build something”与“use something”两者实际上是一体两面，MetaGPT通过这种方式创造了全面的智能体。MetaGPT强调了在软件开发中同时扮演builder和user的重要性。这种双重角色允许MetaGPT能够自我迭代，持续测试并解决软件开发的各种问题，包括复杂游戏和CRM系统等。

在Minecraft游戏智能体实现中，MetaGPT团队通过构建任务导向的策略，以增强游戏智能体的性能和适应性。通过发布任务、执行任务和学习任务的循环，MetaGPT 游戏智能体仅用16轮任务就能完成解锁钻石科技树的目标，比 VOYAGER 快5倍。

另外，MetaGPT团队也为狼人杀这款多轮群聊式策略游戏设计了精细的多智能体通信机制，建立了复杂的智能体之间通信拓扑结构，以及调整反思（reflection）和经验学习机制，提高智能体性能的初步实验结果。这个项目成果为大型语言模型在游戏领域的应用提供了新的思路和参考。

当下的技术挑战是MetaGPT能否突破突破代码能力的极限，我们的首要目标是达到前所未有的Human Eval Pass@1分数100。目前通过利用MetaGPT的力量，我们已经达到了令人印象深刻的86分（作为参考GPT-4目前的分数是67），基于数据的预测显示可以达到几乎无风险的97分。

MetaGPT展望着一个具有无限可能性的编程未来。当能够一次性正确生成所有代码，保证每个函数都足够准确时，编程的核心问题将会发生变革。这个进展将问题的焦点从代码生成单个函数的问题扩展到了两个方面：函数列表生成和单个函数生成。如果分数可以无限接近100，有望实现无限代码生成。

2、构建智能体的关键公式：代码=SOP（团队）

许多人认为代码生成是一个相当复杂的问题，但事实上，目前我们已经找到了解决方案，在此先简要阐述MetaGPT的工作原理，即如何通过多实体协同的方式进行辅助。举例来说，如果有用户提出一个制作2048游戏的生产需求，这整个过程就是一个多智能体协同的过程。涉及的实体包括产品经理、架构师、项目经理、工程师和QA。他们需要进行需求分析、需求拆解、竞品分析、绘制竞品象限图以及项目需求池的输出。

这一过程遵循典型的软件公司开发流程，包含了大量的标准操作流程（SOP），模拟了Scrum的流程（敏捷开发），形成了一个小瀑布的迭代模式。

在这个过程中，我们观察到了一种神秘现象。比如当我们提出一个类似于今日头条推荐系统的需求时（虽然这个需求在GitHub上并不存在），但MetaGPT却能够准确地绘制出完整的架构图。认为在这个过程中MetaGPT模拟神经网络充当了一种信息压缩器的作用，相比人类进行复杂问题解决的费力过程，MetaGPT能够在大量碎片化信息的基础上总结出真相，为问题的解决提供了新的思路。

这类场景实质上是对现实世界中标准操作流程（SOP）的一种抽象。每家公司都有大量的SOP，而如果我们能够获取世界500强中所有公司的SOP，或许我们就可以模拟出一个新的世界500强，更进一步，如果将软件公司的SOP迁移到线上，我们就能够创建一个全新的线上软件公司。

在构建智能体系的过程中，我们得出了一个关键的公式：代码=SOP（团队）。应用SOP推动团队工作的经验给了我很大启发，现在我们正在将SOP替换为一种智能体系，代码的生成可能会因SOP和团队线上化而实现完全自动化。将所有SOP转移到线上后，生成一个强大的智能体团队成为可能，进而能够帮助我们完成某些脚手架需求。

3、推动智能体向高级方向自我优化和发展

在MetaGPT的运行过程中，一个关键问题涉及到“人在回路（Human-in-the-loop）”，即需要人类介入以解决智能体处理不佳的问题。举例来说，智能体在视觉语言方面可能存在不足，众所周知GPT主要还是一个文本模型，对于视觉语言的处理较为欠缺，存在一些语义上的缺陷。为了解决这类问题，一种方法是引入一个中间的人类被雇佣者，作为支持团队整体迭代的一部分，负责处理整体UI稿件并解决特定问题。当然，MetaGPT本身也拥有一个智能体UI，它是通过对Stable Diffusion微调的模型创建的，可以协助我们生成软件界面。虽然没有人类员工效果好，但至少可以实现到一定程度。

MetaGPT本身是一个完整的框架，如果软件公司可以在虚拟世界中运行，其他类型的公司似乎也能够迁移到虚拟世界中，包括电商公司和游戏公司。在MetaGPT的开发者群体中，甚至有电子商务公司的CEO，他们通过编写代码将整个业务逻辑搬移到了虚拟世界中，这进一步展示了MetaGPT在推动虚拟世界中各类公司实现多样化目标方面的潜力。

MetaGPT项目是一个非常典型的三棱堆栈框架，包括底层的支撑操作系统（OS）和AI Infra。AI Infra负责模型的训练、微调、推理、部署优化等所有AI相关的工作，包括数据处理和特征工程。MetaGPT是这个框架的核心，它在内部的作用是IDE（集成开发环境），能够解决自然语言层面的问题。

MetaGPT内部涵盖大量智能体工作，其顶层是智能体商城（AgentStore），通过这个商城，智能体之间可以进行各种不同的互动，并且一站式的AI Infra服务能让AI真正服务于各行各业，通过自我优化的智能体群体，加速模型开发，提高质量，实现更高效的管理和运营。最终目标是推动智能体向着更高级别的自我优化和自我发展迈进。

从人类角度，智能体本质是一个“类人结构”。OpenAI的目标是希望将GPT的参数量扩大100倍，达到与人脑相对应的级别。但是，OpenAI的重点始终更多集中在大语言模型的完成能力和部分能力上。但这两点无法解决人脑问题。人脑具有许多特定的问题，其中之一是记忆。记忆并不等同于向量数据库。向量数据库在 100 条左右的文本里面检索，可以达到 60% 到 70% 的精度。但人脑做不到。

向量数据库可以作为一个基础设施，但是很难把它作为一个通用的记忆工具。人类的记忆系统实际上分为五种，包括像程序集一样的记忆，它允许我们在特定时刻回忆并执行特定的程序。与此同时，人类的视觉系统和记忆系统具有许多特殊机制，最重要的是遗忘机制。人类记忆最擅长于遗忘，而不是记住。大部分东西人是记不住的，只有重要的我们才会印象深刻。但是这些记忆构成了我们的语义记忆、情境记忆和程序记忆等等。

4、人机协同新范式：智能体与人类共创未来

在讨论多智能体时，我们引入了两个重要的概念，即SOP（标准操作规程）和评审。SOP实际上是对人类进行编码，它是在很多实践中总结得到的。这种对人类的编码与对机器的编码（比如Python）形成了完全统一，都可以被转化到数字世界中。这意味着在数字世界中，我们能够玩转各种问题，将机器编码和人类编码完全统一起来。

在大语言模型的发展中，一个显著的挑战是如何处理标准操作规程（SOP）。由于SOP之前存储在各个头部公司的信息化系统和文档库中，这些数据并不容易获得。因此，模型的建模工作需要与各行业建立密切的关系，以便获取必要的数据。

评审在大语言模型的训练过程中显得尤为重要。人类常常受到幻觉的影响，评审过程能够在模型出错时进行纠正。这种评审机制可以防止人类世界中的错误，能防止95%的错误的。

大语言模型和智能体的交流方式在我们的理想范围内可能处于以下情况：虽然这些向量我们没法解释，但是它确实完成了整体的评审过程。

我们可以看到过去几年人机协同的演进模式，从嵌入式（Embedded）到辅助式到智能体，再到最后的社会模式（Society）。我们现在正处于智能体模式，工作和生活方式都发生了很大变化。未来或许智能体能够成为一个公司的CEO，而我们只需要做公司的 bot member，拥有一个控制住智能体的按钮，能够让智能体不为非作歹就可以了。

5、大语言模型时代，互联网应用都值得重做一遍

最近30年，信息效率的变化带来了互联网的不同阶段。从黄页到搜索再到推荐，信息获取的效率逐步提高，而大语言模型的出现更进一步提高了模糊逻辑计算的能力。这使得很多互联网应用都值得进行重新设计和优化。读论文也可以通过让大语言模型进行一轮消化，然后进行同行评审，大语言模型在同行评审中的表现接近于人类，这意味着未来论文的同行评审可能不再需要人类的介入。这意味着，大部分的互联网应用都值得重做一遍。

大语言模型的出现引发了许多应用的重新设计。从微信到淘宝，这些应用都在考虑如何更好地利用大语言模型的能力。这些应用的未来发展方向尚不确定，是由这些应用自己加入这些服务，还是由第三方应用拿走它们的流量去进行新的创新。

总的来说，大语言模型的出现带来了模糊逻辑计算的能力，智能体一定意义上更像是对人脑逻辑的抽象。如果能完整解决人脑的大部分问题，解决思维、记忆等标准化的问题，或许就能让智能体时代真正到来。