AGI时代的新物种有哪些?
如果说去年12月ChatGPT的发布标志着AI进入iPhone时刻,那么前几天Meta开源的Llama 2可商用版本,可以说标志着AI进入Android时刻。回看历史,2007年1月,苹果发布iPhone;紧接着,谷歌于2007年11月发布Android开源系统。随后,Windows Phone、Symbian、BlackBerry纷纷出局,整个移动产业迅速收敛在闭源iOS和开源Android两大平台上。
而后自2008年开始,基于两大平台的应用生态迅速繁荣,在中国诞生了:微信、美团、拼多多、头条、滴滴、抖音、快手等一系列移动领域的巨头。在美国则诞生了:Uber、Airbnb、WhatsApp, Snap、Square、Pinterest、Instagram、Spotify、Tiktok等巨头。这些都是移动时代的全新物种(我没有列那些PC时代继续保持领先优势的产品)。
大模型领域类似的情况也会上演。一方面,大部分自研大模型在开源Llama的挤压下会迅速边缘化。另一方面,AGI应用生态会像地球历史上寒武纪时代物种大爆发一样,在各个生态位迅速诞生很多全新的物种。这些新物种会诞生在哪些领域?有什么样的特征?有哪些创新维度?这是本文试图探索的核心命题。
我在上个月全球产品经理大会主题演讲《AGI时代的产品版图和范式》时,提出了使用ParaShift Cube 范式转换立方体的三轴(人类需求轴、技术平台轴、媒体交互轴)方法来判断AGI时代三个维度的变化。在技术平台轴,有一个很重要的方面即“技术的核心能力”,可以据此对AGI创新领域做更深入的分析。
如果我们梳理移动技术平台的核心能力,会发现每一种能力下,都有崛起的新物种:
类似地,如果我们将大模型的核心能力进行梳理,会对研究AGI时代的产品创新有很重要的启发。我将大模型目前带来的核心能力分解为如下四个方面:

一、生成模型
GPT的G就是Generative缩写,即生成式。在生成式模型之前,2012年-2022年之间,AI界的主流是识别类模型(如视觉/语音识别等)。我在《OpenAI到底做对了什么》一文中,曾经指出OpenAI在2016年就选择下注生成式模型,是非常有远见的。从技术上来讲生成式模型是AI的首要能力,也正是生成式模型实现了将各种人工智能任务一统江湖。很难想象一个不会说话、不会画画、不会创造的动物有多高的智能,所谓“What I cannot create, I do not understand.”(费曼语)
从产品上来讲,生成式模型是智能的“最终交付件”。看得见、摸得着,在快速产品化方面有巨大优势。目前的热点赛道AIGC即属于生成模型的核心能力范围。
AIGC可以分为两类:第一类属于端到端的、独立的AIGC产品。生成文案、图片、视频、音频、代码,每一个细分领域,都有很多产品涌入,比如Notion, Midjourney, Runway,Github Copilot等明星产品。
第二类是在现有产品闭环中添加AIGC的功能。比如在营销类产品中,添加AIGC生成市场文案的模块;比如在现有开发工具中,集成AIGC生成代码的能力,等等。
独立的AIGC类产品具有强工具属性,好处是可以单点聚焦,在AGI初期很容易快速传播,建立巨大的用户量。但它的缺点也很明显,用户粘性低,切换很容易,产品整体护城河很浅。
工具产品一来很容易被平台碾压,比如当初红透半边天的猎豹清理工具、墨迹天气等被各家操作系统无情碾压。二来也容易被集成到其他产品中,比如Office 365中集成AI写作功能;比如淘宝一定会集成图片生成功能;抖音的剪影也一定会集成视频生成的功能。所以,从长期来看,独立的AIGC产品很难生存。
那么独立的AIGC类工具如何建立护城河、实现长期成功呢?个人认为有两条路径:一是借助巨大的用户量快速向内容社区进化,形成文字社区、图片社区、视频社区等,因为内容产品的护城河要远高于工具产品;二是做厚做长工具链,进入企业级市场,比如在开发领域,借助AIGC的能力,将生成需求文档、生成架构设计图、生成业务代码、生成开发者测试代码、生成部署脚本、生成使用说明书……整个开发生命周期,都用AIGC来完成。

至于在现有产品闭环中添加AIGC的功能,要看现有产品的护城河多深、以及AIGC功能的提效价值。很难一概而论。
二、知识抽象
大模型另外一个核心能力是“人类知识的压缩”,或者讲知识抽象。个人认为知识抽象的能力,给产品的赋能效应要远大于AIGC,或者可以将AIGC看作通用人工智能的“表”,而将“知识抽象”看作通用人工智能的“里”。
如果仔细看微软的这篇论文《GPT-4:通用人工智能的火花》:https://arxiv.org/abs/2303.12712大家就会惊讶于大模型对于人类各领域知识掌握的深度和广度,就不会嘲笑大模型一时的“一本正经胡说八道”。而是会对AGI可能对整个人类社会的革命性影响有足够高的敬畏。这样的能力,将使得大模型会革新一切“知识密集性行业”。
而现存“知识密集性行业”首当其冲的就是“搜索引擎”。某种意义上来讲,“搜索引擎”是人类知识的“前现代存在形式”。每一次搜索请求,其实都是对人类知识的一种索取。但是很遗憾,搜索引擎只是“对知识的索引”,相对于大模型“对知识的压缩”,搜索引擎充满了“低效”和“重复建设”。从用户体验角度来看,一次搜索、要检索多个页面,然后通过综合多个页面的信息,用户才能做出决策。实际上,这中间的多页面综合、决策,都可以由LLM直接做出,大大降低用户体验成本。自从ChatGPT出来之后,我使用搜索引擎的比例在逐步下降,身边这样的例子也比比皆是。
诚然,大模型目前包括 偏见、幻觉、组合推理等这样那样的不足,最近的这篇论文:《Challenges and Applications of Large Language Models》 https://arxiv.org/abs/2307.10169 很好地评估总结了大模型在各个方面的挑战。
但是“搜索引擎被大模型驱动的知识引擎替代”这个趋势我认为是不可逆转的(我暂且使用“知识引擎”这个术语)。如果大模型下一步能就“事实性信息”和“实时性信息”的训练难题克服的话,我觉得这个替代的拐点就会到来。有些朋友会说,成本障碍会阻挡这一拐点。其实,纵观科技史,成本从来都不是问题,只要某一技术具有十倍、百倍以上的价值提升,那么该技术的成本就会以指数级迅速下降。“知识引擎”相对于“搜索引擎”显然具有十倍、甚至百倍以上的价值提升。
回到产品形态,“知识引擎”我觉得也分两类,第一类是通用类“知识引擎”,比如ChatGPT,由于巨大的数据飞轮效应,它很容易成为AGI时代的流量入口,从而逐步建立起AGI生态平台。ChatGPT真是一个糟糕的产品名字,让很多人误以为它是个对话聊天工具,这真是小看它了。从应用API、到Plugins、再到Code Interpreter、OpenAI每一步棋都展现一个“AGI生态平台”的特征。预言一下:我觉得ChatGPT迟早要改掉这个糟糕的名字。顺便提一句:OpenAI已经花重金购买了AI.com的域名。
第二类是垂直行业类“知识引擎”,比如布隆伯格面向金融行业的大模型BloombergGPT。这些垂类“知识引擎”具有行业数据资产的优势,会迸发出惊人的用户价值。比如AI老师、AI医生、AI律师、AI理财师、AI建筑设计师等等…… 会深度重构各行各业。
无论是第一类“通用知识引擎”,还是第二类“行业知识引擎”,数据飞轮效应都将使其护城河足够深,而且很容易对AIGC类工具形成碾压,进行降维打击。但因为数据的累积,和诸多对齐的要求,会导致它们走向成熟应用的演进速度比AIGC类工具慢很多。

回看历史,移动时代刚开始也是工具甚嚣尘上,但是最后取得大成就的都不是工具,而且诞生的日期,以最早2010年诞生的美团为例,和iPhone与Android诞生的2007年也相距3年之久:美团(2010年)、微信(2011年)、滴滴(2012年)、拼多多(2015年)、抖音(2016年)。
所以早出发并不一定重要,“螳螂捕蝉,黄雀在后”,护城河很重要、价值链很重要。
三、语言交互
大模型的第三个核心能力是自然语言交互,简称为LUI(Language User Interface)。用户界面交互一直是计算产业革命性的力量,比如比尔盖茨在《The Age of AI has begun》https://www.gatesnotes.com/The-Age-of-AI-Has-Begun 文章中评价ChatGPT时,用的对比是“自GUI图形用户界面以来最大的革命”。乔布斯几次革新计算产业,其敏锐的洞察和撬动力都是来自于“用户界面交互”。用户界面交互也经历了CUI(Console User Interface 控制台用户界面交互)、GUI(Graphical user interface 图形用户界面交互)、TUI(Touch User Interface触控用户界面交互)几个时代,每一次交互革命,都会将计算的潜力释放到更广泛的人类。那么大模型将用户界面交互带入LUI时代,对我们意味着什么呢?
从本质来看,人与世界的交互,自然语言居于核心位置。但我们也要清楚地看到,LUI不会是未来的唯一,就像智能手机时代的TUI并不是对GUI的废弃,GUI也仍然是LUI的重要补充。“一图胜千言”,人仍然是个视觉动物,图形在很多结果呈现方面,仍然有不可替代的作用。
但如果仅仅将LUI看作是向计算机发出命令的替代,也未免过于狭隘。个人认为LUI更大的机会在两个方面:1、彻底拆掉应用间的壁垒 2、大幅缩短应用内交互流程的繁琐步骤。
先说第1方面。举个例子,如果我们选周六、周日两天去北京旅游,我们可能有这样一个订票需求:“如果周六不下雨,就订八达岭长城的门票,周日则去军事博物馆;反之如果周六下雨,则周六去军事博物馆,周日去八达岭长城”。基于目前App的交互现状,我们可能要打开3个应用,一个“天气App”,一个“八达岭长城门票预定的公众号/App“,一个“军事博物馆门票预定的公众号/App”,然后根据以上“结构化逻辑”来回在三个App之间切换。但如果有了LUI,那么可能一个自然语言命令,就可以用服务或Plugins的形式来一步完成整个任务。这样的用户体验提升是极大的。
再来看第2方面。同样举一个例子,假设我们需要预定从上海到北京的机票,目前来看,使用任何一个App,我们都需要很多步的操作,其本质是因为App必须将我们的需求转换成一系列“结构化输入”(我在《AGI时代的产品版图和范式》文中对“结构化输入”有详细阐述)。但是如果有了LUI的支持,我们完全可以将自己的需求描述为一句话“帮我预定一张上海到北京的机票,18:00之后起飞,价格在1500以内,越早越好,要空客不要波音,位置靠窗,浦东起飞,首都机场降落,要航意险”就可以一步搞定,甚至如果大模型能记住我的偏好,“要空客不要波音,位置靠窗,浦东起飞,首都机场降落,要航意险”这几个都可以省略。一句话可以省掉传统基于TUI/GUI的很多步骤,扔掉繁琐的菜单、按钮、导航、表单、链接……
这样的交互革命一旦来临,人类就再也回不去传统的TUI/GUI了。很简单,人机交互体验领域有一个重要的原则:“如果能一步完成的,正常的人类绝对不会选择两步完成”。
想象一下,在这种体验提升的驱使下,未来App的边界会被打破,App的第一入口将不再是GUI、而是LUI(无形的、随时响应的),App与App之间的交互也将被LUI重新定义。目前来看,这种对交互的颠覆式革命必须由操作系统厂商来提供基座。另一方面,LUI也有机会催生全新的设备出现。

无独有偶,就在几天前,苹果传出内部消息正在开发AppleGPT项目,我期待苹果能够使用LLM将人机交互带领到下一个真正的LUI时代。我知道很多朋友对此比较悲观,特别是乔布斯已经去世,对人机交互持有执念的人同时又有能力撬动产业的人太少,而且“旧势力”实在过于强大。但是在2003年使用Windows Phone和Symbian的时候,谁会想到2007年的iPhone给人机交互带来的颠覆式革命呢?
LUI虽然很难,达到成熟也需要时间,但它是人类和机器协作的正确方向。人类在用户界面交互方面,一旦升级到下一代,便不可逆转。我相信这一天一定会到来。
四、逻辑推理
大模型的第四个核心能力是“逻辑推理”。该能力的典型体现就是最近发展比较迅猛的AI Agent(智能代理)。根据来自OpenAI的Lilian Weng的文章:《LLM Powered Autonomous Agents》 https://lilianweng.github.io/posts/2023-06-23-agent/ 她将AI Agent分为几个关键组成部分:规划、记忆、工具使用。AI Agent能够将大任务分解为多个子任务,并根据环境的变化,进行推理决策,一步一步完成目标。非常适合解决人类生产生活中以“任务”为驱动的需求。AutoGPT,Generative Agent、GPT-Engineer、BabyAGI 等大火的项目也将AI Agent的研究推到高潮。
但我也同意OpenAI联合创始人Andrej Karpathy 最近给AI Agent泼的冷水:“想象和演示很容易,但将AI Agent做成可用产品则需要至少十年的时间”。但这并不影响AI Agent是AGI发展到下一个成熟阶段的必然,那时AI Agent将成为人类在数字世界的全能管家。
如果将数字空间的AI Agent再加上“对环境的感知能力”、“多模态的能力”、“支持运动等物理交互的能力”,从而最终完成人类语言下达的现实世界中的任务,那么这就是当前AGI较前沿的领域“具身智能(Embodied Intelligence)”。那时候,机器智人(个人认为叫机器人不足以表达它的智能性,而且机器人这个词也被用烂了)将成为人类在物理世界的全能管家。

在自然语言理解被大模型攻破之后,个人认为“具身智能”就是AGI领域下一个“皇冠上的明珠”。诚然,“对环境的感知”,“多模态”,“支持运动等物理交互”,每一个能力的背后都有许多未知的科技难关待突破。但一些先行者,如特斯拉的人形机器人Optimus擎天柱已经迈出了可贵的一步。我相信Elon Musk的判断“Optimus擎天柱未来创造的价值将远超特斯拉汽车”,虽然这一天的到来会很漫长——但别忘了特斯拉公司创立于2003年。
人类对“短期技术革命过于乐观,对长期技术革命又过于悲观”的臭毛病是很难改变的
五、科技产品的B面和A面
有朋友可能注意到我在描述前面四个方面的图表中,在“特点”一栏使用了“Bit->Bit“或者“Atom->Atom”的描述。这来源于前不久在望京和美团王兴、光年之外马占凯的一次关于大模型Prompt交流中,王兴分享的一个很棒的思维框架:科技产品的B面和A面,其中B代表Bit(比特),A代表Atom(原子)。
用这个框架来分析科技产品、科技公司基因的象限组合(如下图示),以及AGI时代的产品创新与探索,也是一个很有趣的角度。

综上所述,我将大模型的四种核心能力,对应在四大品类的产品方向:
- 生成模型——> AIGC
- 知识抽象——> 知识引擎
- 语言交互——> LUI
- 逻辑推理——> AI Agent/具身智能
从上到下,难度依次变大,但是价值依次大幅度增加。我将这四个部分称为AGI发展的四个阶段,也是我近期关于AGI时代新物种的研究与思考,整理成文与大家一起探索交流。