直达「 通往AGI之路 」飞书知识库 →
从这里启程的基石阅读
从这里启程的基石阅读
知识库精选|2023-6-10|最后更新: 2024-3-26
type
status
summary
date
slug
tags
category
password
icon
上一篇《创建AI知识库首页》文章中,讲述了如何创建一个落地页,也就是整个知识库的首页,引导读者快速定位到感兴趣的内容。
在创建完知识库的导航首页之后,那么接下来就是「从这里启程」的第一个目录页了,我选择了飞书的「多维表格」来创建,多维表格的好处是它打破了传统表格的界限,赋予我们更大的可能性和自由度。

仪表盘

我在左下角选择了新建仪表盘,然后选择了两个词云图表和3个统计数字图表,来创建入口页面。
notion image
分为了入门的文章和深度文章两个部分,各10篇文章,由浅入深对AI有个概括性了解。词云的好处是提炼出核心的关键词,然后点击看相应的文章。

10个关键人物

如何入门一个领域,我通常会从这个领域里比较出色的人物开始了解,从人物开始探索他们开创了什么、写过什么书、主要观点什么,甚至,你可以在ChatGPT中与他们的替身进行模拟对话,来深入聊聊你感兴趣的话题。
notion image

40+名词解释

名词用了卡片形式展示,每个链接都可以点击到维基百科来更深入阅读。
notion image

推荐的入门文章

为了能帮助读者更快了解AI的方方面面,文章中选了「从0到1的文章」以及「深度文章」两类内容,放在了「从这里启程」的多维表格目录下。
notion image
其中,特别选择了两篇展望未来趋势的文章,比如比尔·盖茨的《AI的时代已经到来》,和吴恩达来信《持续推动AGI发展》,在吴恩达的文章中,他这样积极地呼吁:
在过去的一年里我们取得了可能需要50年或100年才能达到的非常令人兴奋的进展。考虑到人工智能还远远没有达到“类人”的目标,甚至在一些有价值的方面超越了人类和动物,以人类和动物作为基准测试似乎并不是目前最值得关注的问题。我宁愿把注意力集中在将这些技术投入工作以解决重要应用问题的任务上,同时也要降低切实的伤害风险。 虽然AGI可能是未知未来的一部分,但现在我们已经拥有了惊人的能力,可以实现很多有用的事情。这将需要我们付出巨大的努力来找到利用它们促进人类发展的方法。大家开始干活吧!

a16z推荐的AI经典文章

在《从这里启程》目录下,我新增了《a16z推荐的AI经典文章》目录,a16z是一家总部位于硅谷风险投资公司,也称Andreessen Horowitz,之所以简称为a16z,是因为第一个字母a和最后一个字母z中间有16个字母。公司成立于2009年,创始人为Marc Andreessen 和Ben Horowitz,公司宗旨是「支持勇敢的企业家们运用科技创建未来」,曾先后投资了Facebook、Twitter、Skype、Airbnb、Stripe等等知名公司。
它在5月底发表了一篇文章《AI Canon》,非常好地分享了过去几年中对AI领域产生重要影响的论文、博客文章、课程和指南上周我做了翻译,但我还是想把其中五篇入门文章单独拿出来分享一下:

1.《软件2.0》

notion image
这是OpenAI的创始成员、原特斯拉 AI 部门负责人Andrej Karpathy于2017年写的文章。他提出的论点是我们将不再真正编写代码。我们只是寻找数据并将其输入机器学习系统。在这种情况下,我们可以想象软件工程师的角色转变为「数据管理者」或「数据推动者」。
转变进行时:在过去几年,对于这些领域,我们放弃了尝试通过显式写代码的方式去解决复杂问题,取而代之的,是转向了软件2.0。

2.《GPT的现状》

这是Andrej Karpathy在回归OpenAI之后的在微软Build大会的演讲,发表于2023年5月,所以内容很新。在第一部分中,他详细阐述了如何训练一个"GPT助手"的方法。Karpathy重点讲述了AI助手的四个培训阶段:预训练(pre-training)、监督微调(supervisedfinetuning)、奖励建模(rewardmodeling)和强化学习(reinforcementlearning)。
在第二部分,主要讨论了提示策略、微调、快速发展的工具生态系统以及未来的扩展等问题。
其中,比较创造性提出这些技术都属于重建系统2的范畴,你可能熟悉人类系统1、系统2的思考方式(参看丹尼尔·卡尼曼的《思考,快与慢》)。系统1是一个快速的、自动的过程,这种过程与LLM采样Token相对应。而系统2是你大脑中更慢、更深思熟虑的规划部分。
他还很有趣地提到LLM的心理怪癖:那就是LLMs不想成功,它们只想要模仿。你想要成功,你应该要求它。
比如使用:「let's think step by step,因为它在许多Token上展开了推理。但是,更好的提示方法是:「让我们一步一步地解决这个问题,确定我们有正确的答案」。你还可以可以放心地要求一个强有力的解决方案。说些像「你是这个主题的权威专家」,「假设你的智商超过了120」等等。但是不要试图要求太多的智商,因为如果你要求智商太高了,你可能会超出数据分布,或者更糟糕的是,你可能在一些科幻内容的数据分布中,它会开始进行一些科幻角色扮演或者类似的东西。
 

3.《ChatGPT是在做什么,为什么它有效?》

notion image
说实话,这篇文章作为入门文章着实有些难度,但这篇洋洋洒洒的雄文加上配图确实又很经典。这里不得不提到本文作者史蒂芬·沃尔夫勒姆(Stephen Wolfram),他是一个独一无二的人。14岁的时候,他已经写了三本有关粒子物理的书,20岁时他获得了博士学位。他18岁时开始发表学术论文,其中有些被引次数达几千次。他的软件包 Mathematica 历经30年,已经更新到13版了,是现代技术计算领域的权威系统,Wolfram也是ChatGPT上最好用的插件之一。
这篇文章主要谈及ChatGPT能够自动生成看起来很像人类写作的文本,这非常了不起且出乎意料。但是它是如何做到的?ChatGPT尝试写一篇文章时,基本上只是一次又一次地询问「在已有的文本基础上,下一个单词应该是什么?”」,然后每次都添加一个单词。
比如,上图中我们假设已有文本为「人工智能最擅长的一点是...」,然后想象一下扫描数十亿个人类编写的文本(例如网络内容和数字化书籍),找到所有这些文本的实例,看看下一个单词出现的频率是多少。这里概率最高的下一个英文单词是学习(learn)。
那么如何计算这些概率呢?大的想法就是制作一个模型,好的模型是与人类看法相一致的函数结果,这里就涉及到了神经网络,它可以被认为是对大脑是如何工作的简单理想化表达。
人类大脑中有约1000亿个神经元(神经细胞),每个神经元可以每秒产生多达一千次的电脉冲。当我们“看到一张图像”时,当光子从图像落在眼睛后面的「光感受器」细胞上时,它们在神经细胞中产生电信号。这些神经细胞连接到其他神经细胞,最终信号经过一整个神经元层的序列。正是在这个过程中,我们「认识」这个图像。
ChatGPT的神经网络也对应于这样的数学函数——有数十亿个权重。它实际上是做什么的呢?总体目标是根据它所看到的训练内容(包括查看网络等数十亿页的文本),「合理地」继续文本。因此,在任何给定的时刻,它都有一定数量的文本——它的目标是为下一个token添加一个适当的选择。
这个过程有三个基本阶段:
  • 首先,它获取与迄今为止的文本相对应的token序列,并找到表示它们的嵌入(即一组数字的数组)。
  • 然后,它在这个嵌入上进行操作——以“标准神经网络方式”,值“逐层流动”到网络的连续层中——以生成一个新的嵌入(即一个新的数字数组)。
  • 再然后,它从这个数组的最后一部分中生成一个大约有50,000个值的数组,这些值将变成不同可能的下一个 token 的概率。
原文非常详细解释了这个过程,感兴趣的话推荐阅读一下。他其中的一个观点非常值得深思:人类语言(以及背后的思维模式)的结构比我们想象的要简单和更具有“法律属性”。ChatGPT已经隐含地发现了它

4. 《解析Transformer模型》

notion image
如果您读懂了上一篇雄文,那么这篇文章简直会惊呼讲得太浅显易懂了。这是Google Labs的Dale Markowitz介绍ChatGPT背后核心Transformer模型的一篇文章,发表于2021年5月。
神经网络是分析图像、视频、音频和文本等复杂数据类型的一种非常有效的模型。针对不同类型的数据有专门优化过的的神经网络。例如,在分析图像时,我们通常会使用卷积神经网络,它们模仿了人脑处理视觉信息的方式。在2017年推出Transformer之前,使用深度学习来理解文本的方法是使用一种称为循环神经网络(RNN)的模型。
但RNN的问题是:
  • RNN很难处理冗长的文本序列,比如长段落或文章,它们读到一段的结尾时,会忘记开头发生了什么
  • RNN很难训练,它们很容易受到所谓的消失/爆炸梯度问题的影响
  • RNN很难并行化,因为RNN是按顺序处理单词的,这意味着你不能通过添加更多GPU来加快训练速度,这也意味着你不能用那么多数据来训练它们
所以,Transformer是更好的解决方案,在一定程度上完全抛弃了RNN。这就是为什么2017年的论文被称为《注意力就是你需要的一切》。
Transformer有三个主要概念:
  • 位置编码:其思路是将输入序列中的所有单词后面加上一个数字,表明它的顺序。将语序存储为数据,而不是靠网络结构,这样你的神经网络就更容易训练了。
  • 注意力机制:注意力是一种机制,它允许文本模型在决定如何翻译输出句子中的单词时“查看”原始句子中的每一个单词
  • 自注意机制:让神经网络强大的是,它们通常会自动建立起训练数据有意义的内部表示。在文本数据上训练的模型可能自动学习了词性、语法规则以及单词是否同义。
 

5. 《稳定扩散(Stable Diffusion)是如何运作的》

notion image
5篇入门文章的最后一篇讲的是图像生成背后的核心模型:稳定扩散(Stable Diffusion)。
为了生成艺术,我们给稳定扩散提供了一个实际上只是纯噪点的初始图像。但是,我们相当残忍地跟计算机程序撒谎说:“这是一幅超级充满噪点的H.R. Giger(瑞士画家、雕塑家与布景师,《异形》中的外星生物就是他的作品)风格的外星人弹吉他的画——你能帮我清理一下吗?” 于是机器学习模型基于统计数据,开始清理噪点,并依照你的输入要求绘制每个像素上概率最高的图像。
假设,我们要生成一个涨潮的照片,我们可能写下如下关键词:一张长曝光彩色照片,描绘了朽迹斑斑的混凝土台阶伸向海洋,混凝土栏杆两旁,正面视角,对称美感,如梦如幻,充满艺术气氛。(A long exposure color photograph of decaying concrete steps leading down into the ocean, with concrete railings, head on view, symmetry, dream like, atmospheric.)
在稳定扩散v1.5中用来表示这些词的实际数字如下(你可以粗略地把这些数字看作是每一个代表单词含义的不同方面):
初始噪声和我们的文本描述是我们称之为稳定扩散的输入,不同的输入在这些表格中会有不同的值。我们也将一组大得多的数字插入到这些方程式中,但每次都是相同的——这些被称为稳定扩散的参数。举个例子,还记得高中时方程式绘制线条吗y = 3x + 2那么“x”是我们的输入,“y”是最终图像,数字 3 和 2 是我们的参数,只不过实际的参数要大得多,Stable Diffusion 中大约有 10 亿个参数。
而这10亿个参数,不是我们选择的——我们甚至无法解释其中的任何一个!这就是为什么我们无法完全解释稳定扩散的工作原理。我们对这些方程式的作用有一些直观的理解,但是很多事情都隐藏在那些数字的值中,我们不能完全理解。这很神奇,不是吗?
那是怎么找到这10个参数呢?首先选择10亿个随机数字来使用,应用了一个我们称之为训练的数学过程,该过程逐渐将值调整为有效的值,此训练涉及到一个巨大的训练样本集,我们用许多不同的训练样本做了数亿次,模型越来越好。随着我们训练的进行,收益逐渐减少,最终我们会到达一个模型无法从进一步训练中受益的点。一旦完成了模型的训练,他们就发布了参数值供所有人使用。

结语

相信你读完了这五篇文章,应该对当下的AI发展及背后原理有了初步的了解。
也感谢您读到这里,平安!
 
a16z整理的AI典藏文章创建AI知识库首页