直达「 通往AGI之路 」飞书知识库 →
a16z整理的AI典藏文章
a16z整理的AI典藏文章
type
status
summary
date
slug
tags
category
password
icon
作者:Derrick Harris, Matt Bornstein 和 Guido Appenzeller
原文地址:https://a16z.com/2023/05/25/ai-canon/
译者:通往 AGI 之路
人工智能的研究正在以指数级别的速度增长。对于 AI 专家来说,跟上所有新发布的内容已经非常困难,对于初学者来说更是难上加难。
因此,在这篇文章中,我们分享了一份我们信赖的、用于更深入了解现代 AI 的精选资源列表。我们称之为“AI 典藏”,因为这些论文、博客文章、课程和指南在过去几年中对该领域产生了巨大影响。
我们首先对 Transformer 和 Latent Diffusion(潜在扩散)模型进行了简单的介绍,这些模型正在推动当前的 AI 浪潮。接下来,我们深入研究了技术学习资源;构建大型语言模型(LLMs)的实用指南;以及 AI 市场的分析。最后,我们列出了一份里程碑式研究成果的参考列表,从 2017 年谷歌发布的“Attention is All You Need”开始——这篇论文向世界介绍了 Transformer 模型,并开启了生成 AI 的时代。

轻松的入门

这些文章不需要专门的背景知识,可以帮助你快速理解现代 AI 浪潮的最重要部分。
  • Software 2.0:Andrej Karpathy 是最早清楚解释(在 2017 年!)为什么新的 AI 浪潮真正重要的人之一。他的论点是,AI 是一种新的、强大的编程计算机的方式。随着大语言模型(LLMs)的快速改进,这个论点被证明是有先见之明的,并为 AI 市场的可能进展提供了一个良好的思维模型。软件2.0(Software 2.0)
  • State of GPT:这也是 Karpathy 的文章,这是一个非常容易理解的解释,说明了 ChatGPT / GPT 模型一般如何工作,如何使用它们,以及研发可能采取的方向。GPT的现状(State of GPT)
  • How Stable Diffusion works:这是一篇与上一篇文章在计算机视觉领域的对应文章。Chris McCormick 为非专业人士解释了 Stable Diffusion 是如何工作的,并从文本到图像模型的角度,帮助你对这种技术建立直观理解。如果你希望更轻松地理解这个概念,可以查看来自 r/StableDiffusion 的这个漫画稳定扩散(Stable Diffusion)是如何运作的

基础学习:神经网络、反向传播和嵌入

这些资源为你提供了机器学习和 AI 基本概念的基础理解,从深度学习的基础知识到 AI 专家的大学水平课程。

讲解资源

  • Word2vec explained:对嵌入和令牌的简单介绍,它们是 LLMs(和所有语言模型)的构建块。

课程

  • Stanford CS229:Andrew Ng 的机器学习入门课程,覆盖了机器学习的基础知识。
  • Stanford CS224N:Chris Manning 的深度学习自然语言处理(NLP)课程,通过第一代 LLM 介绍涵盖了 NLP 基础知识。

技术深度探讨:了解 transformers 和大模型

有无数的资源(有些内容更好些)试图解释大语言模型(LLMs)的工作原理。以下是我们的一些最爱,面向广泛的读者/观众。

讲解资源

  • The annotated transformer:如果你想在源代码级别理解 transformer 模型,这是一篇深度文章。需要一些 PyTorch 的知识。
  • RLHF: Reinforcement Learning from Human Feedback:Chip Huyen 解释了 RLHF(基于人类反馈的强化学习 ),它可以使 LLMs 的行为更可预测、更符合人类的友好方式。这是像 ChatGPT 这样的系统中最重要但最不好理解的方面之一。
  • Reinforcement learning from human feedback:计算机科学家和 OpenAI 联合创始人 John Shulman 在这个精彩的演讲中更深入地探讨了 LLMs(大语言模型)与 RLHF(基于人类反馈的强化学习 )的当前状态、进展和限制。

课程

  • Stanford CS25:Transformer 技术联盟,关于 Transformer 技术的在线研讨会。
  • Stanford CS324:由 Percy Liang, Tatsu Hashimoto 和 Chris Re 主讲的《大型语言模型》课程,涵盖了大型语言模型的各种技术和非技术方面。

参考和评论

  • Predictive learning, NIPS 2016:在这次早期的演讲中,Yann LeCun 强烈主张无监督学习是大规模 AI 模型架构的关键元素。跳到 19:20 查看他著名的蛋糕类比,这仍然是现代 AI 最好的心智模型之一。
  • AI for full-self driving at Tesla::另一个经典的 Karpathy 演讲,这次他介绍了特斯拉的数据收集引擎。从 8:35 开始,他进行了一次伟大的 AI 演讲,解释了为什么长尾问题(在这种情况下是停车标志检测)如此困难。
  • The scaling hypothesis:大型语言模型最令人惊讶的方面之一:规模化(增加更多的数据和计算)会继续提高准确性。GPT-3 是第一个清楚展示这一点的模型,Gwern 的文章很好地解释了其背后的直觉。
  • Chinchilla's wild implications:名义上是对重要的 Chinchilla 论文的解释,这篇文章触及了 LLM 规模化的大问题的核心:我们是否正在耗尽数据?这篇文章在上面文章的基础上,给出了对规模化规律的新鲜视角。
  • The Waluigi Effect:名义上是对“Waluigi 效应”的解释(即,为什么 LLM 行为中会出现“另我”)【注:在回应不同的提示或问题时,它可能会表现出不同的“个性”或“角色”】的解释,但其主要的有趣之处在于它对 LLM 提示理论的深入研究。

使用 LLM 进行构建的实用指南

新的应用栈正在以 LLM 为核心形成。虽然目前还没有很多关于此主题的正规教育课程,但我们找到了一些最有用的资源。

参考

  • Prompt Engineering Guide:对于任何编写 LLM 提示的人——包括应用开发者——这是最全面的指南,对一些流行模型提供了具体示例。如果想要更轻松、更富有对话性的处理,可以尝试阅读 Brex 的提示工程指南
  • Prompt injection: What’s the worst that can happen? 可能会发生什么最糟糕的事情?提示注入是 LLM 应用潜在的严重安全漏洞,目前还没有完美的解决方案。Simon Willison 在这篇文章中对这个问题给出了最终的描述。Simon 关于 AI 的几乎所有内容都是非常棒的。
  • OpenAI cookbook:对于开发者来说,这是使用 OpenAI API 的指南和代码示例的最权威收集。它会不断更新新的代码示例。
  • Pinecone learning center:许多 LLM 应用都是基于向量搜索范式。尽管 Pinecone 的学习中心是其品牌所提供的内容,但它提供了如何在这种模式中构建的最有用的指导。
  • LangChain docs:作为 LLM 应用的默认协调层,LangChain 将堆栈中的所有其他部分连接在一起。因此,他们的文档对于理解整个技术栈以及各部分如何协同工作提供了实用的参考。

课程

  • LLM Bootcamp:这是一个实践课程,由 Charles Frye、Sergey Karayev 和 Josh Tobin 主导,专注于构建基于 LLM 的应用。

LLM 基准

  • Chatbot Arena:这是一个由 UC Berkeley 的团队领导的,采用 Elo 评分系统对热门 LLM 进行排名的平台。用户也可以通过进行模型间的直接比较参与其中。
  • Open LLM Leaderboard:是一个由 Hugging Face 提供的排行榜,比较开源 LLM 在一系列标准基准和任务中的表现。

市场分析

我们都为生成式人工智能所能创造的东西感到惊叹,但仍然有很多问题需要回答。哪些产品和公司将生存和繁荣?艺术家会发生什么变化?公司应该如何利用它?它将如何影响就业和整个社会?以下是一些试图回答这些问题的尝试。

a16z 思考

  • Navigating the high cost of AI compute:详细分析为什么生成式人工智能模型需要如此多的计算资源,以及如何在需求旺盛的市场中获取这些资源(即以合适的成本获得合适数量的正确 GPU)的思考方式。

其他观点

  • State of AI Report:这是一个年度回顾,涵盖了 AI 领域的所有事物,包括技术突破、产业发展、政策/法规、经济影响、安全性以及对未来的预测。

里程碑式的研究成果

我们今天所见的许多令人惊奇的 AI 产品,都是由大公司和顶级大学的专家进行的令人惊奇的研究成果。最近,我们也看到了个人和开源社区对流行项目进行的卓越工作,例如,通过创建自动化代理或将大模型移植到算力更弱的硬件上运行。
以下是这些论文和项目的集合,供真正想深入研究生成性 AI 的人参考。(对于研究论文和项目,我们还包括了相关的博客文章或网站的链接(如果有的话),这些内容往往以更高的水平做出了解释。我们也包括了原始出版年份,以便您可以追踪基础研究的发展。)

大型语言模型

新模型
模型改进(例如微调、检索、注意力)
  • Constitutional AI (2022):Anthropic 团队介绍了来自 AI 反馈的强化学习(RLAIF)的概念。主要的想法是我们可以在其他 AI 的监督下开发出一个无害的 AI 助手。

图像生成模型

  • Zero-shot text-to-image generation (2021):这篇论文介绍了 DALL-E,这是一种将上述的 CLIP 和 GPT-3 结合起来,根据文本提示自动生成图像的模型。它的后继者,DALL-E 2,在 2022 年引发了基于图像的生成式 AI 热潮。(博客文章

Agents(智能体代理)

  • Auto-GPT: An autonomous GPT-4 experiment : 一个开源实验项目,通过给 GPT-4 提供一组工具(互联网访问、文件存储等)并选择使用哪些工具来解决特定任务,以扩大 GPT-4 的能力。
  • BabyAGI:这个 Python 脚本使用 GPT-4 和向量数据库(用来存储上下文),以便计划并执行一系列解决更广泛目标的任务。

其他数据模态

代码生成
视频生成
人类生物学和医学数据
音频生成
多维图像生成
特别感谢 Jack SoslowJay RughaniMarco MascorroMartin CasadoRajko Radovanovic Vijay Pande 对本文的贡献,也感谢整个 a16z 团队总是能对 AI 的最新进展进行积极的讨论。还要感谢 Sonal Chokshi 和加密货币团队在公司建立了一系列经典内容。
 
 
软件 2.0(Software 2.0)从这里启程的基石阅读