如何使用AI来做事:一份带有观点的指南
type
status
summary
date
slug
tags
category
password
icon
作者:Ethan Mollick发表时间:2023年7月15日原始链接:https://www.oneusefulthing.org/p/how-to-use-ai-to-do-stuff-an-opinionated
越来越强大的人工智能系统正在以越来越快的速度发布。本周,Claude 2首次亮相,这可能是公众可以使用的第二个最强大的AI系统。前一周,Open AI发布了Code Interpreter,这是迄今为止可用的最复杂的AI模式。在那之前的一周,一些人工智能获得了查看图像的能力。
然而,似乎没有一个人工智能实验室提供任何用户文档。相反,唯一的用户指南似乎是通过Twitter影响者获得的。对于声称关心正确使用其技术的组织来说,谣言文档是一个奇怪的选择,但我们目前就是这样。
我不能声称这将是一个完整的用户指南,但它将作为人工智能当前状态的一点方向。我每隔几个月为我的学生(和感兴趣的读者)准备一份人工智能入门指南,每次都需要进行重大修改。过去的几个月特别疯狂。
这份指南基于我的经验,侧重于如何选择正确的工具来做事情。我单独写过关于您可能希望人工智能完成的任务类型,提前阅读下这些任务可能对你有帮助。
主要的大语言模型
当我们现在谈论人工智能时,我们通常谈论的是大型语言模型或简称为LLMs。大多数AI应用程序都由LLM驱动,其中只有几个基础模型,由少数几个组织创建。每家公司都通过聊天机器人直接访问他们的模型:OpenAI制作了GPT-3.5和GPT-4,它们驱动了ChatGPT和微软的Bing(在Edge浏览器上访问)。Google在Bard的标签品牌下有各种模型。Anthropic制造了Claude和Claude 2。
还有其他我不会讨论的LLMs。第一个是Pi,一个由Inflection构建的聊天机器人。Pi针对对话进行了优化,真的、真的想成为你的朋友(真的,试试看我在说什么)。它不喜欢做除了聊天之外的任何事情,尝试让它为你工作是一种令人沮丧的事情。我们也不会涵盖任何人都可以使用和修改的各种开源模型。它们通常对今天的普通用户来说不是很容易使用或有用,但是有真正的希望。未来的指南可能会包括它们。
因此,这是一份快速参考图表,总结了LLM的现状:
前四个(包括Bing)都是OpenAI系统。今天有两大主要的OpenAI AI:3.5和4。3.5模型在11月启动了当前的AI热潮,4.0模型在春季首次发布,功能更强大。一个新的变种使用插件连接到互联网和其他应用程序。有很多插件,其中大部分不是很有用,但你应该随需要自由探索它们。Code Interpreter是一个非常强大的ChatGPT版本,可以运行Python程序。如果您从未为OpenAI付费,那么您只能使用3.5。除了插件变种和一个暂时停用的带有浏览功能的GPT-4版本之外,这些模型都没有连接到互联网。微软的Bing使用4和3.5的混合,通常是GPT-4家族中首个推出新功能的模型。例如,它既可以创建也可以查看图像,而且它可以在网页浏览器中阅读文档。它连接到互联网。Bing使用有点奇怪,但功能强大。
谷歌一直在测试自己的人工智能供消费者使用,他们称之为Bard,但是由各种基础模型驱动,最近是一个名叫PaLM 2的模型。对于开发出LLM技术的公司来说,他们非常令人失望,尽管昨天宣布的改进表明他们仍在研究基础技术,所以有希望。它已经获得了运行有限代码和解释图像的能力,但我目前通常会避免它。
最后一家公司Anthropic发布了Claude 2。Claude最值得注意的是有一个非常大的上下文窗口-本质上是LLM的记忆。Claude几乎可以保存一整本书或许多PDF。与其他大型语言模型相比,它不太可能恶意行事,这意味着,在实际上,它倾向于对你做一些事情进行责骂。
现在,来看看一些用途:
写东西
目前,GPT-4仍然是功能最强的人工智能写作工具,你可以在Bing(选择“创新模式”)上免费访问,或者通过购买ChatGPT的$20/月订阅来访问。然而,Claude是紧随其后的第二名,也提供了有限的免费选项。
这些工具也被直接集成到常见的办公应用程序中。Microsoft Office将包括一个由GPT提供支持的副驾驶,Google Docs将整合Bard的建议。这些新创新对写作的意义是相当深远的。
以下是一些使用人工智能帮助您写作的方法。
- 草拟任何东西的初稿。博客文章、论文、宣传材料、演讲、讲座,选择自己的冒险、剧本、短篇小说——你可以说出来,人工智能做得很好,而且相当好。你所要做的就是提示它。提示制作不是魔法,但基本提示会导致无聊的写作,但提高提示并不难,只需与系统互动。你会发现,作为作家,只需稍加练习,人工智能系统就会更有能力。
- 让你的写作变得更好。将你的文本粘贴到人工智能中。要求它改进内容,或就如何为特定受众提供更好的建议。要求它以截然不同的风格创建10个草稿。要求它使事物更生动,或者添加例子。用它来激发你做得更好的工作。
- 帮助你完成任务。AI可以做你没有时间做的事情。像实习生一样使用它写邮件,创建销售模板,给你一个商业计划的下一步,等。这是我在30分钟内可以用它支持产品发布所能完成的事情。
- 解锁自己。从一个任务中被一个困难的挑战分散注意力是非常容易的。AI提供了一种让你自己有动力的方式。
为了回应你的答案,AI很容易“产生幻觉”并生成看似合理的事实。它可以生成完全错误的内容,而且非常令人信服。让我强调一下:AI连续且良好地撒谎。它告诉你的每一件事或信息可能都是不正确的。你需要检查所有的东西。你需要全部检查一下。特别危险的是要求它为互联网提供参考、引用、引文和信息(对于未连接到互联网的模型)。因为GPT-4通常更加扎实,因为Bing的互联网连接意味着它实际上可以拉入相关事实。这是一份避免幻觉的指南,但它们不可能完全消除。
另请注意,人工智能不会解释自己,它只会让你认为它解释了自己。如果你要求它解释它为什么写东西,它会给你一个完全编造的合理答案。当你询问它的思考过程时,它并没有审查自己的行动,它只是生成听起来像它在做这样的文本。这使得理解系统中的偏见非常困难,尽管这些偏见几乎肯定存在。
它也可以被不道德地用来操纵或作弊。你对这些工具的输出负责。
制作图像
最透明的选项:Adobe Firefly开源选项:Stable Diffusion最佳免费选项:Bing或Bing Image Creator(使用DALL-E),Playgound(允许您使用多个模型)
最佳质量图像:MidJourney
大多数人可以使用四个大型图像生成器:
- Stable Diffusion,它是开源的,你可以在任何高端计算机运行。开始需要付出努力,因为你必须学会正确制作提示,但一旦你做到了,它可以产生很好的结果。它特别适合将AI与来自其他源的图像结合在一起。如果你走这条路,这里有一个很好的Stable Diffusion指南(请务必阅读第1部分和第2部分)。
- DALL-E,来自OpenAI,已纳入Bing(您必须使用创意模式)和Bing图像创建器。这个系统很可靠,但比Midjourney差。
- Midjourney,这是2023年中期最好的系统。它的学习曲线最低:只需键入“thing-you-want-to-see --v 5.2”(末尾的--v 5.2很重要,它使用最新的模型),你就会得到一个很好的结果。Midjourney需要Discord。这是使用Discord的指南。
- Adobe Firefly内置在各种Adobe产品中,但在质量方面落后于DALL-E和Midjourney。然而,虽然其他两个模型还不清楚他们用于训练人工智能的源图像,但Adobe宣布它只使用它有权使用的图像。
以下是它们的比较(每张图像都有模型标记):
提示词:“受梵高启发的运动鞋时尚摄影”-每个模型创建的第一张图像
一些需要担心的事情:这些系统是围绕基于互联网数据训练而具有内置偏见的模型构建的(例如,如果您要求它创建企业家的图片,您可能会看到更多以男性而不是女性为特色的图片,除非您指定“女性企业家”),您可以使用此浏览器在工作中看到这些偏见。
这些系统还以不透明的方式对互联网上的现有艺术进行了学习,并且可能在法律和道德上存在问题。虽然从技术上讲,你拥有所创建图像的版权,但法律规则仍然模糊不清。
此外,目前为止,它们还不能创建文本,只是一堆看起来像文本的东西。但MidJourney已经搞定了。
想出点子
尽管(或者事实上,由于)它所有的限制和怪异,人工智能是产生想法的完美选择。你通常需要有很多想法才能有好的想法,而人工智能擅长数量。有了正确的提示,你也可以强迫它非常有创意。在创意模式下让Bing查找您最喜欢的、不寻常的想法生成技术,如Brian Eno的倾斜策略或Mashall McLuhan的四种策略,并应用它们。或者要求一些奇怪的东西,比如受随机专利启发的想法,或者你最喜欢的超级英雄......
制作视频
现在,生成一个完全由人工智能生成的角色的视频,阅读完全由人工智能编写的脚本,用人工智能制作的声音说话,由人工智能制作动画,这简直是微不足道的。它也可以深度伪造人,正如你在这个链接中看到的那样,我伪造了自己,谨慎使用,但这对于制作解释视频和介绍来说可能很棒。
最近还发布了第一个商用文本到视频工具Runway v2。它创建了4秒的短剪辑,更像是对未来发展的展示,但如果你想了解这个领域的未来发展,值得一看。
一些需要担心的事情:深度伪造是一个巨大的问题,这些系统需要合乎道德地使用。
处理文档和数据
对于数据(以及您对代码的任何奇思妙想):代码解释器
对于文档:Claude 2用于大型文档或同时处理多个文档,Bing侧边栏用于较小的文档和网页(侧边栏,Edge浏览器的一部分可以“查看”浏览器中的内容,让Bing处理该信息,尽管上下文窗口的大小有限)
我上周写了关于代码解释器的文章。它是一种GPT-4模式,允许您将文件上传到AI,允许AI编写和运行代码,并允许您下载AI提供的结果。它可用于执行程序、运行数据分析(尽管您需要充分了解统计数据和数据才能检查其工作),并创建各种文件、网页甚至游戏。尽管自它发布以来,关于未经培训的人使用它进行分析的风险有很多争论,但许多测试代码解释器的专家都留下了深刻的印象,以至于一篇论文表明,它需要改变我们培训数据科学家的方式。如果您想了解更多关于如何使用它的详细信息,请访问我之前的帖子。我还制作了一个初始提示,以设置代码解释器以创建有用的数据可视化。它给出了一些良好图表设计的基本原则,也提醒它可以输出许多种类的文件。你可以在这里找到。
对于处理文本,特别是PDF,到目前为止,Claude 2非常出色。我在整本书中粘贴到Claude的前一版本中,取得了令人印象深刻的结果,新模型要强大得多。你可以在这里看到我之前的经验,以及一些可能有趣的提示。我还给了它许多复杂的学术文章,并要求它总结结果,它做得很好!更好的是,你可以通过询问后续问题来审问材料:这种方法的证据是什么?作者得出了什么结论?等等......
有些事情需要担心:这些系统仍然产生幻觉,尽管方式更有限。如果您想确保准确性,你需要检查它们的结果。
获取信息和学习东西
如果您打算使用人工智能作为搜索引擎,可能不要这样做。幻觉的风险很高,无论如何,大多数人工智能都没有连接到互联网(这就是为什么我建议你使用必应。Bard,谷歌的人工智能,产生了更多的幻觉)。然而,根据最近的一项试点研究,有一些证据表明,如果仔细使用,人工智能通常可以提供比搜索更有用的答案。特别是在搜索引擎不是很好的情况下,如技术支持、决定在哪里吃饭或获得建议,必应通常比谷歌更好。这是一个正在迅速发展的领域,但您现在应该小心这些用途。你不想惹麻烦。
但更令人兴奋的是,使用人工智能来帮助教育的可能性,包括帮助我们学习。我写过关于人工智能如何用于教学,并帮助教师的生活更轻松,课程更有效,但它也可以用于自学学习。你可以要求人工智能解释概念并获得非常好的结果。这个提示是一个很好的自动导师,可以在这里找到一个直接链接来激活ChatGPT中的导师。因为我们知道人工智能可能会产生幻觉,所以明智的做法是(小心!)根据其他来源仔细检查任何关键数据。
还有更多?
由于技术的快速发展,这些可能是你将使用的最差的AI工具,正如过去几个月的发展所示。我毫不怀疑我很快就需要制作一个新的指南。但是请记住两个关于AI始终如一的关键点:
- AI是一种工具。它并不总是正确的工具。考虑到其弱点,你需要仔细考虑它是否适合你计划应用的目的。
- 你需要了解许多道德问题。AI可以用来侵犯版权,或者作弊,或者窃取他人的工作,或者操纵。特定的AI模型是如何构建的,谁从其使用中受益,通常都是复杂的问题,而且在这个阶段并不特别清楚。最终,你有责任以道德的方式使用这些工具。
我们处于一个快速发展的革命的初期。你还有其他想要分享的用途吗?请在评论中告诉我。