AI Agent将助力人工智能领域实现下一个重大突破?
近日,斯坦福大学教授吴恩达(Andrew Ng)在AI Ascent 2024大会上,分享了关于AI Agent的最新趋势与洞察,并提出现有的四种主流的AI Agent设计模式。
演讲中,吴恩达分享了一个非常有意思的观点,他认为智能体工作流的价值可能被大大低估了,基于GPT-3.5构建的智能体工作流在实际应用中的表现优于直接使用GPT-4。此外,他强调AI Agent工作流将在未来推动人工智能领域的进步中释放巨大潜力。
为了让大家更好地了解吴恩达的观点,本文结合吴恩达在X平台关于AI Agent设计模式的详细阐述,将此次演讲的精彩内容进行重构呈现。
AI Agent工作流将在今年推动人工智能取得巨大进步——甚至可能超过下一代基础模型。
AI Agent工作流不是让LLM直接生成最终输出,而是多次提示LLM,使其有机会逐步构建更高质量的输出。
通往AGI的道路感觉更像是一段旅程而不是目的地,我认为这种AI Agent工作流可以帮助我们在这漫长的旅程中向前迈出一小步。
我认为,AI Agent(AI智能体)工作流将在今年推动人工智能取得巨大进步——甚至可能超过下一代基础模型。这是一个重要的、令人兴奋的趋势,我呼吁所有人工智能从业者都关注它。
那么,AI Agent工作流是如何工作的?它的效果如何?
目前,我们在使用LLM(大语言模型)时,大多采用零样本提示(zero-shot)的方式,即在一个非智能体工作流中,把提示输入到对话框中,让模型一次性生成整个输出,过程中不进行任何修改。这有点像是我们让某人写一篇关于某个主题的文章,要求他坐在键盘前,从头到尾打出一篇文章,期间不进行回退删除,并期望得到高质量的结果。尽管这很困难,但LLM在这方面做得非常好。
引入智能体工作流后,我们可以要求LLM对文档进行多次迭代处理。它可能需要执行一系列的步骤,例如:
- 写一份论文大纲;
- 决定是否需要通过网络搜索来收集更多信息;
- 撰写初稿;
- 阅读初稿,并思考哪些部分需要修改;
- 修改初稿;
- ……
这种迭代过程对于大多数人类作家来说是写出好文章的关键。很多人都没有意识到的是,对于AI来说,采用这种迭代式工作流产生的结果要比一次性生成的结果好得多。其实我自己也很惊讶,对于它们的工作决策流程,以及它们优秀的表现。我认为,AI Agent工作流不是让LLM直接生成最终输出,而是多次提示LLM,使其有机会逐步构建更高质量的输出。
事实证明,在零样本提示的条件下,GPT-3.5的正确率是48%,GPT-4的表现更好,达到了67%。但如果你采用的是智能体工作流,GPT-3.5实际上能表现更好,甚至比GPT-4还好。如果你围绕GPT-4构建这样的工作流,GPT-4也能表现得很好。
值得注意的是,处于智能体工作流中的GPT-3.5实际上优于直接使用GPT-4。这意味着采用智能体工作流对于构建应用程序至关重要。
开源AI智能体工具和关于智能体的学术文献正在激增,这是一个令人兴奋的时期,但也是一个令人困惑的时期。为了帮助大家更好地理解智能体领域正在发生的事情,我想分享我在智能体领域看到的四种设计模式。
Reflection是我认为大多数人都应该使用的工具,它确实很有效。Tool Use,我认为它得到了更广泛的认可,并且使用效果确实很好。我认为它们都是非常强大的技术。当我使用它们时,我几乎总能让它们很好地工作。Planning和Multi-agent Collaboration,我认为它们是一个新兴的领域。当我使用它们时,有时我对它们的工作效果感到震惊,它们可以让AI Agent做更多的事情,但目前技术还不太成熟,我无法让它们总是可靠地工作。
接下来,我将详细介绍这四种设计模式。
Reflection是实现速度相对较快的设计模式,它已经带来了令人惊讶的性能提升效果。我们可能都有过这样的经历:在ChatGPT/Claude/Gemini中输入提示,得到不满意的输出,提供关键反馈以帮助LLM改进其响应,然后获得更好的响应。
如果将关键反馈的步骤交给自动化程序,让模型自动批评自己的输出并改进其响应,结果会怎样?这正是Reflection的关键。
以要求LLM编写代码为例。我们可以提示LLM直接生成某个任务X的代码。之后,我们可以提示它审视并修正自己的输出,例如:
- 为我编写任务X的代码;
- 这是任务X的代码,仔细检查代码的正确性、风格和效率等,并对如何改进代码提出建设性意见;
- 根据提出的意见修正代码。
我们会发现,根据提示写出代码的那个大模型,可能能够发现代码里的问题,比如第五行的bug,并提出建设性的意见。如果我们采纳了它的意见并再次输入提示,它可能会输出一个比第一版更好的第二版代码。不能保证一定如此,但大多数情况下它是有效的。这种方法在很多应用中都值得尝试。重复批评/重写过程可能会产生进一步的改进。这种self-reflection过程使LLM能够发现差距并改善其在各种任务上的输出,包括生成代码、编写文本和回答问题。
我们可以通过使用工具(Tool Use)来帮助LLM评估其产出,达到Reflection的效果。例如,通过一些单元测试来运行其代码,以检查它是否在单元测试上生成正确的结果,或者搜索网页以检查它的文本输出。然后,LLM可以反思发现的错误,并提出改进的想法。
再进一步,我们可以使用多智能体框架来实现Reflection。我们可以创建两个不同的智能体,一个是代码智能体,用来提示生成良好的输出,另一个是审核智能体,用来提示对第一个智能体的输出给出建设性的批评,它们背后的LLM可能是同一个,但给它们设置的提示不一样。这种类型的工作流实际上很有效,两个智能体之间通过讨论推动了响应的改进,为LLM的性能带来显著的提升。
Tool Use是AI Agent工作流的关键设计模式,它扩展了LLM的能力。许多人可能已经很熟悉基于LLM的工具使用系统。我们已经看到,有很多不同的工具被人们用于分析、收集信息、采取行动以及提高个人生产力。
在LLM发展的早期,在LLaVa、GPT-4V和Gemini等大型多模态模型(LMM)广泛应用之前,LLM无法直接处理图像,因此很多关于Tool Use的工作是在计算机视觉领域进行的。当时,基于LLM的系统操作图像的唯一方法是调用函数,比如在图像上进行对象识别或目标检测等。从那时起,Tool Use的实践开始了爆炸式增长。去年年中发布的GPT-4的函数调用功能,是迈向通用Tool Use的重要一步。此后,越来越多的LLM被开发出来,来便于Tool Use。
第三种设计模式是Planning。对于还没有尝试过规划算法的人来说,看到AI Agent会感到很惊讶——哇!我无法想象AI Agent能做这些。我曾进行过现场演示,当某件事情失败了,AI Agent能自主规避失败继续运行。实际上我经历过很多这样的惊讶时刻——哇!我不敢相信我的AI agent系统会自动做到这一点。
这里有一个例子是从HuggingGPT论文中改编的。你给出一张男孩的图像,并提示LLM生成一张女孩正在读书的图像,她的姿势与图像中的男孩一样,然后,用声音描述生成的新图像。利用现有的AI Agent,第一步要做的是确定男孩的姿势,接着可能会在HuggingFace上找到合适的模型来提取姿势,接下来需要找到一个姿态图像的模型,来生成一张女孩的图像,然后使用图像转文本模型,最后使用文本转语音模型读出描述。
Multi-agent Collaboration(多智能体协作)
最后一个设计模式是Multi-agent Collaboration(多智能体协作)。ChatDev是多智能体系统的一个实例,你可以设置LLM去扮演不同的智能体角色,比如软件开发公司CEO、设计师、产品经理或测试员等,这些智能体可以相互协作,进行对话、编写代码或开发游戏,虽然代码并不总是能运行,但是这项技术正在不断进步。此外,多智能体辩论也是其中一种设计模型,你可以有多个不同的智能体,比如让ChatGPT和Gemini进行辩论,这实际上也会带来更好的性能。因此,让多个AI Agent一起工作,也是一种强大的设计模式。
我认为,使用这些智能体设计模式能够显著提升我们的工作效率。
以下是我最后一些简短的总结:
第一,通过AI Agent工作流,AI能做的事情将在今年大幅扩展。
第二,人们习惯于在输入提示之后,立即得到回复,这是人性使然——我们喜欢即时获取、即时反馈。但是在AI Agent工作流中,我们需要习惯将任务委托给AI Agent,并耐心等待几分钟,甚至几小时,来获取回应。就像我见过很多新晋管理者,将任务交给某人,然后五分钟后检查结果,这不是一种有效的工作方式。因此,我们需要对AI Agent多点耐心。
第三,快速的Token(标记)生成是非常重要的。因为在迭代式的AI Agent工作流中,我们需要LLM能够快速地生成Token。我认为,即使是使用性能稍低的LLM,如果能快速生成更多的Token,通过更多轮次的迭代,也可以比性能更强但Token生成慢的LLM,获得更好的结果。或许这个观点还存在一些争议。
第四,坦率地说,我非常期待Claude 4、GPT-5和Gemini 2.0,以及其他所有正在构建的、出色的大模型。我认为,如果你期待在Claude 4/GPT-5/Gemini 2.0上运行你的任务,以零样本的方式,你可能可以在已经发布的LLM(比如GPT-4)上通过AI Agent工作流,比预期更早地接近GPT-5的性能水平。我认为这是一个重要的趋势。
最后,我想说,通往AGI的道路感觉更像是一段旅程而不是目的地,我认为这种AI Agent工作流可以帮助我们在这漫长的旅程中向前迈出一小步。
相关参考:
《吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果》,机器之心
《吴恩达最新演讲:AI Agent工作流的未来》,乌鸦智能说
全球精选致力于为你“筛选、记录、解构”海内外最优质的人工智能前沿信息。
在这里,你将发现世界各地的创新成果、科技突破、行业趋势、商业思考以及那些引领AGI潮流的精英企业和人物。
此栏目每周更新,描摹AGI时代国际格局,与全球创新者共探未来。
WAIC 2024已开启申报
扫码获取申请表或垂询
抢先预约2024不容错过的AI盛会