多客科技 发表于 2025-10-24 02:41

AI-Agent专辑之四:AI Agent落地的思考

作者:微信文章
    AI-Agent就像是把大模型往更小的细节分解,分解成一个个独立的智能体,就像生物体由一个个细胞组成,细胞里包含了基因,说的更细一点:每个细胞都有整个生物体的基因,都是带着全息影像在智能体里。

   每个基于大模型的AI-Agent智能体都带有所采用LLM大模型的“基因”,就像乐高积木一样,每个智能体给赋予了结构简单,界限清晰,功能范围明确的细胞或者基因。“大”模型发力在微“小”的智能体,“大”的一定要在“小”中实现其真正价值,体现了一种“反者道之动”的哲学味道。--EBATOM

以下是发布于2024-01-21



一、当前Agent 的缺陷和挑战

    先说一下目前Agent存在的一些问题,一些Agent的实现细节和技术放在最后很多人不爱看。既然Agent主要靠大模型驱动,那Agent自然也全盘继承大模型的缺陷。



缺陷1: 大模型的可控性差导致Agent不稳定。

    可控性差这个缺点就很致命,某种程度上来说也是导致目前大模型出来这么久了依然没看到除了聊天以外的成功商业案例。商业是这样,Agent 也一样。你也不知道大模型会把 Agent 这辆车开到什么地方。关键是 Agent 已经努力的在工作了,也没摸鱼,就是有时候努力的方向不对,废品率太高,成本有点把控不住。之前试用过 AutoGPT,当时用的 GPT3.5的 API,发现任务一复杂,Agent直接就跑飞了,还经常卡在自我循环里出不来了,白白浪费了很多 token。据说用 GPT4会好一些,但是也只是缓解,很难从根本上解决。

    OpenAI一个很好的改善就是可以让模型强制输出格式正确的json。这一点不知道他内部是如何做到的,猜测可能是专门对输出格式进行了对齐,然后再加上一个后处理来兜底。模型大概率输出json,当输出不是 json 的时候重新输出。这样在用户侧就会得到可解析的json,相当于把不可控的部分自己内部消化了。这是大模型产品或者Agent设计上一个可以借鉴的地方。
缺陷2: 大模型的无状态和处理长度

    大模型本身是无状态的,所以一些历史交互信号输入它是记不住的,所以只能外挂一个 Memory 来处理。但是大模型一次能处理的长度也是一个瓶颈,这极大的限制了 Agent 的能力。

    去年上半年主流大模型处理为 4096, 后面越来越大了,比如 16k,还有 128k 的。随着发展,跟处理速度一样,也许越来越不是一个问题。
缺陷3: 目前大部分Agent还是小聋瞎。

    目前 Agent 的输入信号大多还是文本。多模态的 Agent 非常少,清华开源了 CogAgent,其他大多数都是商业公司在搞,比如 Adapt.ai。
缺陷4: 现在 Agent 的研究依然不是很成熟。

    直到去年8月份,关于LLM-powered autonomous Agent 的一些测评才逐渐出现,比如 AgentBench,不得不说清华老哥这方面进展还是比较前沿的。
缺陷5: 效率低下,实在太慢。

    大模型推理目前本来就不快,Agent一般要通过调用多次大模型来完成任务,那自然是更慢了。整个体验就像是用 2G 的手机看视频,漫长的等待。但是这个问题在未来估计就不是问题了,摩尔定律还在,就像 2G 早晚发展为 5G 一样。


二、Agent 现状的一些看法

    由于上面提到的一些缺陷,LLM-powered autonomous Agent 目前其实还有很长的路要走,大家目前可能过于乐观了。从技术成熟度曲线来看,也许处于如下的位置:



后面可能会稍微降降温至后才会迎来真正蓬勃的发展。

    如果说目前大模型LLM还是一个不太可控的孩子的话,Agent就像是给孩子布置了一个任务:骑自行车。现在的Agent就像是给自行车上装了两个辅助轮子。
三、当前Agent理论探索和部署实践应用简述



    下面列举一些Github上比较火热的Agent项目,里面的一些思路也很建议去思考和尝试。
3.1 AutoGPT

主要是Prompt上的创新,给了20多个 todolist,然后让模型去判断下一步要干啥。使用GPT-3.5 几乎无法完成任务。
3.2 BabyAGI

维护了一个优先队列,然后让大模型来执行 Makefile 的功能。
3.3 GPT-engineer

·上岸第一剑,先斩意中人。用Agent 把码农干掉。

·可以认为是后面的chatdev 的简易版,但是 Prompt 上做了一些创新,加入了澄清机制。
3.4 GPT-Researcher

·用RAG 的方法来生成一个研究报告。
3.5 OpenGPTs

·langchain 出的产品。

·目前功能还比较简单,全面对比OpenAI 的 GPTs
3.6 OpenInterpreter: chat with your computer

·电脑小助理,用自然语言指挥电脑完成你想要的任务。

·不过一看就是码农做的产品,还要在终端里打字。会在终端里打字的人会用这个么?最起码也搞个瑞星小狮子吧。
3.7 Camel

·算是早期探索Multi Agent 的研究,两个 Agent 一起解决任务。

·后面还有个瓜,就是微软的AutoGen 采用了 Camel 的思路但是没有引用。微软的名气又很大,导致好多人认为 Camel 是抄袭 AutoGen 的。Camel 的作者专门写了个声明:

Guohao Li李国豪:关于CAMEL(NeurIPS2023)和AutoGen声明369 赞同 · 41 评论文章
3.8 AutoGen

·感觉就是在Camel 上做的扩展。AutoGen 多了一些群聊等东西。

·微软的AutoGen提出的UserProxyAgent和AssistantAgent和概念上一致,没有任何引用和讨论。
3.9 ChatDev

·从Camel 的2个 Agent 扩展到多个,设置不同的角色来开发软件。

·但是底层代码直接用了Camel, 所以虽然是多个 Agent,但是还是两两聊天。
3.10 MetaGPT

·和ChatDev 干的事基本一样,都是开发软件。

·其实也挺有意思的,可以看出国人在开发软件上和老外思路上的一些差异。

·与ChatDev 的区别见:

https://github.com/OpenBMB/ChatDev/issues/24
3.11 XAgent

·和ChatDev 师出同门,都是刘知远团队做的。

·整体就是Divide & Conquer + Feedback 的思路。
3.12 memgpt

·在大模型的基础上建一个操作系统
四、Appendix I:Agent 的分类学

    关于Agent的分类其实有很多,早在1996年,Stan Franklin and Art Graesser 就对Agent做了一些可能的分类,如下:但是大家最常用的,还是 autonomousagent, 也就是自主智能体。毕竟 autonomous是出现在定义中的。还梳理当时的一些Agent关系。回到今天的主角,现在基于大模型的 Agent,实际上的全称应该叫:LLM-powered autonomous agent。
本文写于2024年1月,技术发展很快,期待 Agent 早一天落地。

编辑于 2024-01-21 21:58

转自:https://www.zhihu.com/question/624354739/answer/3371056067
页: [1]
查看完整版本: AI-Agent专辑之四:AI Agent落地的思考