查看: 701|回复: 0

大模型下一场战事,为什么是AI Agent?

[复制链接]

169

主题

11

回帖

22万

积分

开发人员

积分
220787
发表于 2024-5-14 11:50:55 | 显示全部楼层 |阅读模式
a1.webp
(一)改变游戏规则
AI Agent会改变软件的游戏规则。
武汉人工智能研究院院长王金桥的观点是:
“美国Agent Store(智能体商店)发展得好,这会令中美大模型差距持续拉大。”
AI Agent很酷,而竞争残酷。OpenAI就差摆明讲了:“我全部都要。”(双手收拢握拳状)。
野心这么大,留给别人的不多了。一位老读者向我吐槽,OpenAI可以是“发电厂”,做发电的生意,把电器的生意留给别人。但它选择了既做电厂,又做电器。
在Open AI的API上面小打小闹来谋求发展的想法,趁早放下。
你看看,Open AI已经发布的每一个能力,基本上都有一个或者多个初创公司正在做,玩法略有区别。
毕竟,GPT技术领先,其商业化天然优势不会弱。
OpenAI开发者大会上,GPTs既奇思,又妙想。它带来一种很新的玩法,四两拨千斤。
用大模型“搞开发”这件事,打字就可以了。用人话来描述,机器人的身份、语言特征,再“上交”点资料给GPT。要么,加入你的生活,要么,加入你的工作,无论日程还是流程,想怎么加就怎么加。
假如你是一个HR,让GPTs计算同事们的绩效工资。当然,薪资可能保密,你得上传同事的绩效情况和工资数量,姑且叫做上传“保密工资文件夹”吧。
这里有个坑,文末再讲。
你建一个助理,我建一个助理。自建自足之后,把“助理”分享给他人。
人多,势就众。分享,商店,分钱,一键三连,OpenAI直接闭环。
上次被盛赞为“苹果商店”的功能是OpenAI的Plugin。这次是GPTs。有了市场,背后是生态。
难怪王金桥院长很肯定GPTs创新价值。他说:“GPTs关键在于,不止设计了产品,而是设计了生态。”
优点一:办得简单。
最简单的玩法,最轻量化的设计。一堆用户毫不费力就被撬动。用的人越多,GPT商业价值越大。
优点二:办得漂亮。
GPTs打开了想象力的阀门。门槛已经降得这么低了,你要连一个“主意”都没有,还真说不过去。
好点子等同于好产品,执行力由GPTs接手。有人还在写商业计划书,有人用GPTs做完了。
夸完了,思考一下:GPTs到底算不算是AI Agent?
Andrej Karpathy曾说,自动驾驶和VR都是糟糕的AI Agents。可见,AI Agent所指的范围有多大。
有关AI Agent的严格定义,还没有。
比尔·盖茨倒是说:“这种类型的软件可以响应自然语言,并且可以根据对用户的了解来完成许多不同的任务。”
要我说,能自动化地完成任务,甭管大小,用了大模型的能力,都算AI Agent。那就是说,GPTs是一个AI Agent级别的产品,虽然仅是早期阶段。
虽然对于推动大模型广泛使用有所帮助,但是你依然可以批驳:GPTs不就是个提示词(Prompt)模版分享款么。还到不了苹果商店的级别。
甚至还有声音说,GPTs不算AI Agent。我看到,有的外媒管GPTs叫“准AI Agent”。有的外媒则说,《OpenAI迈着婴儿般的步伐走向AI Agent(‘baby step’ toward AI Agents)》。
奥特曼认为GPTs属于AI Agent。他委婉地承认了早期性,用了一个词“Precursors”,中文意思为“初期形态”。
他的原话是:“Over time, GPTs and assistance areprecursors to agents that will be able to perform more complex actions on yourbehalf.”
(GPTs和助手作为Agent的初期形态,将能做越来越多的事情。)
久而久之(Over time)是仍需“不断改进”的另一种说法。换言之,被称作AI Agent还差点意思。
想找到“宝藏级”的玩法,OpenAI仅仅依靠一个僵硬的对话界面显然是不够的,API很好,GPTs也好。
谭老师我个人很喜欢GPTs,人们一定会“心热”一阵子这个产品,用户使用时长也会创造出一个新的增长点。
这让我又想起了乔布斯说的那句话:“人们不知道他们想要什么,直到你向他们展示它。”
GPTs不是绝招,而是妙招。
说到底,不是没有想到。有位开发者和我说:“GPTs我玩了两天,感觉也就这样了。”“OpenAI的这些应用中的巧思妙想,国内并不是想不到。GPT-4这个大模型内部蕴含的能力太过于强大。只要想得妙,挺容易引爆。”
a2.webp
(二)落地杀手锏

国内大模型厂商会不会做AI Agent?
答案是肯定的。
对于美国的OpenAI,大模型技术既是产品。中国大模型厂商要面临的现实很残酷:没有足够高质量的生态给大模型厂商付费。
这样,大模型厂商要么下场做AI Agent,要么做软硬件的解决方案。比如,私域微调,比如,大模型一体机。国内大模型厂商被迫扩张来实现价值闭环,必然会在Agent Level(级别)打造产品,最后的杀手产品一定是AI Agent。
我和一位国内大模型生产品态开发团队负责人聊了聊。
我评价他们团队是大模型生态团队里技术水平比较好的,能做微调,有一定的基础设施建设能力。
负责人向谭老师流露出的焦虑,让我有些许吃惊,他说:“现在包括我在内有很多人,都到了迷茫阶段,不知道下一步该干嘛。你做了很多事,结果,巨头稍微动动小指头,对你来说,均是降维打击。”
大模型生态社区确实有焦虑,迷茫和不爽OpenAI的集体情绪。
谈到GPT-4升级为GPT-4Turbo后的大模型质量,他们团队调用了API,效果比之前更好。让人推测背后的模型质量有了进一步的提升。只要OpenAI快一步,就甩远国内大模型一步。这也是让人集体焦虑的点。
OpenAI开发者大会已经把产品和商业化,以及大模型的根本能力,三者裹挟在一起,变成一个问题。
“技术”“产品”“商业化”对于大模型来说,都不是孤立存在的。“有大模型”:一个非常强的基础大模型。“用大模型”:有产品,做商业化。环环相扣,节节递进。
要我说,大模型从有到用就是一节接一节的“甘蔗”。甘蔗哪节不甜都不行。
大模型落地,AI Agent是落地杀手锏。当我们把GPTs和Assistants API都归到AI Agent类别里,那AI Agent战事已经开始。
从技术角度讲,甚至可以说,AI Agent规划和推理是“用好大模型”最关键的点。
炼全球领先基础大模型这件事对大部分参与者来说,门槛已经高不可攀,AI Agent是一个创业方向。AI Agent技术本质是以大模型作为其核心控制器,其他模块都可以大致理解为工具。
2023年6月27日,OpenAI应用研究主管LilianWeng撰写了一篇万字长文,非常看好Agent未来前景。她理解的AI Agent = LLM(大型语言模型)+记忆+规划+工具,加上各种模块,目的是完成特定任务。
这种方案技术含量高,但仍然属于基础AI Agent。
王金桥院长认为,成熟的“AI Agent 是这样:“AI Agent完成独立任务,有复杂场景的问题的适应能力和解决复杂问题的优势。”看来,解决“复杂”问题才是关键,也就是专家级的AI Agent,对任务规划和推理的能力多有很高的要求,这样某个工作效率才成百上千倍地提高。
大模型应用和AI Agent的关系如何?

武汉人工智能研究院副院长张家俊博士给了我一种分类方法:
将“应用”划分为大模型的直接和间接应用。一类主要用到大模型的内容生成能力,另一类是用大模型的认知、推理、协调和控制能力。
前者能看到妙鸭相机,后者就是AI Agent。这样能从逻辑上把大模型应用较好地区分开,便于讨论。
OpenAI下场做AI Agent,能做出超级版的吗?
现有两类论断,看上去谁也说服不了谁:
第一类,回顾历史,苹果当年也做了计算器,天气预报,手电筒,以及浏览器。然而,微信,抖音这种APP不是苹果做的。
第二类,最终做出最好任务规划和推理的能力的一定是大模型厂商,特别OpenAI,因为这才是核心能力。
Native LLM Agent(原生大模型Agent)还没问世,大家都有机会。
OpenAI是全球估值最高的科技公司,它也要新的增长点以支撑估值,也要商业化。
如何绕过OpenAI也是创业者思考的重点,甚至要和OpenAI比速度,比深度。
西丽湖论坛上,李彦宏说了这样一句话:“中国美国,最好的AI原生应用还没有出现,这恰恰是创业者千载难逢的机会。”我个人觉得,事情不仅仅是机会这么简单。
大模型重要,大模型生态更重要。
准AI Agent已经上台开始它的表演,AI Agent之路向前一步。
OneMore Thing
话说,苍蝇虽小也是肉。
上传GPTs的那些私有数据,对OpenAI训练模型有帮助吗?答案是,肯定有帮助。(好比给OpenAI的护城河里又加了几车水。)

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则