大模型下一场战事，为什么是AI Agent？

admin · 发表于 2024-5-14 11:50:55

（一）改变游戏规则
AI Agent会改变软件的游戏规则。
武汉人工智能研究院院长王金桥的观点是：
“美国Agent Store（智能体商店）发展得好，这会令中美大模型差距持续拉大。”
AI Agent很酷，而竞争残酷。OpenAI就差摆明讲了：“我全部都要。”（双手收拢握拳状）。
野心这么大，留给别人的不多了。一位老读者向我吐槽，OpenAI可以是“发电厂”，做发电的生意，把电器的生意留给别人。但它选择了既做电厂，又做电器。
在Open AI的API上面小打小闹来谋求发展的想法，趁早放下。
你看看，Open AI已经发布的每一个能力，基本上都有一个或者多个初创公司正在做，玩法略有区别。
毕竟，GPT技术领先，其商业化天然优势不会弱。
OpenAI开发者大会上，GPTs既奇思，又妙想。它带来一种很新的玩法，四两拨千斤。
用大模型“搞开发”这件事，打字就可以了。用人话来描述，机器人的身份、语言特征，再“上交”点资料给GPT。要么，加入你的生活，要么，加入你的工作，无论日程还是流程，想怎么加就怎么加。
假如你是一个HR，让GPTs计算同事们的绩效工资。当然，薪资可能保密，你得上传同事的绩效情况和工资数量，姑且叫做上传“保密工资文件夹”吧。
这里有个坑，文末再讲。
你建一个助理，我建一个助理。自建自足之后，把“助理”分享给他人。
人多，势就众。分享，商店，分钱，一键三连，OpenAI直接闭环。
上次被盛赞为“苹果商店”的功能是OpenAI的Plugin。这次是GPTs。有了市场，背后是生态。
难怪王金桥院长很肯定GPTs创新价值。他说：“GPTs关键在于，不止设计了产品，而是设计了生态。”
优点一：办得简单。
最简单的玩法，最轻量化的设计。一堆用户毫不费力就被撬动。用的人越多，GPT商业价值越大。
优点二：办得漂亮。
GPTs打开了想象力的阀门。门槛已经降得这么低了，你要连一个“主意”都没有，还真说不过去。
好点子等同于好产品，执行力由GPTs接手。有人还在写商业计划书，有人用GPTs做完了。
夸完了，思考一下：GPTs到底算不算是AI Agent？
Andrej Karpathy曾说，自动驾驶和VR都是糟糕的AI Agents。可见，AI Agent所指的范围有多大。
有关AI Agent的严格定义，还没有。
比尔·盖茨倒是说：“这种类型的软件可以响应自然语言，并且可以根据对用户的了解来完成许多不同的任务。”
要我说，能自动化地完成任务，甭管大小，用了大模型的能力，都算AI Agent。那就是说，GPTs是一个AI Agent级别的产品，虽然仅是早期阶段。
虽然对于推动大模型广泛使用有所帮助，但是你依然可以批驳：GPTs不就是个提示词（Prompt）模版分享款么。还到不了苹果商店的级别。
甚至还有声音说，GPTs不算AI Agent。我看到，有的外媒管GPTs叫“准AI Agent”。有的外媒则说，《OpenAI迈着婴儿般的步伐走向AI Agent（‘baby step’ toward AI Agents）》。
奥特曼认为GPTs属于AI Agent。他委婉地承认了早期性，用了一个词“Precursors”，中文意思为“初期形态”。
他的原话是：“Over time, GPTs and assistance areprecursors to agents that will be able to perform more complex actions on yourbehalf.”
（GPTs和助手作为Agent的初期形态，将能做越来越多的事情。）
久而久之（Over time）是仍需“不断改进”的另一种说法。换言之，被称作AI Agent还差点意思。
想找到“宝藏级”的玩法，OpenAI仅仅依靠一个僵硬的对话界面显然是不够的，API很好，GPTs也好。
谭老师我个人很喜欢GPTs，人们一定会“心热”一阵子这个产品，用户使用时长也会创造出一个新的增长点。
这让我又想起了乔布斯说的那句话：“人们不知道他们想要什么，直到你向他们展示它。”
GPTs不是绝招，而是妙招。
说到底，不是没有想到。有位开发者和我说：“GPTs我玩了两天，感觉也就这样了。”“OpenAI的这些应用中的巧思妙想，国内并不是想不到。GPT-4这个大模型内部蕴含的能力太过于强大。只要想得妙，挺容易引爆。”

（二）落地杀手锏
国内大模型厂商会不会做AI Agent？
答案是肯定的。
对于美国的OpenAI，大模型技术既是产品。中国大模型厂商要面临的现实很残酷：没有足够高质量的生态给大模型厂商付费。
这样，大模型厂商要么下场做AI Agent，要么做软硬件的解决方案。比如，私域微调，比如，大模型一体机。国内大模型厂商被迫扩张来实现价值闭环，必然会在Agent Level（级别）打造产品，最后的杀手产品一定是AI Agent。
我和一位国内大模型生产品态开发团队负责人聊了聊。
我评价他们团队是大模型生态团队里技术水平比较好的，能做微调，有一定的基础设施建设能力。
负责人向谭老师流露出的焦虑，让我有些许吃惊，他说：“现在包括我在内有很多人，都到了迷茫阶段，不知道下一步该干嘛。你做了很多事，结果，巨头稍微动动小指头，对你来说，均是降维打击。”
大模型生态社区确实有焦虑，迷茫和不爽OpenAI的集体情绪。
谈到GPT-4升级为GPT-4Turbo后的大模型质量，他们团队调用了API，效果比之前更好。让人推测背后的模型质量有了进一步的提升。只要OpenAI快一步，就甩远国内大模型一步。这也是让人集体焦虑的点。
OpenAI开发者大会已经把产品和商业化，以及大模型的根本能力，三者裹挟在一起，变成一个问题。
“技术”“产品”“商业化”对于大模型来说，都不是孤立存在的。“有大模型”：一个非常强的基础大模型。“用大模型”：有产品，做商业化。环环相扣，节节递进。
要我说，大模型从有到用就是一节接一节的“甘蔗”。甘蔗哪节不甜都不行。
大模型落地，AI Agent是落地杀手锏。当我们把GPTs和Assistants API都归到AI Agent类别里，那AI Agent战事已经开始。
从技术角度讲，甚至可以说，AI Agent规划和推理是“用好大模型”最关键的点。
炼全球领先基础大模型这件事对大部分参与者来说，门槛已经高不可攀，AI Agent是一个创业方向。AI Agent技术本质是以大模型作为其核心控制器，其他模块都可以大致理解为工具。
2023年6月27日，OpenAI应用研究主管LilianWeng撰写了一篇万字长文，非常看好Agent未来前景。她理解的AI Agent = LLM（大型语言模型）+记忆+规划+工具，加上各种模块，目的是完成特定任务。
这种方案技术含量高，但仍然属于基础AI Agent。
王金桥院长认为，成熟的“AI Agent 是这样：“AI Agent完成独立任务，有复杂场景的问题的适应能力和解决复杂问题的优势。”看来，解决“复杂”问题才是关键，也就是专家级的AI Agent，对任务规划和推理的能力多有很高的要求，这样某个工作效率才成百上千倍地提高。
大模型应用和AI Agent的关系如何？
武汉人工智能研究院副院长张家俊博士给了我一种分类方法：
将“应用”划分为大模型的直接和间接应用。一类主要用到大模型的内容生成能力，另一类是用大模型的认知、推理、协调和控制能力。
前者能看到妙鸭相机，后者就是AI Agent。这样能从逻辑上把大模型应用较好地区分开，便于讨论。
OpenAI下场做AI Agent，能做出超级版的吗？
现有两类论断，看上去谁也说服不了谁：
第一类，回顾历史，苹果当年也做了计算器，天气预报，手电筒，以及浏览器。然而，微信，抖音这种APP不是苹果做的。
第二类，最终做出最好任务规划和推理的能力的一定是大模型厂商，特别OpenAI，因为这才是核心能力。
Native LLM Agent（原生大模型Agent）还没问世，大家都有机会。
OpenAI是全球估值最高的科技公司，它也要新的增长点以支撑估值，也要商业化。
如何绕过OpenAI也是创业者思考的重点，甚至要和OpenAI比速度，比深度。
西丽湖论坛上，李彦宏说了这样一句话：“中国美国，最好的AI原生应用还没有出现，这恰恰是创业者千载难逢的机会。”我个人觉得，事情不仅仅是机会这么简单。
大模型重要，大模型生态更重要。
准AI Agent已经上台开始它的表演，AI Agent之路向前一步。
OneMore Thing
话说，苍蝇虽小也是肉。
上传GPTs的那些私有数据，对OpenAI训练模型有帮助吗？答案是，肯定有帮助。（好比给OpenAI的护城河里又加了几车水。）