知乎上看到这个问题。GPT-4o生图火了以后,一会儿有人说PS被取代,一会儿有人说ComfyUI被取代。
这种言论其实跟Manus淘汰Coze是一个意思。
大模型随着能力增强,一定会内化workflow的能力,内化prompt的效果,这是明眼人都能看得出来的事情。
workflow的核心在哪?
workflow的核心就在于编织确定性。
什么节点、插件,都不是核心的东西,当大模型代码的能力足够强,它自己就能够开发出那些东西来。
workflow在大模型面前,提供的就是确定性。
大模型的输出的其实是什么?
是概率。
当你让大模型画一片天空,哪怕你想要的就是一片晴天的蓝天,但大模型的输出结果不一定是100%蓝天。
因为晚上天是黑的,傍晚天是红的,下雨天是灰的,这些可能性固有存在。所以你顶多抽卡得到蓝天次数最多,不能保证100%。
复杂的任务更是这样,各种可能性交织在一起,你根本没法确保大模型对同一任务处理的结果就是100%。
而很多时候,不能确定的事情,就没法用于生产环境。
我跟同事说,做表格的时候,能用公式的,尽量不要用AI字段做,就是这个道理。
甚至更节省能源,更环保。
workflow也是这个道理。
通过workflow,可以规划好,先做这个,再做那个,先加载checkpoint,后加载lora,它就能确保没有错。
比如说,你要做面部重绘,那你的工作流一定是先把脸抠出来,再进行重绘,哪怕你是一个节点把这两个功能包了,它也是先把脸抠出来再重绘。这样才是面部重绘,对吧?不然你不就重绘全图了吗?
巧了,GPT-4o就是全图重绘。
我发给过GPT-4o这样一张图片,从百度搜到的:

我让它把这个女孩的纹身去掉,它发回来这样一张图。

纹身确实是去掉了。
但不是「这个女孩」。
仔细看两张图对比,重绘的真的非常非常像。
但不光女孩的人换了。
桌上的包变成帽子,手里的多边形玻璃杯变成了圆杯,脚上的鞋也换了,手的姿势和坐姿也变了,窗帘的纹理也变了……
整张图完全是另一张图。
确定性在哪里?
如果这个女孩是我的客户,她就是付费让我帮她去掉纹身,那她拿到这种图会买单吗?
再举个例子。
小罗伯特·唐尼官宣出演毁灭博士的时候戴了个面具,
这是他和面具的合影:

我现在想去掉这个面具,用ComfyUI工作流做:
抠出mask,然后,去掉了。

面具去掉了,其他东西都没有变。
现在换成4o来做:


变得细节更丰富了,更有质感了,甚至人都年轻了,好棒棒。
但你仔细看,眼睛颜色变了,手放下去了,袍子变成了卫衣,脖子上这玩意儿像个听诊器。
这个图,依旧能看出来是小罗伯特唐尼,你拿去发Twitter发朋友圈都没有问题,但唯独不能正经用。穿个卫衣,你说他是钢铁侠都行,但不能说他是毁灭博士。
所以,workflow带来的是什么?是让你能够指哪打哪。
要改A就改A,不要给我乱动B、C、D,哪怕只是概率,也不行。
再回到Manus和Coze,也是一样。
辛辛苦苦搭的工作流,AI能自己自动完成了。有没有?有。
但Manus不出错吗?当然不是,出错的案例比比皆是。
只要AI自己还独立完成不了足够复杂的任务,就需要人为给它设计workflow,先怎么样,再怎么样,提高它的任务准确率。
当然,不可以否认的是,大模型真的在内化很多能力。
比如说prompt。
最早ChatGPT刚出来的时候,给模型定义一个角色,你是XXX领域的专家,通常很有效。
有没有角色定义,结果差异很大。
使用结构化的提示词,效果就很好。
所以当时大家都认为提示词很重要,是一门学问,将来Prompt Engineer会成为一个普遍的社会岗位。
但后来就不一样了,很多模型哪怕没有角色定义,效果也不错。为什么呢?因为大模型厂家也不傻,发现这个prompt效果拔群,我直接训练进模型里面让它自己判断应该作为什么角色好不就好了?
再后来更是有了推理模型。
当DeepSeek-R1爆火的时候,大家发现,我原来不用跟大模型说那么一大堆复杂的结构化提示词,它也能给我不错效果的回答。我不用成为Prompt Engineer,好像也能愉快使用AI。
当然prompt依旧重要,好的prompt效果依旧跟随口问两句的prompt在效果上有很大的差异。但至少,简单的任务,真的不再需要有专门的提示词工程师写prompt了。AI能够自己进行思考,理解用户的意图,并做出最合适的回答。
Prompt Engineer也不会消失,但由于简单的任务不再需要,所以门槛一定更高了,需要的能力也更高了,也不再会那么普遍。
再重复一遍,大模型正在内化很多现在以外挂的形式挂在它身上的能力。
因为科技在进步,而不是退步。
AI最终将通往AGI,这也是大家都知道的目标。
那个需要workflow来消弭的不确定性会变得越来越小,这是一个毫无疑问的推论。
大模型本身的能力在成长,挤压的就是这一部分空间。
4o现在不支持局部重绘,可能很快就会支持。
AI去年还不能生成中文,现在生成的不也挺好的么。
但你要说淘汰掉workflow,那还为时过早。
如果以AGI为100%,那没达到AGI,自然就不是100%。
也就还是需要手搓的workflow的存在。
学肯定不白学,一个很重要的事情就是不要搞非此即彼,淘汰了什么远远没有接收并结合了什么新事物更重要。