小刘BOT

如何看待 GPT-4o 出现后,ComfyUI 等一众工作流软件会被淘汰的言论?

知乎上看到这个问题。GPT-4o生图火了以后,一会儿有人说PS被取代,一会儿有人说ComfyUI被取代。

这种言论其实跟Manus淘汰Coze是一个意思。

大模型随着能力增强,一定会内化workflow的能力,内化prompt的效果,这是明眼人都能看得出来的事情。

workflow的核心在哪?

workflow的核心就在于编织确定性。

什么节点、插件,都不是核心的东西,当大模型代码的能力足够强,它自己就能够开发出那些东西来。

workflow在大模型面前,提供的就是确定性。

大模型的输出的其实是什么?

是概率。

当你让大模型画一片天空,哪怕你想要的就是一片晴天的蓝天,但大模型的输出结果不一定是100%蓝天。

因为晚上天是黑的,傍晚天是红的,下雨天是灰的,这些可能性固有存在。所以你顶多抽卡得到蓝天次数最多,不能保证100%。

复杂的任务更是这样,各种可能性交织在一起,你根本没法确保大模型对同一任务处理的结果就是100%。

而很多时候,不能确定的事情,就没法用于生产环境。

我跟同事说,做表格的时候,能用公式的,尽量不要用AI字段做,就是这个道理。

甚至更节省能源,更环保。

workflow也是这个道理。

通过workflow,可以规划好,先做这个,再做那个,先加载checkpoint,后加载lora,它就能确保没有错。

比如说,你要做面部重绘,那你的工作流一定是先把脸抠出来,再进行重绘,哪怕你是一个节点把这两个功能包了,它也是先把脸抠出来再重绘。这样才是面部重绘,对吧?不然你不就重绘全图了吗?

巧了,GPT-4o就是全图重绘。

我发给过GPT-4o这样一张图片,从百度搜到的:

我让它把这个女孩的纹身去掉,它发回来这样一张图。

纹身确实是去掉了。

但不是「这个女孩」。

仔细看两张图对比,重绘的真的非常非常像。

但不光女孩的人换了。

桌上的包变成帽子,手里的多边形玻璃杯变成了圆杯,脚上的鞋也换了,手的姿势和坐姿也变了,窗帘的纹理也变了……

整张图完全是另一张图。

确定性在哪里?

如果这个女孩是我的客户,她就是付费让我帮她去掉纹身,那她拿到这种图会买单吗?

再举个例子。

小罗伯特·唐尼官宣出演毁灭博士的时候戴了个面具,

这是他和面具的合影:

我现在想去掉这个面具,用ComfyUI工作流做:

抠出mask,然后,去掉了。

面具去掉了,其他东西都没有变。

现在换成4o来做:

变得细节更丰富了,更有质感了,甚至人都年轻了,好棒棒。

但你仔细看,眼睛颜色变了,手放下去了,袍子变成了卫衣,脖子上这玩意儿像个听诊器。

这个图,依旧能看出来是小罗伯特唐尼,你拿去发Twitter发朋友圈都没有问题,但唯独不能正经用。穿个卫衣,你说他是钢铁侠都行,但不能说他是毁灭博士。

所以,workflow带来的是什么?是让你能够指哪打哪。

要改A就改A,不要给我乱动B、C、D,哪怕只是概率,也不行。

再回到Manus和Coze,也是一样。

辛辛苦苦搭的工作流,AI能自己自动完成了。有没有?有。

但Manus不出错吗?当然不是,出错的案例比比皆是。

只要AI自己还独立完成不了足够复杂的任务,就需要人为给它设计workflow,先怎么样,再怎么样,提高它的任务准确率。

当然,不可以否认的是,大模型真的在内化很多能力。

比如说prompt。

最早ChatGPT刚出来的时候,给模型定义一个角色,你是XXX领域的专家,通常很有效。

有没有角色定义,结果差异很大。

使用结构化的提示词,效果就很好。

所以当时大家都认为提示词很重要,是一门学问,将来Prompt Engineer会成为一个普遍的社会岗位。

但后来就不一样了,很多模型哪怕没有角色定义,效果也不错。为什么呢?因为大模型厂家也不傻,发现这个prompt效果拔群,我直接训练进模型里面让它自己判断应该作为什么角色好不就好了?

再后来更是有了推理模型。

当DeepSeek-R1爆火的时候,大家发现,我原来不用跟大模型说那么一大堆复杂的结构化提示词,它也能给我不错效果的回答。我不用成为Prompt Engineer,好像也能愉快使用AI。

当然prompt依旧重要,好的prompt效果依旧跟随口问两句的prompt在效果上有很大的差异。但至少,简单的任务,真的不再需要有专门的提示词工程师写prompt了。AI能够自己进行思考,理解用户的意图,并做出最合适的回答。

Prompt Engineer也不会消失,但由于简单的任务不再需要,所以门槛一定更高了,需要的能力也更高了,也不再会那么普遍。

再重复一遍,大模型正在内化很多现在以外挂的形式挂在它身上的能力。

因为科技在进步,而不是退步。

AI最终将通往AGI,这也是大家都知道的目标。

那个需要workflow来消弭的不确定性会变得越来越小,这是一个毫无疑问的推论。

大模型本身的能力在成长,挤压的就是这一部分空间。

4o现在不支持局部重绘,可能很快就会支持。

AI去年还不能生成中文,现在生成的不也挺好的么。

但你要说淘汰掉workflow,那还为时过早。

如果以AGI为100%,那没达到AGI,自然就不是100%。

也就还是需要手搓的workflow的存在。

学肯定不白学,一个很重要的事情就是不要搞非此即彼,淘汰了什么远远没有接收并结合了什么新事物更重要。