分类：文章

长期文章、教程和个人写作。

一个自动批量化AI生成各种用途提示词的飞书多维表格模板
让AI自己写Prompt提示自己，帮你解决懒得写/不会写提示词的问题，成为打工人上人！

支持生成文生文提示词、文生图提示词、图生（反推）图提示词、文生视频提示词、图生视频提示词。

使用方法：

文生文：在「任务」字段中填写需要执行的任务，「输出」字段自动生成结构化提示词。

文生图：在「任务」字段中填写需要执行的任务，「输出1」中会输出关键词-权重样式的提示词（全英文），「输出2」中会输出自然语言样式的提示词，「英文输出2」则为「输出2」的英文翻译。

图反推：用户可使用批量上传附件功能批量上传图片，「输出」字段的输出结果为模仿这张图片的生图提示词，「英文输出」则为「输出」的英文翻译。

文生视频：在「任务」字段中填写需要执行的任务，「输出」字段自动生成文生视频提示词，「英文输出」则为「输出」的英文翻译。

图生视频：用户可使用批量上传附件功能批量上传图片，图片上传后自动进行图片描述解析。然后在「任务」字段中填写需要执行的任务，「输出」字段自动生成图生视频提示词，「英文输出」则为「输出」的英文翻译。

视频反推：用户可使用批量上传附件功能批量上传视频，「输出」字段自动生成文生视频提示词（也可截取原视频关键帧进行图生），「英文输出」则为「输出」的英文翻译。本功能基于阶跃星辰的视频理解字段捷径，识别结果可能存在误差，建议使用单一镜头且体积较小的视频，以提高准确率。

图生视频效果展示：
```
A young woman, wearing a white short - sleeved T - shirt, blue ripped denim shorts, cat - ear hair accessories on her head and with long pink hair, has a brilliant smile on her face and looks happy. She is in an indoor place, which may be an airport or a large - scale transportation hub. There are blurry signboards and the ceiling in the background. At the beginning of the video, the girl suddenly stops from a happily running posture, gently puts down her right foot, lets her arms hang down naturally, and looks directly at the camera. The shot is taken in medium - shot, stably capturing her smooth transition from movement to stillness and the change in her expression. The whole scene is full of a relaxed, happy and energetic atmosphere, with a realistic style, sufficient light, and bright and vivid colors.
```
也没啥好多说的，直接放链接：

https://ilovezhiwai.feishu.cn/wiki/Bv1ZwJ5tcimQkYkU4OPcUczNnQG?table=ldxmb17UU0j3gXoV

更详细说明可查看模板内的说明文档。

关于外部API的调用，之前文章有写过，可查看：一些飞书多维表格的AI使用经验分享
2025年3月16日
自己肝了一个AI写PPT的小工具，它比AI自动套模板更适合白领职场人

坦白说，我对市面上大多数AI PPT产品不太满意。

它们常常会主打「一句话」「30秒」「一键生成」PPT。

我也常常会感觉，做AI PPT的产品老师们是不是平时不怎么写PPT。

PPT是讲逻辑的，大语言模型也是讲逻辑的，

但PPT加上大语言模型，却变成了自动套PPT模板。

总觉得哪里不对劲……

我不否认现在市面上的AI PPT产品在一些典型的场景、群体或者单位内，

是能够带来巨大的效率提升的。

但对我来说——不知道你怎么看——

我会觉得它们很「鸡肋」,

有用肯定是有用的，但用处似乎也不多。

所以，我觉得或许可以自己做一个更加适合我们「职场人」的AI PPT。

我们的PPT往往带有更明确的「证明」或者「说服」的目的，

我们相比父辈，已经掌握了扎实的计算机操作基础。

相比于让AI给我们套PPT模板，我们更希望能充分利用它的知识和逻辑能力。

于是，我基于飞书多维表格，做了个有点不一样的AI PPT工作流。

它不能帮我直接套PPT模板，

但一定程度上可以辅助我进行思考和梳理PPT逻辑。

链接直接放在这里：

https://ilovezhiwai.feishu.cn/wiki/OJq3w7mFRiJjRnkBC5bcWOt3ngd?table=ldx1qY5akWfjHpKO

下面我以一个实际的PPT产出案例来介绍这个模板的功能。

这是我按它的建议，做的5页PPT：

1.准备构思车间

当领导安排我写一份PPT，我总是下意识会反问：给谁讲？干啥用？有什么需要注意的？

了解清楚后，我才开始准备资料，以领导的使用目的为目标，开写。

人类给AI安排工作，我觉得也一样。

于是，在这一步，我们首先填写要写的PPT的主题，写这份PPT的目的，以及需要注意什么。

这里我的案例是，写一份「AI眼镜行业调研」的PPT。

目的是「说服我的老板投1000万开发一款像Rayban-Meta2一样的AI拍摄眼镜」。

需要注意的是，「我只准备做国内市场」。

这时候，如果我自己去做准备资料这个动作，我一般就会开始一边搜索一边思考。

而有了AI的介入，我可以让它提前告诉我可以去找什么。

DeepSeek-R1告诉我可以去找行业基础数据、用户画像和需求、国内外的竞品分析、产品用到的核心技术、供应链的成本、相关的法规和政策、盈利模式等等等等。

同步得，我还根据R1给的搜索建议生成了一个Prompt：

这个Prompt带有Workflow的设计，在一些相对古早的指令性AI工具中也能有比较稳定的效果。

当然我更建议使用一些新的功能，比如现在很火的Deep Reaserch。

比如我把这个搜索Prompt发给Grok3:

(PS：这里我皮了一下，把Prompt改成面向全球市场不仅是中国了，后面带来了一些问题，下面说。）

还有一个不错的工具是Flowith：

（flowith.io邀请码M8MUPM）

2.信息整理沙盘

上一个环节中我们会搜集到很多资料，不光有AI整理的报告，也有我们自己找到的一些信息。

我自己在完成这项工作的时候，会整理到很多细碎的信息，可能是网页上某一段新闻，可能是某一份行业报告其中的一页，甚至电商详情页面，它们常常以图片的形式存在。

所以我设计了这样一个信息模态转换的环节。

把截图上传（可剪贴板粘贴或批量上传）到附件，AI会自动提取出其中的文字信息。

并且在前后添加了AI概括和分类，为提取出的大段内容贴上标签，便于后续查找。

值得一提的是，AI识图字段也是能够直接输入文本的哦。上一步Deep Reaserch到的文字报告，可以直接粘贴到「信息提取」这个字段，也会作为资料信息被整理。

记得选上PPT主题，这是一个关联字段，用于在后续的环节中调取你整理的这些参考资料。

3.PPT大纲生成

这个环节就到了很多线上一键生成AI PPT的产品的生成步骤了。

选上你的PPT主题，录入你这份PPT需要的页数，如果需要，还可以再填写「补充信息」，AI就会为你生成PPT大纲了。

（PS：参考资料会合并上一步全部的资料。）

如果要说这里跟一键生成AI PPT的区别：

其一是，参考资料会足够丰富，只有更详细的输入，才能带来更好的输出。充分的资料，会让你得到比简单的一句话更合适的答案。

其二是，你可以在补充信息处继续提出要求。例如请重点参考哪几份材料，提交某一份材料的目的是什么等等。这份模板的设计过程中，我认为我有一个核心思路之一就是「时时修正」。PPT是要讲逻辑的，好在AI也可以讲逻辑。当发现AI的逻辑有跑偏时，要保留这样一个窗口，能随时修正它。这种时候恰恰是最不适合「一键生成」的。

另外需要说明一下。

由于参考资料的输入量通常会很大，所以很容易超出多维表格默认的几个傻瓜式字段捷径的上下文限制。这里我使用了自定义AI的字段捷径，需要到API服务商处手动注册获取API。

（不使用DeepSeek模型的时候那个DeepSeek的必填项随便选即可，不会生效。）

这次演示中我使用了QwQ-32B模型（QwQ-32B针不戳），上下文窗口是128k。如果你的资料非常非常多的话，可以换成火山引擎的Doubao1.5-pro-256k模型。

接下来，我们要把AI输出的完整PPT大纲拆到每一页来进一步调整。

生成大纲的时候我有通过提示词进行约束，PPT不同页之间会使用四个%分隔，我们可以通过这个标记来进行分页拆分。

需要用到一个多维表格插件，叫做「文本拆分多列」。

操作如图：

然后页面就会拆分开来。

这里我提前预创建了25页，通常我的PPT也不会超过这个页码。

如果你需要更多，可以手动再加一下。

4.PPT分页优化

上一步增加页数后，需要同步增加的还有这个极其不优雅的工作流：

一时没想到怎么样更优雅地实现字段——记录转换，但总之是自动把上一步的分页写到这一步的每条记录中了。

到这一步，我们需要优先做的操作就是看。

检查AI生成的大纲有什么问题，如果有问题，就通过提调整要求，把它拉回正轨。

还记得上面皮的那一下吗？把面向中国市场的调研Prompt重写成了全球市场。到这一步，就让大纲受到了干扰，国内市场的体现严重不足。

所以，我在这里对多个页面进行了针对中国市场的调整。

（如果你有新的补充资料也可以在调整要求里添加，当然也可以回到上面加进信息整理沙盘，然后在这里提示一下。）

然后，「大纲（优化后）」就是AI按照调整要求调整后的新大纲。

接下来，就会由DeepSeek-R1结合你的PPT需求和大纲，设计每一页的PPT页面。

它会提供一个「手绘版」的PPT排版Demo和内容Demo，类似这样：

你可以直接选中所有的输出结果，复制，然后以纯文本形式粘贴到飞书文档，就可以得到一份PPT设计指导。

以及，还有最后一项，我让AI生成了每一页PPT演示时候的逐字稿。同样可以全选复制到一份飞书文档中，类似这样：

5.PPT设计输出

这页并没有新的东西，只是对前面的结果信息进行了汇总，看起来更加方便。

参考DeepSeek输出的PPT设计方案，就可以开始制作PPT了。

我按照它给的建议做了前5页作为示意，虽不见得多好，但它能传递出的信息量，我认为相比一键生成的PPT，要可用多了。

逐字稿：各位领导好，在这一页，我们来了解一下AI眼镜行业的概况。从市场规模预测的数据来看，AI眼镜行业前景十分广阔。2024年全球AI眼镜市场规模为8.79亿美元，这一数据来源于权威的Markets and Markets报告。而到2030年，全球市场规模预计将达到41.29亿美元，年复合增长率为29.4%。这意味着在未来几年，全球AI眼镜市场将持续快速增长。

从区域分布来看，北美和亚太地区是两个重要的增长区域。北美地区因为Meta等企业的推动，增长十分显著。Meta生态的驱动，为北美市场的发展注入了强大动力。而亚太地区则是由于制造业需求的增长带动了行业发展，尤其是中国市场发展迅速。

重点来看中国市场，预计2024年中国AI智能拍摄眼镜市场规模将达到2.6亿元，到2028年，这个数字将飙升至147.6亿元，年复合增长率高达174.5%。这充分显示了中国市场的巨大潜力。同时，预计2025年全球AI智能眼镜出货量将达到375万台，这里不包含AR眼镜。而中国市场出货量预计达35.7万台，同比增长约113% 。这表明中国市场不仅规模增长迅速，在出货量上也呈现出强劲的增长态势。

通过这些数据，我们可以清晰地看到AI眼镜行业，尤其是中国市场的巨大发展空间。投资1000万开发像rayban – meta一样的AI拍摄眼镜，有望在这个快速增长的市场中占据一席之地，收获丰厚的回报。

逐字稿：在这一页，我们来深入分析AI拍摄眼镜领域的主要竞争格局。主要从国际头部玩家Ray – Ban Meta，以及中国竞品矩阵两大方面展开。

先看国际标杆Ray – Ban Meta。2024年，其销量超100万台，定价299美元，这样的成绩使其成为行业内具有重要影响力的产品。从用户评价来看，它存在着优势与痛点。优势方面，超轻框架设计带来了舒适性的提升，立体声场技术让音频质量表现出色。然而，它也有一些不足，平均3小时的续航能力，难以满足用户长时间使用需求，并且数据加密方面的争议，让用户对隐私保护存在担忧。

再把目光转向中国竞品矩阵。这里面涵盖了科技巨头、新兴公司和传统厂商三种类型。

科技巨头们纷纷布局AI眼镜领域，像阿里巴巴、华为、小米等。它们凭借在技术、品牌以及生态等多方面的强大优势，积极开展技术研发与产品布局，在市场竞争中占据有利地位。例如，阿里巴巴可进行生态整合，华为推出5G + AI芯片方案，小米走性价比路线，各自发挥自身特色。

新兴公司同样表现亮眼，像灵伴科技（Rokid）、雷鸟创新、闪极等。它们专注于研发创新，在细分领域推出特色功能产品。比如，Rokid实现了AR交互突破，雷鸟在MicroLED显示上有所建树，闪极提供超长续航方案，展现出强大的创新活力。

传统眼镜厂商也在积极转型，例如博士眼镜和雅视光学。它们借助自身在眼镜制造和销售渠道的优势，与科技企业合作推出AI眼镜产品。博士眼镜依靠渠道优势，雅视光学凭借镜片技术，试图在新的市场机遇中实现转型发展。

总体而言，国际头部玩家Ray – Ban Meta在市场上已取得一定成绩，但也存在一些有待改进的地方。而中国的竞品矩阵，各类型厂商凭借自身不同的优势，积极参与市场竞争，整个行业呈现出蓬勃发展的态势。数据来源：公开市场调研，2024Q2。

逐字稿：这一页主要聚焦AI拍摄眼镜的用户画像与需求痛点。先来看目标群体。欧美地区的目标群体，集中在北美和欧洲都市，年龄在25到45岁之间，多为白领以及技术爱好者。这部分人群热衷于追求科技潮流，对新技术接受度极高，他们日常的工作和生活场景丰富多样，对智能设备的需求自然也比较高，他们就像是科技领域的先驱者，工作中高频的移动办公场景，让他们对智能设备的依赖程度不断增加，同时，他们注重设备所展现出的科技感，并且愿意为创新功能支付更高的价格。

再看中国市场。同样，25到45岁人群是重要的目标群体，涵盖了一线城市的职场人士、科技爱好者以及年轻创业者等。中国市场用户基数庞大，随着科技的不断普及以及消费的升级，对AI拍摄眼镜的需求正逐步增长。不过，中国消费者更注重产品的性价比，对本地化功能有较高的期待，渴望产品能整合本地生活服务、社交娱乐等特色功能，精明消费，追求高性价比是他们的消费标签，在社交娱乐驱动下，对本地化服务整合有着迫切的要求，而且相较于欧美地区，对价格的敏感度要高出23%。

接下来是核心需求。在全球范围内，有大约60%的用户都提到，电池续航是关键需求。对于经常在户外活动，或者处于移动办公状态的用户而言，长时间的续航能力极为重要，这能确保设备在一天的使用过程中，无需频繁充电。想象一下，如果在户外拍摄或者商务出差途中，设备电量频繁告急，那将带来极大的不便。

隐私保护方面，约40%的用户表达了担忧。随着智能设备收集的数据量日益增多，用户对于自身数据如何被使用、存储以及保护，关注度越来越高。特别是在当前数据隐私法规愈发严格的大环境下，像欧美地区有GDPR合规要求，而中国用户则更偏好数据本地存储，以此来保障自身数据的安全性。

最后是价格敏感。用户普遍对价格较为在意，都期望能在合理的价格范围内，获得高性能的产品。欧美市场消费者购买力相对较高，但依旧看重性价比；而中国市场竞争激烈，消费者对价格更为谨慎，价格因素在购买决策中占据重要地位。具体来看，欧美市场消费者能接受的价格区间在299 – 499美元，中国市场的黄金价位段则在1500 – 2500元人民币。并且，中国用户还希望产品在价格合理的基础上，能提供更多符合本土需求的功能与服务。综合这些用户画像与需求痛点来看，开发一款像Rayban – meta一样的AI拍摄眼镜，满足不同地区用户的差异化需求，具有极大的市场潜力，值得我们投入资源进行开发。

逐字稿：在全球范围内，社交媒体如TikTok上AI眼镜相关UGC，也就是用户生成内容的使用率约30%，而KOL，即关键意见领袖合作的ROI，也就是投资回报率可达1:5 ，这充分显示出社交媒体在AI眼镜推广方面的强大传播潜力。而在中国市场，社交媒体生态更为丰富多样，各平台也有着独特的用户群体和传播特点，为我们这款AI拍摄眼镜的推广提供了广阔空间。接下来，我们详细看看针对中国本土的社交传播与推广策略。

首先，深化社交媒体内容营销。微信生态中，我们可以利用公众号发布深度产品评测、使用教程、创意内容等，吸引用户关注并分享。比如撰写有趣、实用的AI拍摄眼镜创意教程，让用户能够通过我们的内容，更好地发掘产品的功能和乐趣。同时结合小程序开发互动游戏、产品定制等功能，增强用户参与度。例如开发一个AI眼镜创意拍摄互动游戏，让用户在游戏中体验产品的拍摄功能。另外，借助视频号发布高质量的产品展示视频，利用其社交推荐机制扩大曝光。

微博平台上，我们发起热门话题讨论，像#AI拍摄眼镜新体验#，吸引用户分享自己的使用感受和创意拍摄作品。与科技、时尚等领域大V合作，发布产品相关微博并进行抽奖互动，提高产品话题度和品牌知名度。例如与科技领域大V合作，让他们分享对产品的技术评测，同时开展转发抽奖活动，吸引更多用户关注。

抖音则鼓励用户创作与AI拍摄眼镜相关的创意短视频，发起挑战活动，如“AI眼镜创意拍摄挑战”，设置丰厚奖励，激发用户参与热情。与抖音上的头部KOL合作，制作具有话题性的视频内容，利用平台算法推荐，实现快速传播。比如和抖音头部KOL一起拍摄有趣、新颖的创意短视频，展示产品在不同场景下的使用效果。

其次，联合KOL进行场景化展示。科技类KOL方面，与科技评测类KOL合作，进行产品深度评测，展示AI拍摄眼镜在技术层面的优势，如摄像头性能、AI功能实现等。通过专业的解读和对比，增强消费者对产品技术实力的认可。比如让科技评测KOL拆解产品，详细讲解内部构造和技术原理，展示产品的技术优势。

时尚类KOL，结合时尚类KOL，将AI拍摄眼镜融入时尚穿搭场景，突出产品的时尚外观设计，吸引追求潮流的年轻消费者。展示其作为时尚配饰在不同场合的搭配效果，提升产品的时尚属性。比如让时尚类KOL展示在街拍、时装秀等场景下，AI拍摄眼镜与不同时尚穿搭的搭配，展现产品的时尚感。

生活方式类KOL，与生活方式类KOL合作，展示AI拍摄眼镜在日常生活场景中的应用，如旅行、运动、聚会等。通过真实的生活场景演绎，让消费者更直观地感受到产品为生活带来的便利和乐趣。例如生活方式类KOL在旅行过程中，使用AI拍摄眼镜记录美好瞬间，展示产品在旅行场景中的实用性。

再者，结合中国本土特色应用场景推广。本地生活服务方面，与美团、大众点评等本地生活服务平台合作，推出与线下商家的联合推广活动。例如，消费者在指定商家使用AI拍摄眼镜拍摄并分享消费体验，可获得商家优惠券或积分奖励，同时提升产品曝光度和用户粘性。

社交娱乐方面，结合中国流行的社交娱乐应用，如腾讯视频、爱奇艺等视频平台，开展内容合作。例如，赞助热门综艺节目或网剧，将AI拍摄眼镜巧妙植入剧情，展示其使用场景，吸引大量观众关注。

最后，构建品牌私域流量。通过社交媒体平台引导用户加入品牌官方社群，如微信社群、QQ群等。在社群内定期举办产品试用活动、用户交流分享会等，增强用户与品牌之间的互动和粘性。同时，收集用户反馈，及时优化产品和服务，形成良好的口碑传播。例如在社群内举办新品试用活动，邀请用户分享使用感受，根据用户反馈优化产品。

通过以上针对中国本土市场的社交传播与推广策略，借助国内丰富的社交媒体资源和独特的应用场景，我们有望快速提升AI拍摄眼镜的品牌知名度和市场占有率，为产品的成功推广奠定坚实基础。

逐字稿：接下来为大家介绍的是这款AI拍摄眼镜的技术组件与成本分析。

先来看关键组件成本结构，这款AI拍摄眼镜的关键组件包含摄像头、显示屏、扬声器、麦克风、电池、处理器、连接模块以及其他如外壳等部件。摄像头成本在10 – 20美元，它能满足拍摄等基础功能；显示屏因类型不同，成本在20 – 50美元；扬声器5 – 10美元，用于提供音频输出；麦克风2 – 5美元，负责声音采集；电池5 – 10美元，保障设备续航；处理器10 – 20美元，处理各项数据；连接模块5 – 10美元，实现设备连接功能；其他部件成本10 – 20美元。涵盖以上关键组件的总BOM成本在70 – 140美元。

再看AI开发成本，AI功能开发成本预计在5万 – 10万美元之间，具体会取决于功能复杂性，例如语音识别、图像处理等功能的开发难度，都是影响成本的因素。

在成本控制优势上，我们具备两大突出优势。一是规模效应，以100万台规模生产的话，单机成本约180美元，这其中包括了制造开销。而且随着生产规模进一步扩大，成本还有望持续降低。二是供应链整合，通过整合供应链，部分组件在国内已有成熟供应商，这使得我们在成本控制上占据了一定优势。

最后谈谈投资与成本关联，本次计划投入1000万资金，部分资金将用于技术开发与专利分析，以此来优化技术组件。在保证产品质量的前提下，有效控制成本，从而提升产品的性价比与市场竞争力，为产品在市场上的成功奠定坚实基础。

作为演示示例，前面信息筛选部分我做的其实不够充分，AI的Reaserch部分没有校对，图片只是从百度搜索结果随便截了几张。写到这一页我已经发现AI关于AI拍摄眼镜产品的认知有些不太对的地方了hhh，所以这个PPT我就不继续做下去了。（这也是现在Manus这类agent产品做研报的一个比较大的问题，容易被不可靠信源污染。）

但这套workflow下来让我满意的是，如此出来的成品PPT，内容的信息量远非一句话或一份简单文档生成的PPT可比的。

下面链接中，我放了两个直接使用网站的AI PPT产品，输入主体和文档资料生成的PPT作为对照组。可对比查看。

https://ilovezhiwai.feishu.cn/docx/FCledPAmGoLy8uxIpygcLcIMnqg

还有两个小工具：

1.图表转换工具箱

图表工具箱中的两个工具都是github上的开源项目，如果觉得好用可以去给它们点点Star：

https://github.com/markdown-it/markdown-it

https://github.com/excalidraw/mermaid-to-excalidraw

一个是Markdown转换工具，上面几页PPT的表格部分，其实都是用这个工具快速转换生成的。

例如说，这两个AI输出时整理好的Markdown表格：

只需要把它复制：

然后粘贴到工具内，就能够立刻输出表格。复制表格到PPT，就能够直接使用了。

另一个是Mermaid工具，可以快速转换流程图、坐标图和饼图。

Mermaid的兼容不是特别好，所以我只是附加了Mermaid图表的建议，而没有做进流程中。

2.AI生成生图提示词

这个其实是之前做的另一个模板了：

https://ilovezhiwai.feishu.cn/wiki/Bv1ZwJ5tcimQkYkU4OPcUczNnQG?table=ldxmb17UU0j3gXoV

这个模板支持生文、生图、生视频。

如果你观察得够仔细，应该能发现刚才发的几张PPT里面用了一些「照片」：

这些照片过往都需要上网搜寻，但这几张并不是，它们来自AI生图。

而且可以通过提示词约束他们的行为动作，甚至穿戴，AI生图真的比找图快多了。

以上。

虽然自动化程度不够高，比较散装，跟成型的产品没法比。

但个人觉得它还是能帮我解决一些我自己的实际问题的。

我希望在PPT这件事儿上，AI能够更多辅助我的思考和逻辑梳理，而不是帮我简单列个大纲再套个马马虎虎的模板。如果你也跟我是一样的需求，希望你能够喜欢我这个模板。

也希望将来能有更好用的开箱即用的AI PPT产品。

2025年3月13日
一些飞书多维表格的AI使用经验分享
1.多维表格AI上的核心优势在于批处理。

2.内置的AI字段捷径大多只能针对单一字段配置指令（特异化功能捷径除外，如总结），但有一个例外，叫做「自定义AI自动填充」。它的指令中可以引用多个字段，包括公式。甚至能够设置输出格式。

3.多数人对单一字段指令的字段捷径的错误理解：指令内容处选择被操作的对象字段，自定义要求处填写提示词。其实不然，指令内容选择的字段内填写的才是提示词，自定义要求处应该是提示词的特异化补充。举例，简历分析场景。使用字段作为提示词，可以配合公式，通过CONCATENATE()函数串联多个字段内容和手动录入的文本，通过FILTER()函数实现岗位JD跟随记录中的岗位名称变化，这样不同岗位简历的分析提示词就是不同的；如果把提示词写在自定义要求，每一个不同岗位的提示词都要重新手写。

4.有些AI字段捷径的指令内容只能选择文本，无法选择公式。可以通过工作流自动把公式写入一个新的文本字段，再使用文本字段作为指令内容。之后，为了美观也可以把公式字段隐藏掉。

5.有些AI字段捷径不支持设置输出格式，通过AI进行数值提取操作后输出的字段格式为文本，不能直接参与计算。不用急着添加辅助列进行格式转换，在计算公式中的文本字段后添加VALUE()函数即可。

6.如果要把AI提取出的人名转换成人员字段，进行消息推送，可以手动添加花名册辅助表，通过FILTER()公式把花名册中的人员字段拉取过来（其实就是查找引用）。如果要推送相关人员的上级，先在花名册中获取，再使用公式或查找引用拉过来即可。

7.实测智谱字段捷径的输入token上限比其他捷径更高，使用其他AI字段捷径报错提示词过长时可以使用智谱AI的捷径，名字有点冷门，叫「AI内容生成」。而且支持多种模态。

8.一些常用的可进行附件操作的字段捷径：

（批量上传附件在插件中）

图片识别：AI图片理解（豆包）、AI图片理解（阶跃）、AI内容生成（智谱）、智能巡检（零一），其中阶跃对模糊图片的效果更好，智能巡检进行固定元素打标更方便；

视频识别：AI视频理解（阶跃）；

PDF操作：Kimi阅读助手、PDF 转文本（免费版），Kimi用于AI总结，PDF 转文本（免费版）则是直接提取；

网页总结：AI读取网页链接（Webpilot）；

URL转换为附件：链接转附件，可用于外部API生图、生视频返回的url链接到附件的自动转换，也可搭配影刀或八爪鱼使用；

提取附件的文件名：附件名提取，可以从格式化的文件名中提取信息。例如从BOSS直聘下载的附件简历，获取文件名后可以快速根据文件名拆出岗位名称、base地点、薪资范围、候选人姓名、工作经验。

（字段捷径中心有很多有意思的字段捷径，此处只列举个人最近用过的，更多的不一一推荐了，建议没事儿多逛逛）

9.通过HTTP请求调用外部大模型的API：可使用工作流或自动化实现，需要参考对应大模型的API文档，请求方法一般为POST。以DeepSeek为例，参考curl方式。

请求URL即为：https://api.deepseek.com/chat/completions

请求头为两个键值对：

Content-Type: application/json

Authorization: Bearer <DeepSeek API Key>

请求体选择raw格式，参照API文档录入JSON代码。

如上图，其中model即为模型参数（图中是V3模型），messages即为系统提示词和用户提示词。图示只是基础内容，temperature、max_tokens等也可以在此处传参配置，具体可查阅文档。填写后应如图，在用户提示词中引用需要提交给AI的字段：

但只是这样配置请求体，AI返回的是一整段囫囵的结果，参数信息、思考过程、输出结果混在一起，不能直接使用。

所以还需要配置出参的响应体。

以Deepseek为例，文档：https://api-docs.deepseek.com/zh-cn/api/create-chat-completion

我们需要的信息在下图红框部分，"content"是输出结果，"reasoning_content"是思考过程。

格式为JSON格式。

于是，响应体参考上图，写作：
```
{
        "choices": [
            {
                "message": {
                    "content": "{content}",
                    "reasoning_content": "{reasoning_content}"
                }
            }
        ]
}
```
如图：

接下来，通过修改记录动作将输出结果和思考过程录入到相应字段。选择上一步的「发送HTTP请求」，点击继续，找到"content"和"reasoning_content"选择即可。

细节可参见这两个模板的工作流部分：

https://ilovezhiwai.feishu.cn/wiki/IuNpw1zNZiw0DLkJtMQc0kocnhh?table=tblmKn0mcctVlh7y&view=vewltkSkYA

https://ilovezhiwai.feishu.cn/wiki/Bv1ZwJ5tcimQkYkU4OPcUczNnQG?table=ldxmb17UU0j3gXoV

10.开发自己的字段捷径，可参考开发指南：

https://feishu.feishu.cn/docx/SZFpd9v6EoHMI7xEhWhckLLfnBh

使用AI编程工具Trae进行开发。虽然Claude的上下文窗口够长，但Trae对输入框的输入长度进行了限制，长文档无法通过复制粘贴的方式发送。但可以将文档下载（最好改成.md格式），在AI对话中引用即可。
2025年3月7日
实测通义万相Wan2.1：可能是目前支持本地部署的最强图生视频大模型 | 附本地部署教程

最近两天在玩阿里新开源的Wan2.1。

网上很多关于这个模型的文生视频演示，但图生的不多，所以我想说说图生。

敲了一堆字又删了，还是直接上演示。

此刻，我的电脑桌上方的置物架上摆着一个超级索尼子的兔女郎手办，长这样：

随手一拍，用作素材。

这套兔女郎装，我看她高跟鞋有点高，脚腕子应该是站酸了。

不如就让她活动活动：

腿也麻了？那做个操？

注意看影子的跟随，这就是部署在本地的Wan2.1跑出来的效果。

如何？

翻素材的时候刚好翻出来一年前在本地跑的视频，也放上来给大伙看下，长这样：

不由感慨，技术进步真是太快了。

再来跟扛把子可灵做个对比吧。

这是我用SD1.5生成的图片：

那时候超级喜欢双手插兜，经历过的应该都懂。

她绝对想不到有一天我们会让她把手从口袋里拿出来撩头发。

提示词：

一位身着白色水手服的青春女学生，黑色直发齐刘海，面容清秀，红润的嘴唇。站在校园楼梯间，阳光透过窗户斜射进来，在她脸上和白色衣服上形成温暖的光斑，背景是模糊的楼梯和栏杆。她轻轻眨动眼睛，嘴角缓缓上扬形成浅浅的微笑，随后低头看向地面，手指不经意地轻抚过垂落的发丝，将它们别到耳后，又将双手轻轻放入校服口袋，微微侧头望向远方，眼神中流露出些许思考和憧憬的神情。镜头采用近景拍摄，柔和地捕捉她细微的表情变化和动作，随后缓缓平移至侧面，展现她站立的优雅轮廓。整个场景充满宁静与温暖的氛围，洋溢着青春的气息，日系青春电影风格，柔和复古的色调，如同胶片相机般带有淡淡的怀旧感。

先来Wan2.1。

参数使用fp8/14b/480p/20steps/24fps，这样生成3-5s的视频，RTX4090显卡基本可以控制在5-10分钟以内，与线上平台相当。

生成两段吧，一段3s，一段5s。

3s版：

5s版：

接下来可灵。

直接使用最新的可灵1.6，上传图片进行首帧生成。可灵视频长度可选5s和10s，有标准和高品质两个版本。

我们统一选择5s长度，两个版本各生成一条。

标准版：

高品质：

单以成片效果来看，个人觉得最强的还是可灵1.6的高品质模式，不得不说，可灵确实强。但Wan2.1的水准我认为可以算在可灵标准版和高品质版之间，尤其是指令跟随，明显强过可灵标准版。

并且，当你使用家用消费级以上的显卡时，也可以继续提高Wan2.1的精度、步数和分辨率，获得更好的效果。

对AI视频领域有过了解的朋友都知道，图生视频在工程上的重要性远比外界想象的大。如果只使用文生视频，成片难度简直几何倍数提高。

PS:昨天AI.TALK汗青老师新发布的短片《LONELY》，完全使用Google VEO2文生视频创作，没有用到图生视频，牛逼。

同时，图生视频在视频创作之外的通用工作场景的应用，我认为也比单纯的文生视频更高。

比如我之前介绍Mermaid这篇文章：DeepSeek-R1使用技巧：学会这一句Prompt，让AI帮你生成多种酷炫图表的封面，如果有人还记得的话，长这样：

假设说，我现在正在制作一个演示用PPT，这是我的PPT封面。我想让它更酷炫一点，我想让水和鱼儿都动起来，但背后的Mermaid文字不要变化，怎么办？

这种需要，Wan2.1图生视频就可以完成。

提示词：

一幅动画风格的美人鱼场景，橙红色"Mermaid"文字悬浮在画面上方。深蓝色水域中，红发美人鱼少女浮在水面，身着橙红色贝壳上衣，长发在水中轻轻飘动，眼睛眨动，嘴角微微上扬。周围的橙红色鱼儿灵活游动，有的从她身边穿过，有的在深处游弋。水面泛起涟漪，光影在水下闪烁变幻。镜头采用固定视角，捕捉水中生物的自然流动感。整个场景充满梦幻而神秘的氛围，动漫插画风格，色彩对比强烈，蓝色水域与橙红色元素相映成趣。

生成的视频：

上面两张底图都是来自AI生成，使用照片的话可以得到更真实的效果。

例如这张图：

提示词：

镜头从侧面捕捉一位身着黑色西装的精英商业人士，站在装饰华丽的走廊中，手持一杯咖啡。他面容沉稳，眉头微皱，眼神中透露出思考和决断。他将咖啡杯缓缓举至唇边，轻啜一口，随后微微低头注视杯中液体，眼神中闪过一丝满足和释然。背景是米色墙壁和金色相框，营造出正式而庄重的氛围。镜头采用近景拍摄，捕捉他饮用咖啡时微妙的表情变化。整个场景充满力量与沉着的氛围，商业纪实风格，色调冷静而克制。

输出视频：

以及，Wan2.1作为能在本地部署的开源模型，就会有一些线上平台无法比拟的优势，SD玩家懂得都懂。

友情提醒：小擦怡情，大擦伤身。

再来说说本地部署。

说先还是要给个大大的赞的，相比隔壁阶跃的Step-Video-T2V，上来就要80G显存，万相起码有的玩。

但说实话，Wan2.1满血本地运行还是很吃力的，毕竟是生成视频，算力要求比Flux.1肯定是高。图生视频是14B模型，我自己用4090亲测，还是fp8量化的480p用起来更舒服一些，再高的精度或者分辨率，就会让生成时间变长，导致体验下降。

结合我自己的经验，不太建议4070Ti以下的玩家进行本地部署。除非你是文生视频需求。

万相贴心地准备了一个1.3B/BF16精度的文生视频模型，4070就可以流畅运行。4090生成一个3s视频的时间更是不到一分半。

本文插入视频数量已经到达上限了，效果就不放了。个人评价是，除非你要的量大，或者说在这个生产流程中介意水印，那使用线上文生图也是不错的选择。

但我认为本地部署依旧可以聊聊。为什么呢？因为很多人喜欢讲卡，却忽略了算力租赁这件事儿。

关于AI时代个人可以获取的buff，我一直有点粗浅的见解：有两项云服务，可能会越来越从ToB转向ToC。一个是云服务器，一个是云端算力。

个人云服务器，我之前的文章经常有提到。不到100元/年的租赁价格，可以获得一个随时随地都能访问的公网IP，加上一台更适合生产的Linux主机，配置不高但对个人来说够用。有了它你就可以调用各种AI的API，通过AI编程的方式把它捏成最适合自己的形状，然后它就是成了你行走江湖的私有外挂，甚至你也可以开放给别人使用，提供服务。

个人云端算力，其实也可以算作云服务器的一种，只是配置更高。很多人跟我说你有4090如何如何，确实，舍得花钱买显卡也是个执行力壁垒。但我可以提醒一下各位的是，很多算力租赁平台租用4090也就是网吧的价格，从1块多到几块钱一小时，足以完成一些不需要长期跟进的事情了。这就像相机，有点反常识，都说胶片贵，冲洗翻拍还要加邮费，但买台数码按不够一定快门次数，还真不好说谁成本更高。

这里没接到广告啊，也不推荐平台，大伙儿自行判断。我就提醒一句，如果算力过于便宜，尽量不要放重要文件和数据进去。

下面是个人总结的一个路径较短且无需魔法的部署教程：

1.到B站下载一个秋叶ComfyUI整合包。

具体地址在下面这个视频的评论区：

https://www.bilibili.com/video/BV1Ew411776J

解压即用，记得更新版本到最新。

2.到魔搭社区下载Wan2.1模型。

魔搭社区是阿里云旗下的AI大模型开源社区，国内可以直接访问，而且文件下载速度很快。

我们不去直接下载通义万相发布的模型，那个部署起来需要一定的专业技术知识。我们去下载Comfy Org打包的模型，只要你上一步把ComfyUI更新到最新，那就不需要再安装任何的节点，开箱即用。

具体地址是：

https://www.modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/files

目录结构大概是这个样子：

然后下载模型文件（即split_files文件加下的内容）。

一共4个子文件夹：

clip_vision下只有一个clip_vision_h.safetensors 文件，下载到ComfyUI目录Comfyui/models/clip_vision/。

vae下也只有一个wan_2.1_vae.safetensors文件，下载到ComfyUI目录ComfyUI/models/vae/。

text_encoders下有两个文件，分别是fp8和fp16精度的文本编码器，可以结合自己的电脑配置选其一，或者两个都下载。

diffusion_models下的文件较大，可参考下图，根据自己的配置按需下载。

做一个简单的说明：

①分辨率高，规模大，精度高的，更吃配置。

②文生视频1.3B的bf16和fp16效果基本上不会有什么差距，理论上bf更适合训练，fp推理优化更好。

③文生视频模型的分辨率，根据网上的信息，应该480p和720p皆可生成。

④下载文件夹内的文件或直接打包下载文件夹皆可，ComfyUI可以选择二级文件夹下的路径。

3.下载工作流。

ComfyUI提供了官方示例工作流，在example workflows_Wan2.1文件夹下。就下面这三个，可以直接下载：

这个几个官方工作流没有加视频导出节点，如果你需要导出为视频，可以手动在最后串联一个video combine节点，格式选择h264-mp4或h265-mp4即可。

如果不会，也可以直接使用我添加好视频导出节点的工作流：Wan2.1工作流。

4.导入使用工作流。

导入工作流十分简单，启动comfyui后会自动打开一个这样的页面，把工作流json文件直接拖进去即可。

然后就可以生成你的视频了。

以上就是全部内容了，感谢关注！

2025年3月2日
Wan2.1工作流

链接: https://pan.baidu.com/s/1JTKPfhSXmGbpjDOg-HheDg 提取码: 842q 复制这段内容后打开百度网盘手机App，操作更方便哦
–来自百度网盘超级会员v9的分享

2025年3月2日
一个UP主开发的「卡片式AI写作助手」项目，花一晚上改了改，并试图教你怎么用 | 5000字长文
星期天逛B站发现一个挺有意思的卡片式AI写作助手项目，原视频2w+播放2k+收藏，收藏率接近10%。up主「良我叫什么」用Cursor开发了这个项目，GitHub有200多Star。

原视频和原项目的GitHub链接先放出来：

https://www.bilibili.com/video/BV1QYKWeFE16

https://github.com/ErSanSan233/prose-polish

好好，我知道你不愿看视频。那就祭出我之前我之前做的B站视频分析小网站——我让AI开发了一个自动分析B站弹幕的网站——交给AI总结一下：

插播一段，说到这个网站，最近我把AI又换回DeepSeek了，现在用的火山引擎的API，速度比别家快不少。不过公开发布出来以后tokens消耗还蛮快的，已经干掉我好几管豆包的50w体验tokens了，还充了点钱。

火山引擎的API怎么用之前发过，不再赘述了，可以看这篇文章的中间部分：

DeepSeek服务器总繁忙怎么办？不愿稍后，不如试试通过API续命你的聊天儿

说回这个「卡片式AI写作助手」项目。

其实它有点像工作流，但专门为文本工作而生，没有功能节点，只能串联文本节点。

它的基本工作流程是这样的，左边一栏是提示词卡片，右边是文本内容卡片，在提示词卡片中，以占位符{{text}}指代需要处理的文本（段落是{{p1}}，这个看预制卡片的内容就懂了）。

当我们使用连线将提示词卡片和文本卡片相连，点击提交时，这个操作的意思就是将这段提示词应用于它连接的文本。如下图，就是将原文卡片中这段文字进行规范表述处理，得到了结果卡片中的这段文字。

又例如下图，意思就是在原文段落1和段落2中间生成一个过渡的段落，让这两段文字的衔接不那么突兀。

如果你已经分别处理好了多个分段落，想对整个大段落进行处理，那要怎么办呢？不需要多余的复制粘贴，看到文本卡片左下角还有紫色的插头没？把它跟下一张卡片连接起来即可。

例如这样，进行一个翻译：

被翻译的内容就是这三小段连接成的一大段。

当然能实现的不止于此，你可以根据自己的需求无限添加适合自己的提示词。这么说吧，凡是你在聊天窗口能写的提示词，在这里一样能写。例如昨天早上我就写了一个叫做「工作嘴替」的提示词，放在了这里面。

昨天早上我比较忙，处理事儿来不及做太多思考，所以记事儿都是记的一些第一直觉想到的细碎的片段，且措辞稀碎，像这样：

就读起来很吃力是吧？说的些啥啊这是……

然后我把上面的这个「嘴替」卡片，跟我这段说的乱七八糟的话相连，选择DeepSeek-R1模型，提交。

得到的结果：

怎么样？清晰多了吧。

这就是这套卡片式AI系统的基本运作机制。

那么如何在自己的电脑上部署使用呢？

推荐查看原作者「良我叫什么」的视频，Win和Mac的方式都有介绍：

https://www.bilibili.com/video/BV1QYKWeFE16

不是我懒得写，视频确实讲得很清楚。

接下来就来说说我改的部分了。

同样的，先把GitHub页面放在这里：

https://github.com/Liu-Bot24/prose-polish-fork

如果你看了原视频，应该能发现我上面的截图跟原视频稍稍有点不一样。

因为我也用Cursor，对原作者的这个项目做了一些小小的易用性优化：

1.双击添加和快速复制卡片

原项目添加新的文本卡片，必须点击右下角的添加按钮，且添加出来的卡片需要双击才能进入编辑状态（粘贴文本）。

我修改的这个版本，你可以通过在任意你想添加文本卡片的空白位置双击，实现卡片的添加。并且新添加的卡片，默认就是编辑状态，方便你直接粘贴文字。右下角的新建卡片按钮依旧保留，新加的卡片也是，默认进入编辑状态。

并且还支持了按住ctrl键拖动卡片复制的功能。

2.快速模型选择选项

原项目切换不同大模型，需要在提交按钮的右侧展开菜单进行选择，频繁切换有些繁琐。

这里我在保留了下拉菜单的同时，加入了快速选择选项。

比如说你上一个需求使用GLM-4-FLASH处理，这个需求需要用到DeepSeek-R1这样的推理模型，然后下一次处理一个另外的需求的时候可能要用到GEMINI，这样频繁的菜单操作就很麻烦。现在，还可以直接在提交上面进行点选，点到哪个用哪个，十分方便。

并且，这里的选择，跟在菜单里的选择是相互关联同步的。唯一不同的是，「自定义」模型我没有加入到快速选择里。如果你在菜单中选择并配置了自定义模型，这时候自定义模型就会生效，但快速选择中不会有任何模型被选中。

3.预制提示词卡片的复制和排序

原项目的预制提示词卡片虽然可新建，但是不支持排序和复制。

我在原项目的基础上加入了卡片复制功能。点击右上角的复制按钮，就会在原卡片下方自动复制出一个相同卡片，但标题后面会添加序号以做区分。你可以在原卡片的模版上进行修改，创作新的提示词卡片。

并且在左下角添加了拖动柄，拖动拖动柄可以对这些卡片进行排序操作。

4.多预制提示词并行执行

原版每次只支持激活一个提示词卡片。如果要继续执行下一张卡片，需要等这次的流程跑完。

经过我的修改后，现在它支持一次选中多个提示词卡片，同时启动执行。

比如说我想同时对两段话进行翻译。

那我就可以把翻译卡片复制一份「翻译2」，然后都选中启用，再点击提交。

这时候就会双线程执行，同时翻译这两张卡片。

如果你暂时只想翻译其中之一，也可以保持连线，取消不想启用的提示词卡片的选择，再点提交，就会执行你选中的提示流程。

多线程执行的时候，原版左下角的一个输出位自然是不够的了。

所以我把结果输出改成了直接生成卡片，就生成在该条提示流最后的一个文本卡片旁边。原来的结果输出位置，改成了生成状态指示器。

5.预制提示词卡片自动保存入本地浏览器缓存

原项目的提示词卡片支持新建添加，但无法自动保存。需要手动导出，下次使用时再进行导入，否则每次刷新页面都是默认的三个卡片。

我在这里加入了浏览器缓存功能。只要你不清除浏览器缓存，刷新页面后，所有自建提示词卡片仍然会保留，不会像原来一样消失，需要你重新手动导入回来。

卡片的排列顺序也会自动保存，你可以把最常用的一张卡片放在最上方。每次刷新时，排序在最上方的一张提示词卡片会被默认选择，你可以直接连线并提交处理。而不需要像原版一样，每次都要先手动点击提示词卡片激活。

当然你要更换浏览器和设备，或是清除浏览器缓存，还是需要进行手动的提示词导出和导入操作的。

缓存难免有小概率出bug，所以我也加入了仅针对本网站的浏览器缓存清除功能，叫做重置所有卡片。点击这个按钮后，本应用对应的缓存会被清除，提示词卡片恢复到默认三张卡片的状态。

值得一提的是，这里原版有一个删除所有卡片功能，因为跟重置卡片效果有重叠，所以被我删除了。如果使用重置，但要达到删除所有卡片的效果，你还要手动把三个初始卡片再删一下。但这个应该是小概率事件吧，好像没有什么动机非要全部删除……

不过有一点啊，原项目的apikey是写在js文件里的，会暴露到前端。所以如果发布到互联网上，使用的用户有心的话，是可以获取到你的apikey并拿到其他地方去使用的。

一般比较好的做法是像下面那个头脑风暴项目一样，把敏感信息放到环境变量.env文件里，这样就不会在前端泄露。

我已经改完了上面说那些才发现这个问题，折腾不动了就没有继续改。然后很遗憾也没有办法直接把网站放出来了。

如果有真正自己会写代码的大佬看到，可以帮忙修复一下。

提醒下大家，如果要把这个写作助手部署到服务器上，还是避免下大规模发给生人。

本地下载后的使用方法依旧可以参考原UP主视频，说的很详细，我就不再文字敲一遍了。

我来说说怎么把这个套东西部署到自己的服务器上，让你自己可以脱离空间的限制，随时随地使用，并且还能发给别人用。

我的整个部署方案基于宝塔面板，基本不怎么涉及命令行和代码操作，你应该很容易看懂。

（如果你不知道怎么装宝塔面板，等我写完这段到文末继续说，送佛送到西。）

之前写这个AI脑暴项目《开源一个由AI生成的AI头脑风暴项目》的时候，就有人问应该要怎么用，这次干脆也一起说了。你可以结合这两个项目的部署一块儿来理解。

先说头脑风暴的。

进入GitHub页面：

https://github.com/Liu-Bot24/AI-BrainStorm

我们尽量避免命令行操作，就不用git clone了，直接下载ZIP包。

然后在宝塔面板左侧菜单点击文件，打开文件管理器，进入到这个目录：/www/wwwroot/。

然后把刚才下载的压缩包上传并解压。

如果是在GitHub下载的，那文件夹应该如下：

在文件管理器打开这个文件夹，修改.env.example文件中的AI模型模型ID、API KEY、接口地址为自己的。（豆包、智谱、通义、讯飞星火、DeepSeek等等都有免费额度赠送。）然后把.env.example文件名修改成.env即可。

如果你更换了模型，记得到/static/js/文件夹下把main.js文件开头这里也改一下：

（这里看着像在操作代码，实际上只是在改文件名和复制粘贴密钥。）

然后找到左侧菜单，网站——Python项目——添加Python项目。

然后项目路径选择刚才上传的文件的文件夹，项目名称会自动填写，Python版本安装3.8版本，启动方式选择命令行启动，启动命令填写：
```
/www/server/pyporject_evn/AI-BrainStorm-main_venv/bin/python3 -m uvicorn app.main:app –host 0.0.0.0 –port 8000
```
（记得防火墙开启8000端口）

环境变量无，启动用户www，安装依赖包。

然后等待一段时间，宝塔这时会自动创建虚拟环境并安装依赖。

完事儿后项目状态自动变成运行中状态（还没有就手动启动一下）。

然后，在浏览器地址栏输入http://你的服务器ip:8000/，就可以打开AI头脑风暴页面了。（如果打不开，多半是防火墙没有放行8000端口。）

这就完成了，简单吧？

然后是今天的这个卡片式AI写作助手项目。

依旧是进入GitHub页面：

https://github.com/Liu-Bot24/prose-polish-fork

直接下载ZIP包。

但要注意，Branches选择update-project这个分支，另一个分支下是原版。

同样是上传到/www/wwwroot/，解压。

刚才的脑暴是Python项目，而这是个基于Node.js的项目，所以来到网站——Node项目。

先进入Node管理器，安装一个比较新的LTS稳定版本的Node版本即可。

然后添加一个Node项目。

项目目录选择刚才解压的目录。

项目名称自定义即可。

启动选项选择自定义启动命令，输入npm start。

端口5888。

（一样需要到防火墙设置放行这个端口；我在代码中使用的是这个端口，如果需要更改，要连同代码一块更改）

运行用户www，包管理器npm，Node版本选择刚才安装的版本。

然后保存设置，同样等待宝塔自动创建完成后，项目自动运行。

接下来访问http://你的服务器ip:5888，就可以打开WEB界面了。

注意，你需要到项目目录下，找到config.example.js这个文件，填写上相应的apikey，保存后修改文件名为config.js，才能正常调用AI能力。

这里我使用的几个接口说一下，如果你要继续沿用就到对应平台获取key：

通义的apikey去阿里云百炼平台获取，模型调用的是qwen-max-2025-01-25，有100w免费tokens赠额；

DeepSeek使用的硅基流动接口，apikey需要去硅基流动获取；

（以上两个平台的apikey获取方法，在DeepSeek服务器总繁忙怎么办？不愿稍后，不如试试通过API续命你的聊天儿中都有提到）

智谱使用的glm-4-flash免费模型，apikey直接去智谱开放平台官网获取；

GEMNI的apikey稍微麻烦了一点，需求使用美国IP，前往Google AI Studio（https://aistudio.google.com/apikey）获取，我使用的也是免费模型，gemini-2.0-flash。

你也可以自己去script.js这个文件修改api的base_url，比如说你想把DeepSeek的API改回官方的，只需要修改下面红框部分：

把base_url改成https://api.deepseek.com/v1，V3和R1模型分别改成deepseek-chat和deepseek-reasoner。

如果你想彻底更换成自己喜欢的AI，还涉及到前端的修改，我建议你使用 Cursor 或 Trae，让它们帮你一键修改。

接下来再说宝塔面板。

如果你有一个现成的Linux服务器，其实可以直接到宝塔面板的官网

https://www.bt.cn/new/download.html

通过SSH使用这个在线安装工具，直接一键安装。

官方页面也有常见问题的问答。

同时他们也有Window版本的面板，但这个我就没用过了，需要你自己探索。

另外还有个更快捷的方法：在购买服务器直接一键部署。

主流云服务器基本都支持直接在购买时部署好宝塔面板，以阿里云为例：

https://www.aliyun.com/minisite/goods?userCode=r18u1tal

一般我们最常买的就是轻量应用和ECS经济e实例这两款2G的服务器，搭个API网页应用完全够用。

这两款性能差不多，差别在于68的次年续费涨价，99的续费同价。年抛选前者，一直用选后者。

如果选择轻量应用服务器，部署宝塔面板的方法：

直接在下单时，镜像选择应用镜像中的宝塔面板镜像。

如果选择ECS服务器，部署宝塔面板则是：

下单时，把镜像切换到云市场镜像，然后在下拉菜单中选择宝塔面板。

而后进入到服务器控制台，按照提示获取到管理员账号密码和登入端口，就可以登入宝塔面板了。

腾讯云等平台大同小异。

进入宝塔面板后，套件选择推荐的LNMP一键安装即可。

现在，就能接上上一段文件上传的步骤了。

如果你准备使用Cursor直接在服务器上修改代码。

需要先在「安全」菜单中开启SSH密钥登录，然后下载密钥，文件名应该是「ip地址_id_XXXX」的形式，先存起来，稍后会用到。

在Cursor的应用市场中，安装Remote – SSH这个插件。

然后在Cursor的新窗口中，就可以选择通过SSH连接SSH主机了。

首先要先点击「配置SSH主机…」进行一下配置。

这里一般默认会有两个config文件，用哪个都行，比如我用第一个。

C:\Users\用户名.ssh是个本地文件夹，你可以找到这个路径打开，然后把刚才下载的密钥粘贴过来，并修改密钥的文件名为key.id_rsa。

操作好后，密钥应该跟config文件同级。

编辑config文件的内容为：
```
Host 服务器ip（就是刚才密钥没改名之前文件名里的ip）
```
然后再次SSH连接，你就能看到你的服务器主机（显示为IP地址）了，点击它即可。

第一次连接的时候需要选一下系统，选Linux。（前面用了Windows版宝塔的除外，那个真没用过，要靠你自己摸索一下。）

SSH连接成功后，打开刚才在宝塔面板解压出来的项目文件夹。

然后，你就可以通过Cursor，尽情地远程开发你的项目了。
2025年2月26日
ComfyUI | 如何AI放大照片不模糊？推荐一个冷门的图片放大模型

大语言模型和DeepSeek说吐了，换换口味。

分享一个我自己一直在用但比较冷门的图片放大模型，这个模型国内用的不多，但真的很好用。它能够把一张图片几乎无损地进行放大，而且重绘幅度很低，尽可能保持原汁原味。

不卖关子，模型名称：4xNomos8kSCHAT-L。

演示下效果，左边放大后，右边原图：

这个模型Google可以搜索到，懒得搜的话也可以直接看这篇文章：4xNomos8kSCHAT-L。

（使用这个模型需要你有一台配置还可以的电脑或者云电脑，并且掌握ComfyUI的基础操作，如果暂时没有的话，只能先收藏将来再战了。）

很多人都喜欢用SUPIR做图片放大，当然SUPIR也不错。

但它的问题我认为也挺明显。

第一，大图爆显存。

原图比较大或者放大倍数大都容易爆显存。

300万左右像素的照片放大一下，这个需求其实不过分啊。

但作为4090用户，我可以证明，这个事情消费级显卡真不太好搞。

第二，SUPIR要用到两个模型。

一个SUPIR模型，一个SDXL模型。

有这个SDXL模型就意味着它会重采样，就容易引入不必要的变量。

哪怕你只用画质prompt，s_noise调很低，它重绘了就是重绘了。

比如说我用大家在SUPIR上最常用的Juggernaut模型，只用画质提示词，放大这张妹子照片：

放大细节，这脸前面还有后面墙上的头发是怎么回事啊：

把SDXL模型换掉会有不一样的效果，比如我其他参数不动，换成LEOSAM HelloWorld新世界模型，这个头发问题就没了，但因为HelloWorld这个模型人像自带磨皮，反而看起来会有点糊。

多放几张。

Juggernaut：

HelloWorld：

Juggernaut：

HelloWorld：

（SUPIR其实挺适合老照片修复的）

感受很明显吧。

受SDXL模型影响很大。

而且，一旦涉及到商用，多一个SDXL模型会让问题复杂很多。

这就是4xNomos8k的好了。

就一个放大模型，独立把事儿解决。

放大4倍，就这么简单：

可以商用。

而且尽可能忠实于原图。

po一些作者在reddit上发表观点（Google机翻凑合看）：

所以这个放大模型非常适合对实拍照片进行放大（当然破损老照片除外）。

比如说刚才放大的这张世界名照：

来看看原图和放大后的尺寸：

从不到300w像素直接放大到接近4500w像素。

这还是原图小，实际放大到1.5亿像素以上也完全没有问题，也不会爆显存。

这个尺寸的图片无法上传，直接截图细节吧，左边是放大后，右边是原图：

再找个原图够小的，比如这张：

原图512*350，这都能算糊了吧？怎么不su…好了我把梗收回去。

放大之后：

细节：

这次把对比节点反过来接一下，右边是放大后的，注意痣的位置，完全没有变化，完全忠实于原图。

并且注意一下衣服的细节，都足够还原：

我们再用最熟悉的4x-UltraSharp来一次。

放大之后：

下图左4x-UltraSharp，右4xNomos8kSCHAT-L，

UltraSharp自带锐化，乍一看更清晰，然而细看不够自然。

尤其是细节上，UltraSharp明显失真。

4x-UltraSharp毛衣细节⬇️

4xNomos8kSCHAT-L毛衣细节⬇️

4x-UltraSharp人物毛发⬇️

4xNomos8kSCHAT-L人物毛发⬇️

如果你说，我就是希望能有一个生图模型重绘一些细节出来，我也不准备商用，也不介意跟原图的完全一致，就是想重采样放大获得更好的图片品质。

当然也没有问题。

我放大模型还用4xNomos8kSCHAT-L，重绘模型给你换成fp16的flux.1 dev怎么样？

这个加强足够吧。

皮肤和嘴唇的细节：

flux重绘+放大⬇️

原图放大⬇️

原图⬇️

眉毛和头发的细节：

flux重绘+放大⬇️

原图放大⬇️

原图⬇️

模型文件放到models\upscale_models文件夹中。

Enjoy。

2025年2月18日
4xNomos8kSCHAT-L.pth

下载地址

2025年2月18日
DeepSeek-R1使用技巧：学会这一句Prompt，让AI帮你生成多种酷炫图表
直接开门见山了，这一句Prompt就是：
```
请使用mermaid帮我画………
```
为了避免说起来干巴巴的，先展示个效果吧。

输入Prompt：
```
做一个30天假期的减肥规划，请用mermaid帮我画成甘特图
```
输出的甘特图：

怎么样？效果还可以吧。

那我们接着说。

前面我们科普过Markdown：为什么AI的回答复制出来总是带有「##」、「**」、「-」等无用符号？如何才能去掉它们？

Markdown可以通过简单的文本语法表示多种格式，今天说的跟它类似，可以通过简单的文本语法创建多种类型的图表，并基于JavaScript完成可视化渲染，叫做Mermaid。

上面的减肥计划，在AI对话窗口中，其实长这样：

点击代码框右上角的复制，然后粘贴到提供Mermaid渲染功能的网站，例如mermaidchart.com或者mermaid.live，就可以转换成可视化图表。

下面设置几个具体的场景来演示一下吧。

1.比如说，我们今天在「人人都是产品经理」这个网站上读到一篇文章，介绍的是《活动策划的标准SOP流程》。我想把它梳理并总结下来。

那我就可以复制整篇文章，然后告诉DeepSeek-R1，请帮我把下面这篇文章梳理成mermaid图表。

于是我们就得到了这样一份类似思维导图的图表：

这篇示例文章的原文不怎么复杂，而且图片比较多，所以得到的图表相对简单。如果你使用你们公司内部的流程或者SOP，或者正在学习的课程等等，会有更好的效果。

2.绘制一份行业知识图谱。比如说，绘制一份大语言模型行业的知识图谱。

于是我们就得到了一份知识图谱：

3.请使用mermaid帮我画出双十一当天用户进入优衣库天猫直播间下单的购物旅程图。

于是我们就得到了一份用户旅程图：

4.同时开始深度思考和联网搜索：请使用mermaid帮我画出2023年和2024年云服务器市场份额占比。

于是我们得到两个饼图：

5.请用mermaid帮我画出普通家庭宽带网络的协议交互图。

于是得到图表如下：

6.同时开启深度思考和联网搜索：请总结并梳理罗振宇2025年跨年演讲的演讲稿，然后用mermaid帮我把它画成思维导图（mindmap）。

*这里DeepSeek有点反应不过来，需要提示一下使用mindmap画思维导图，否则会画成前面第1条那种流程图形式的思维导图

于是得到思维导图：

7.同时开启深度思考和联网搜索：请使用mermaid帮我画出网站acfun的发展历程。

这个案例里DeepSeek突发奇想使用了甘特图来画，不过倒也合理：

也可以明确要求它用时间线来画：

8.同时开启深度思考和联网搜索：请用mermaid帮我画出历年天猫双十一GMV的变化柱状图（xychart）。

*这里也需要提示一下deepseek使用xychart图表才能正确绘制坐标柱状图。

于是得到柱状图：

以上几个演示案例基本覆盖了最常见的几种Mermaid图表，相信你也已经看懂了。

但我并不想到这里就结束。

之前我在：DeepSeek的API，我们普通人都能用在哪？这篇文章表达过一个观点，我想在这里重申一下：

在过去，掌握一些搜索能力的人，包括我自己在内，会吃到一部分小红利。因为我们总能判断出针对某一些问题，是否可能存在一些现成的解决方案，然后通过搜索，找到这些已经存在于互联网上的现成解决方案或者说小工具。然后利用这些现成的旧轮子，快速解决自己遇到的新问题。

但随着AI的进步，解决很多问题的最优路径，可能不再是找到一个现成的好方案来解决问题，而是直接用AI针对眼前的问题生成一个100%匹配的解决方案直接莽过去。

这也是我认为的AI时代解决问题的一个新范式。

之前Markdown那篇文章评论区有很多人留言，对为什么我推荐写一个新的转换器来处理Markdown标记表示不理解。

有人说这种符号用手一个一个直接删了了事，并不麻烦；有人说要到word查找替换；有人说使用腾讯文档；有人说选择到网上找一个开源的Markdown编辑器导成PDF；有人选择安装VSC和Typora解决；有人说Markdown本身就允许人类直接阅读，没有必要转换；有人说选择直接放弃格式，在Prompt里要求禁止使用Markdown。

但我依旧建议，使用AI生成一个最符合自己习惯的个人转换器。不仅是自己为自己私人定制，也是在刻意练习。

所以，mermaidchart.com和mermaid.live固然都很好，

我依旧打开了Cursor。

最终，我的Mermaid转换器：

-支持四个主题，黑白两种背景

-支持横向、竖向两种流程图的排版方式

-支持鼠标拖动和不按住ctrl键通过滚轮放大缩小（这个单纯是因为我不喜欢按ctrl键）

-支持全屏浏览

-支持在任意浏览状态下导出图表为png，且清晰度比在线网站高得多

按照惯例，源码贴在这里：
```
<!DOCTYPE html>
```
依旧是新建一个文本文档，把代码粘贴进去，修改扩展名为「.html」，开箱即用，也可以发给他人。

但还是那句话，建议试着自己借助AI写一个。
2025年2月13日
DeepSeek+飞书：教你用多维表格手搓一个AI应用给人看姻缘
刷到几篇命理圈的推文，煞有介事地分析DeepSeek算什么准算什么不准，感觉多少有点赛博魔幻。虽然知道这两年玄学一直藏在水下暗戳戳汹涌增长，AI算命其实也不是啥新鲜玩法，但摆在明面上圈外疯传+圈内一本正经分析，DeepSeek好像还是头一遭。

所以，凑个热闹。

分享一个比口口相传提示词优雅一点的玩法：

DeepSeek API+飞书多维表格。

使用多维表格的收集表收集生辰八字信息，用户提交后，自动调取DeepSeek的API，演算两人的姻缘。而后用户可以凭借自己录入的姓名，查询演算结果。

这一系列操作，我们可以直接使用飞书多维表格的收集表和自动化功能完成。

首先，我们要搭建一个基础的信息表格。其中要包括用于查询结果的姓名，用于进行演算的男女双方八字，还有最终结果的输出。

以及一个辅助字段性别，和一个思考过程字段用于存储推理模型think的部分。这两个字段暂时没用，但可以用于后期增加功能或进行用户分析。

接下来直接使用生成表单功能即可创建收集表单。

系统会自动按现有字段生成表单，也提供了简单的编辑和装修功能。

生辰八字部分我嵌入了一个公历生日转换成八字的智能体。

虽然其实直接输入公历出生年月日也能算，但这种事儿要的就是TMD仪式感。所以格式我要按照传统的生辰八字来要求，并且提供一个转换器。同时，针对现代很多人不知道出生具体时间的情况，提供一个统一采用正午12时的解决方案，降低用户的使用成本。

这个智能体通过字节的智能体平台扣子（https://www.coze.cn）搭建，三分钟就能搞定，简单说一下：

首先，进入扣子直接创建智能体，选择AI创建，输入「生辰八字计算器」，直接生成。

AI会自动创建好一个智能体，并写好prompt。

然后我们在这个基础上添加两条，让无法提供时辰信息的用户也能顺畅使用，同时对输出格式进行限定，增加仪式感。

再写一个开场白。

测试一下，十分完美。

然后点击右上角发布，获取到对外链接链接即可。

（扣子的智能体可以发布到豆包、飞书、抖音、微信和多维表格，还提供API服务，可玩性很高，感兴趣可以深入玩一玩。）

https://www.coze.cn/s/iP6SeUdN/

但扣子有个缺点，使用智能体也需要注册。这点有点影响用户使用路径的顺畅度，直接搓一个转换器页面放服务器上或许会更好，但演示就先用这个了。

回归正题，接下来页面右上角点击查看查询页面，即可创建结果查询页面。

将收集表和查询页面发布，并按需配置好权限。

这样，用户登记信息和查询测试结果这两个主要交互端口，就做好了。

接下来要做的是自动化部分，也是我们的核心功能，让DeepSeek自动根据用户录入的信息算一算Ta的姻缘。

其实前段时间飞书就内置了一个DeepSeek R1的字段捷径，使用这个字段捷径，可以直接进行DeepSeek R1的快速调用。

这个功能很方便，但是只支持通过火山引擎调用DeepSeek模型。

火山的赠额偏低，超过一定tokens数量就要开始收费了。

所以我们通过自动化来做，这样可以调用任意API，自由度高很多。（前提你的飞书多维表格要有自动化功能。）

新建一个自动化流程。

第一步触发条件选择添加新纪录时。如果需要录入的字段在收集表中都被设置为必填项，则这些字段都不会为空，所以选择哪一个都行。

接下来第二步操作，这一步需要准备好对应AI模型的调用名称、API接口和API KEY。

如果没有，可先查看这篇文章的前半部分：

DeepSeek服务器总繁忙怎么办？不愿稍后，不如试试通过API续命你的聊天儿

我以硅基流动的API做演示：

请求方法使用POST；

入参部分，请求URL为API的Base URL，硅基流动的就是：

https://api.siliconflow.cn/v1/chat/completions；

查询参数不需要；请求头填入两个键值对：
```
Content-Type：application/json
```
接下来：

请求体，实际上就API文档中Body部分的内容。

以硅基流动的文档举例：

https://docs.siliconflow.cn/api-reference/chat-completions/chat-completions

需要我们填写的就是Body下面这些项目，全部参数配置好后即是右边curl请求的data部分。

不过因为我们只是做一个简单的对话请求和返回而已，多维表格的自动化也不支持function调用（即右边tools部分），所以可以对它进行简略，只保留需要的部分。

下面是实际填写的请求体，你可以结合文档中的来理解：
```
{
```
注意两点：

1.”model”:后面跟的是模型调用名称，这个要严格按照API文档中规定的名称填写，否则会报错。API文档中都会写清楚，复制粘贴就好，例如下面是硅基流动的模型名称：

对应到请求体中，就是这个部分：

因为R1的请求延迟太高了，所以我就使用R1蒸馏的Qwen-7B来演示，这个模型在硅基中可以免费调用。

2.Prompt部分需要从第一步新增的记录（也就是用户录入的记录）中引用男女双方的生辰八字，八字信息由此进入prompt中传递给AI，操作看图就懂了：

接下来出参的响应体部分，可以选择Text和JSON。

选择Text会一股脑把所有信息都以文本形式返回，类似：

我们只需要回答内容主体和思考过程部分，所以我们选JSON。

查看API文档的Response部分。

回答内容主体即为content，思考过程即为reasoning_content。

飞书多维表格的自动化要求必须要按原响应的格式书写响应体，才能够选择到对应的响应参数。

也就是：
```
├── choices
```
要求JSON格式，所以这样写返回值：
```
{
```
然后，第三步和第四步，就是把回答内容主体和思考过程分别填写到对应的字段中，我们使用「修改记录」即可。

在数据库中，用表格的词汇来描述，一行的内容叫做记录，一列的内容叫做字段。

选择记录设置为第一步新增的记录，也即对应用户录入的那一行记录，再翻译一下就是把要写入的内容写入到这一行上。

接下在「设置记录内容」中选择「你们的姻缘」这一字段，行列都有了，也就是说把这次的回答内容主体（content），写入到行列交叉的这一个「单元格」（值）里。

在接下来，如果你前面的响应体书写正确，就可以在这里引用到content了。选择上content，就是说把content写入到这个「单元格」中。

第四步就是第三步的重复了，把思考过程（reasoning_content）写入到对应的位置。

到这里，自动化就配置完成了。

每当新用户录入信息时，就会自动调用AI，再把结果写进表格中。

录入后稍等一段时间，用户就可以在结果查询界面查到自己的姻缘情况了。

现在DeepSeek的第三方API还是普遍延迟都比较高，所以也可以再补一个手动操作的按钮应对超时的情况。复制一遍刚才的自动化流程，把「添加新纪录时」改成「点击按钮时」即可。

也可以换成其他API，比如智谱的Flash系列，我就挺喜欢用的，免费、不慢，性能也可以。当然你要是就觉得DeepSeek算的准，那你当我没说。

上面介绍的只是一个小玩法，多维表格+AI的衍生玩法还有很多，比如用贴吧暴躁老哥的口气挑战弱智吧训练集：

生产场景自然也有很多可挖掘的，多维表格的一个字段值完全足够存储一整篇文章，那么会不会有批量分析、批量写作等等工作流衍生？
2025年2月10日

分类： 文章

1.准备构思车间

2.信息整理沙盘

3.PPT大纲生成

4.PPT分页优化

5.PPT设计输出

1.图表转换工具箱

2.AI生成生图提示词

分类：文章