分类: 文章

长期文章、教程和个人写作。

  • 一个自动批量化AI生成各种用途提示词的飞书多维表格模板

    让AI自己写Prompt提示自己,帮你解决懒得写/不会写提示词的问题,成为打工人上人!

    支持生成文生文提示词、文生图提示词、图生(反推)图提示词、文生视频提示词、图生视频提示词。

    使用方法:

    文生文:在「任务」字段中填写需要执行的任务,「输出」字段自动生成结构化提示词。

    文生图:在「任务」字段中填写需要执行的任务,「输出1」中会输出关键词-权重样式的提示词(全英文),「输出2」中会输出自然语言样式的提示词,「英文输出2」则为「输出2」的英文翻译。

    图反推:用户可使用批量上传附件功能批量上传图片,「输出」字段的输出结果为模仿这张图片的生图提示词,「英文输出」则为「输出」的英文翻译。

    文生视频:在「任务」字段中填写需要执行的任务,「输出」字段自动生成文生视频提示词,「英文输出」则为「输出」的英文翻译。

    图生视频:用户可使用批量上传附件功能批量上传图片,图片上传后自动进行图片描述解析。然后在「任务」字段中填写需要执行的任务,「输出」字段自动生成图生视频提示词,「英文输出」则为「输出」的英文翻译。

    视频反推:用户可使用批量上传附件功能批量上传视频,「输出」字段自动生成文生视频提示词(也可截取原视频关键帧进行图生),「英文输出」则为「输出」的英文翻译。本功能基于阶跃星辰的视频理解字段捷径,识别结果可能存在误差,建议使用单一镜头且体积较小的视频,以提高准确率。

    图生视频效果展示:

    A young woman, wearing a white short - sleeved T - shirt, blue ripped denim shorts, cat - ear hair accessories on her head and with long pink hair, has a brilliant smile on her face and looks happy. She is in an indoor place, which may be an airport or a large - scale transportation hub. There are blurry signboards and the ceiling in the background. At the beginning of the video, the girl suddenly stops from a happily running posture, gently puts down her right foot, lets her arms hang down naturally, and looks directly at the camera. The shot is taken in medium - shot, stably capturing her smooth transition from movement to stillness and the change in her expression. The whole scene is full of a relaxed, happy and energetic atmosphere, with a realistic style, sufficient light, and bright and vivid colors.
    

    也没啥好多说的,直接放链接:

    https://ilovezhiwai.feishu.cn/wiki/Bv1ZwJ5tcimQkYkU4OPcUczNnQG?table=ldxmb17UU0j3gXoV

    更详细说明可查看模板内的说明文档。

    关于外部API的调用,之前文章有写过,可查看:一些飞书多维表格的AI使用经验分享

  • 自己肝了一个AI写PPT的小工具,它比AI自动套模板更适合白领职场人

    坦白说,我对市面上大多数AI PPT产品不太满意。

    它们常常会主打「一句话」「30秒」「一键生成」PPT。

    我也常常会感觉,做AI PPT的产品老师们是不是平时不怎么写PPT。

    PPT是讲逻辑的,大语言模型也是讲逻辑的,

    但PPT加上大语言模型,却变成了自动套PPT模板。

    总觉得哪里不对劲……

    我不否认现在市面上的AI PPT产品在一些典型的场景、群体或者单位内,

    是能够带来巨大的效率提升的。

    但对我来说——不知道你怎么看——

    我会觉得它们很「鸡肋」,

    有用肯定是有用的,但用处似乎也不多。

    所以,我觉得或许可以自己做一个更加适合我们「职场人」的AI PPT。

    我们的PPT往往带有更明确的「证明」或者「说服」的目的,

    我们相比父辈,已经掌握了扎实的计算机操作基础。

    相比于让AI给我们套PPT模板,我们更希望能充分利用它的知识和逻辑能力。

    于是,我基于飞书多维表格,做了个有点不一样的AI PPT工作流。

    它不能帮我直接套PPT模板,

    但一定程度上可以辅助我进行思考和梳理PPT逻辑。

    链接直接放在这里:

    https://ilovezhiwai.feishu.cn/wiki/OJq3w7mFRiJjRnkBC5bcWOt3ngd?table=ldx1qY5akWfjHpKO

    下面我以一个实际的PPT产出案例来介绍这个模板的功能。

    这是我按它的建议,做的5页PPT:

    1.准备构思车间

    当领导安排我写一份PPT,我总是下意识会反问:给谁讲?干啥用?有什么需要注意的?

    了解清楚后,我才开始准备资料,以领导的使用目的为目标,开写。

    人类给AI安排工作,我觉得也一样。

    于是,在这一步,我们首先填写要写的PPT的主题,写这份PPT的目的,以及需要注意什么。

    这里我的案例是,写一份「AI眼镜行业调研」的PPT。

    目的是「说服我的老板投1000万开发一款像Rayban-Meta2一样的AI拍摄眼镜」

    需要注意的是,「我只准备做国内市场」

    这时候,如果我自己去做准备资料这个动作,我一般就会开始一边搜索一边思考。

    而有了AI的介入,我可以让它提前告诉我可以去找什么。

    DeepSeek-R1告诉我可以去找行业基础数据、用户画像和需求、国内外的竞品分析、产品用到的核心技术、供应链的成本、相关的法规和政策、盈利模式等等等等。

    同步得,我还根据R1给的搜索建议生成了一个Prompt:

    这个Prompt带有Workflow的设计,在一些相对古早的指令性AI工具中也能有比较稳定的效果。

    当然我更建议使用一些新的功能,比如现在很火的Deep Reaserch

    比如我把这个搜索Prompt发给Grok3:

    (PS:这里我皮了一下,把Prompt改成面向全球市场不仅是中国了,后面带来了一些问题,下面说。)

    还有一个不错的工具是Flowith:

    (flowith.io邀请码M8MUPM)

    2.信息整理沙盘

    上一个环节中我们会搜集到很多资料,不光有AI整理的报告,也有我们自己找到的一些信息。

    我自己在完成这项工作的时候,会整理到很多细碎的信息,可能是网页上某一段新闻,可能是某一份行业报告其中的一页,甚至电商详情页面,它们常常以图片的形式存在。

    所以我设计了这样一个信息模态转换的环节。

    把截图上传(可剪贴板粘贴或批量上传)到附件,AI会自动提取出其中的文字信息。

    并且在前后添加了AI概括和分类,为提取出的大段内容贴上标签,便于后续查找。

    值得一提的是,AI识图字段也是能够直接输入文本的哦。上一步Deep Reaserch到的文字报告,可以直接粘贴到「信息提取」这个字段,也会作为资料信息被整理。

    记得选上PPT主题,这是一个关联字段,用于在后续的环节中调取你整理的这些参考资料。

    3.PPT大纲生成

    这个环节就到了很多线上一键生成AI PPT的产品的生成步骤了。

    选上你的PPT主题,录入你这份PPT需要的页数,如果需要,还可以再填写「补充信息」,AI就会为你生成PPT大纲了。

    (PS:参考资料会合并上一步全部的资料。)

    如果要说这里跟一键生成AI PPT的区别:

    其一是,参考资料会足够丰富,只有更详细的输入,才能带来更好的输出。充分的资料,会让你得到比简单的一句话更合适的答案。

    其二是,你可以在补充信息处继续提出要求。例如请重点参考哪几份材料,提交某一份材料的目的是什么等等。这份模板的设计过程中,我认为我有一个核心思路之一就是「时时修正」。PPT是要讲逻辑的,好在AI也可以讲逻辑。当发现AI的逻辑有跑偏时,要保留这样一个窗口,能随时修正它。这种时候恰恰是最不适合「一键生成」的。

    另外需要说明一下。

    由于参考资料的输入量通常会很大,所以很容易超出多维表格默认的几个傻瓜式字段捷径的上下文限制。这里我使用了自定义AI的字段捷径,需要到API服务商处手动注册获取API。

    (不使用DeepSeek模型的时候那个DeepSeek的必填项随便选即可,不会生效。)

    这次演示中我使用了QwQ-32B模型(QwQ-32B针不戳),上下文窗口是128k。如果你的资料非常非常多的话,可以换成火山引擎的Doubao1.5-pro-256k模型。

    接下来,我们要把AI输出的完整PPT大纲拆到每一页来进一步调整。

    生成大纲的时候我有通过提示词进行约束,PPT不同页之间会使用四个%分隔,我们可以通过这个标记来进行分页拆分。

    需要用到一个多维表格插件,叫做「文本拆分多列」。

    操作如图:

    然后页面就会拆分开来。

    这里我提前预创建了25页,通常我的PPT也不会超过这个页码。

    如果你需要更多,可以手动再加一下。

    4.PPT分页优化

    上一步增加页数后,需要同步增加的还有这个极其不优雅的工作流:

    一时没想到怎么样更优雅地实现字段——记录转换,但总之是自动把上一步的分页写到这一步的每条记录中了。

    到这一步,我们需要优先做的操作就是看。

    检查AI生成的大纲有什么问题,如果有问题,就通过提调整要求,把它拉回正轨。

    还记得上面皮的那一下吗?把面向中国市场的调研Prompt重写成了全球市场。到这一步,就让大纲受到了干扰,国内市场的体现严重不足。

    所以,我在这里对多个页面进行了针对中国市场的调整。

    (如果你有新的补充资料也可以在调整要求里添加,当然也可以回到上面加进信息整理沙盘,然后在这里提示一下。)

    然后,「大纲(优化后)」就是AI按照调整要求调整后的新大纲。

    接下来,就会由DeepSeek-R1结合你的PPT需求和大纲,设计每一页的PPT页面。

    它会提供一个「手绘版」的PPT排版Demo和内容Demo,类似这样:

    你可以直接选中所有的输出结果,复制,然后以纯文本形式粘贴到飞书文档,就可以得到一份PPT设计指导。

    以及,还有最后一项,我让AI生成了每一页PPT演示时候的逐字稿。同样可以全选复制到一份飞书文档中,类似这样:

    5.PPT设计输出

    这页并没有新的东西,只是对前面的结果信息进行了汇总,看起来更加方便。

    参考DeepSeek输出的PPT设计方案,就可以开始制作PPT了。

    我按照它给的建议做了前5页作为示意,虽不见得多好,但它能传递出的信息量,我认为相比一键生成的PPT,要可用多了。

    逐字稿:各位领导好,在这一页,我们来了解一下AI眼镜行业的概况。从市场规模预测的数据来看,AI眼镜行业前景十分广阔。2024年全球AI眼镜市场规模为8.79亿美元,这一数据来源于权威的Markets and Markets报告。而到2030年,全球市场规模预计将达到41.29亿美元,年复合增长率为29.4%。这意味着在未来几年,全球AI眼镜市场将持续快速增长。

    从区域分布来看,北美和亚太地区是两个重要的增长区域。北美地区因为Meta等企业的推动,增长十分显著。Meta生态的驱动,为北美市场的发展注入了强大动力。而亚太地区则是由于制造业需求的增长带动了行业发展,尤其是中国市场发展迅速。

    重点来看中国市场,预计2024年中国AI智能拍摄眼镜市场规模将达到2.6亿元,到2028年,这个数字将飙升至147.6亿元,年复合增长率高达174.5%。这充分显示了中国市场的巨大潜力。同时,预计2025年全球AI智能眼镜出货量将达到375万台,这里不包含AR眼镜。而中国市场出货量预计达35.7万台,同比增长约113% 。这表明中国市场不仅规模增长迅速,在出货量上也呈现出强劲的增长态势。

    通过这些数据,我们可以清晰地看到AI眼镜行业,尤其是中国市场的巨大发展空间。投资1000万开发像rayban – meta一样的AI拍摄眼镜,有望在这个快速增长的市场中占据一席之地,收获丰厚的回报。

    逐字稿:在这一页,我们来深入分析AI拍摄眼镜领域的主要竞争格局。主要从国际头部玩家Ray – Ban Meta,以及中国竞品矩阵两大方面展开。

    先看国际标杆Ray – Ban Meta。2024年,其销量超100万台,定价299美元,这样的成绩使其成为行业内具有重要影响力的产品。从用户评价来看,它存在着优势与痛点。优势方面,超轻框架设计带来了舒适性的提升,立体声场技术让音频质量表现出色。然而,它也有一些不足,平均3小时的续航能力,难以满足用户长时间使用需求,并且数据加密方面的争议,让用户对隐私保护存在担忧。

    再把目光转向中国竞品矩阵。这里面涵盖了科技巨头、新兴公司和传统厂商三种类型。

    科技巨头们纷纷布局AI眼镜领域,像阿里巴巴、华为、小米等。它们凭借在技术、品牌以及生态等多方面的强大优势,积极开展技术研发与产品布局,在市场竞争中占据有利地位。例如,阿里巴巴可进行生态整合,华为推出5G + AI芯片方案,小米走性价比路线,各自发挥自身特色。

    新兴公司同样表现亮眼,像灵伴科技(Rokid)、雷鸟创新、闪极等。它们专注于研发创新,在细分领域推出特色功能产品。比如,Rokid实现了AR交互突破,雷鸟在MicroLED显示上有所建树,闪极提供超长续航方案,展现出强大的创新活力。

    传统眼镜厂商也在积极转型,例如博士眼镜和雅视光学。它们借助自身在眼镜制造和销售渠道的优势,与科技企业合作推出AI眼镜产品。博士眼镜依靠渠道优势,雅视光学凭借镜片技术,试图在新的市场机遇中实现转型发展。

    总体而言,国际头部玩家Ray – Ban Meta在市场上已取得一定成绩,但也存在一些有待改进的地方。而中国的竞品矩阵,各类型厂商凭借自身不同的优势,积极参与市场竞争,整个行业呈现出蓬勃发展的态势。 数据来源:公开市场调研,2024Q2。

    逐字稿:这一页主要聚焦AI拍摄眼镜的用户画像与需求痛点。先来看目标群体。欧美地区的目标群体,集中在北美和欧洲都市,年龄在25到45岁之间,多为白领以及技术爱好者。这部分人群热衷于追求科技潮流,对新技术接受度极高,他们日常的工作和生活场景丰富多样,对智能设备的需求自然也比较高,他们就像是科技领域的先驱者,工作中高频的移动办公场景,让他们对智能设备的依赖程度不断增加,同时,他们注重设备所展现出的科技感,并且愿意为创新功能支付更高的价格。

    再看中国市场。同样,25到45岁人群是重要的目标群体,涵盖了一线城市的职场人士、科技爱好者以及年轻创业者等。中国市场用户基数庞大,随着科技的不断普及以及消费的升级,对AI拍摄眼镜的需求正逐步增长。不过,中国消费者更注重产品的性价比,对本地化功能有较高的期待,渴望产品能整合本地生活服务、社交娱乐等特色功能,精明消费,追求高性价比是他们的消费标签,在社交娱乐驱动下,对本地化服务整合有着迫切的要求,而且相较于欧美地区,对价格的敏感度要高出23%。

    接下来是核心需求。在全球范围内,有大约60%的用户都提到,电池续航是关键需求。对于经常在户外活动,或者处于移动办公状态的用户而言,长时间的续航能力极为重要,这能确保设备在一天的使用过程中,无需频繁充电。想象一下,如果在户外拍摄或者商务出差途中,设备电量频繁告急,那将带来极大的不便。

    隐私保护方面,约40%的用户表达了担忧。随着智能设备收集的数据量日益增多,用户对于自身数据如何被使用、存储以及保护,关注度越来越高。特别是在当前数据隐私法规愈发严格的大环境下,像欧美地区有GDPR合规要求,而中国用户则更偏好数据本地存储,以此来保障自身数据的安全性。

    最后是价格敏感。用户普遍对价格较为在意,都期望能在合理的价格范围内,获得高性能的产品。欧美市场消费者购买力相对较高,但依旧看重性价比;而中国市场竞争激烈,消费者对价格更为谨慎,价格因素在购买决策中占据重要地位。具体来看,欧美市场消费者能接受的价格区间在299 – 499美元,中国市场的黄金价位段则在1500 – 2500元人民币。并且,中国用户还希望产品在价格合理的基础上,能提供更多符合本土需求的功能与服务。综合这些用户画像与需求痛点来看,开发一款像Rayban – meta一样的AI拍摄眼镜,满足不同地区用户的差异化需求,具有极大的市场潜力,值得我们投入资源进行开发。

    逐字稿:在全球范围内,社交媒体如TikTok上AI眼镜相关UGC,也就是用户生成内容的使用率约30%,而KOL,即关键意见领袖合作的ROI,也就是投资回报率可达1:5 ,这充分显示出社交媒体在AI眼镜推广方面的强大传播潜力。而在中国市场,社交媒体生态更为丰富多样,各平台也有着独特的用户群体和传播特点,为我们这款AI拍摄眼镜的推广提供了广阔空间。接下来,我们详细看看针对中国本土的社交传播与推广策略。

    首先,深化社交媒体内容营销。微信生态中,我们可以利用公众号发布深度产品评测、使用教程、创意内容等,吸引用户关注并分享。比如撰写有趣、实用的AI拍摄眼镜创意教程,让用户能够通过我们的内容,更好地发掘产品的功能和乐趣。同时结合小程序开发互动游戏、产品定制等功能,增强用户参与度。例如开发一个AI眼镜创意拍摄互动游戏,让用户在游戏中体验产品的拍摄功能。另外,借助视频号发布高质量的产品展示视频,利用其社交推荐机制扩大曝光。

    微博平台上,我们发起热门话题讨论,像#AI拍摄眼镜新体验#,吸引用户分享自己的使用感受和创意拍摄作品。与科技、时尚等领域大V合作,发布产品相关微博并进行抽奖互动,提高产品话题度和品牌知名度。例如与科技领域大V合作,让他们分享对产品的技术评测,同时开展转发抽奖活动,吸引更多用户关注。

    抖音则鼓励用户创作与AI拍摄眼镜相关的创意短视频,发起挑战活动,如“AI眼镜创意拍摄挑战”,设置丰厚奖励,激发用户参与热情。与抖音上的头部KOL合作,制作具有话题性的视频内容,利用平台算法推荐,实现快速传播。比如和抖音头部KOL一起拍摄有趣、新颖的创意短视频,展示产品在不同场景下的使用效果。

    其次,联合KOL进行场景化展示。科技类KOL方面,与科技评测类KOL合作,进行产品深度评测,展示AI拍摄眼镜在技术层面的优势,如摄像头性能、AI功能实现等。通过专业的解读和对比,增强消费者对产品技术实力的认可。比如让科技评测KOL拆解产品,详细讲解内部构造和技术原理,展示产品的技术优势。

    时尚类KOL,结合时尚类KOL,将AI拍摄眼镜融入时尚穿搭场景,突出产品的时尚外观设计,吸引追求潮流的年轻消费者。展示其作为时尚配饰在不同场合的搭配效果,提升产品的时尚属性。比如让时尚类KOL展示在街拍、时装秀等场景下,AI拍摄眼镜与不同时尚穿搭的搭配,展现产品的时尚感。

    生活方式类KOL,与生活方式类KOL合作,展示AI拍摄眼镜在日常生活场景中的应用,如旅行、运动、聚会等。通过真实的生活场景演绎,让消费者更直观地感受到产品为生活带来的便利和乐趣。例如生活方式类KOL在旅行过程中,使用AI拍摄眼镜记录美好瞬间,展示产品在旅行场景中的实用性。

    再者,结合中国本土特色应用场景推广。本地生活服务方面,与美团、大众点评等本地生活服务平台合作,推出与线下商家的联合推广活动。例如,消费者在指定商家使用AI拍摄眼镜拍摄并分享消费体验,可获得商家优惠券或积分奖励,同时提升产品曝光度和用户粘性。

    社交娱乐方面,结合中国流行的社交娱乐应用,如腾讯视频、爱奇艺等视频平台,开展内容合作。例如,赞助热门综艺节目或网剧,将AI拍摄眼镜巧妙植入剧情,展示其使用场景,吸引大量观众关注。

    最后,构建品牌私域流量。通过社交媒体平台引导用户加入品牌官方社群,如微信社群、QQ群等。在社群内定期举办产品试用活动、用户交流分享会等,增强用户与品牌之间的互动和粘性。同时,收集用户反馈,及时优化产品和服务,形成良好的口碑传播。例如在社群内举办新品试用活动,邀请用户分享使用感受,根据用户反馈优化产品。

    通过以上针对中国本土市场的社交传播与推广策略,借助国内丰富的社交媒体资源和独特的应用场景,我们有望快速提升AI拍摄眼镜的品牌知名度和市场占有率,为产品的成功推广奠定坚实基础。

    逐字稿:接下来为大家介绍的是这款AI拍摄眼镜的技术组件与成本分析。

    先来看关键组件成本结构,这款AI拍摄眼镜的关键组件包含摄像头、显示屏、扬声器、麦克风、电池、处理器、连接模块以及其他如外壳等部件。摄像头成本在10 – 20美元,它能满足拍摄等基础功能;显示屏因类型不同,成本在20 – 50美元;扬声器5 – 10美元,用于提供音频输出;麦克风2 – 5美元,负责声音采集;电池5 – 10美元,保障设备续航;处理器10 – 20美元,处理各项数据;连接模块5 – 10美元,实现设备连接功能;其他部件成本10 – 20美元。涵盖以上关键组件的总BOM成本在70 – 140美元。

    再看AI开发成本,AI功能开发成本预计在5万 – 10万美元之间,具体会取决于功能复杂性,例如语音识别、图像处理等功能的开发难度,都是影响成本的因素。

    在成本控制优势上,我们具备两大突出优势。一是规模效应,以100万台规模生产的话,单机成本约180美元,这其中包括了制造开销。而且随着生产规模进一步扩大,成本还有望持续降低。二是供应链整合,通过整合供应链,部分组件在国内已有成熟供应商,这使得我们在成本控制上占据了一定优势。

    最后谈谈投资与成本关联,本次计划投入1000万资金,部分资金将用于技术开发与专利分析,以此来优化技术组件。在保证产品质量的前提下,有效控制成本,从而提升产品的性价比与市场竞争力,为产品在市场上的成功奠定坚实基础。

    作为演示示例,前面信息筛选部分我做的其实不够充分,AI的Reaserch部分没有校对,图片只是从百度搜索结果随便截了几张。写到这一页我已经发现AI关于AI拍摄眼镜产品的认知有些不太对的地方了hhh,所以这个PPT我就不继续做下去了。(这也是现在Manus这类agent产品做研报的一个比较大的问题,容易被不可靠信源污染。)

    但这套workflow下来让我满意的是,如此出来的成品PPT,内容的信息量远非一句话或一份简单文档生成的PPT可比的

    下面链接中,我放了两个直接使用网站的AI PPT产品,输入主体和文档资料生成的PPT作为对照组。可对比查看。

    https://ilovezhiwai.feishu.cn/docx/FCledPAmGoLy8uxIpygcLcIMnqg

    还有两个小工具:

    1.图表转换工具箱

    图表工具箱中的两个工具都是github上的开源项目,如果觉得好用可以去给它们点点Star:

    https://github.com/markdown-it/markdown-it

    https://github.com/excalidraw/mermaid-to-excalidraw

    一个是Markdown转换工具,上面几页PPT的表格部分,其实都是用这个工具快速转换生成的。

    例如说,这两个AI输出时整理好的Markdown表格:

    只需要把它复制:

    然后粘贴到工具内,就能够立刻输出表格。复制表格到PPT,就能够直接使用了。

    另一个是Mermaid工具,可以快速转换流程图、坐标图和饼图。

    Mermaid的兼容不是特别好,所以我只是附加了Mermaid图表的建议,而没有做进流程中。

    2.AI生成生图提示词

    这个其实是之前做的另一个模板了:

    https://ilovezhiwai.feishu.cn/wiki/Bv1ZwJ5tcimQkYkU4OPcUczNnQG?table=ldxmb17UU0j3gXoV

    这个模板支持生文、生图、生视频。

    如果你观察得够仔细,应该能发现刚才发的几张PPT里面用了一些「照片」:

    这些照片过往都需要上网搜寻,但这几张并不是,它们来自AI生图。

    而且可以通过提示词约束他们的行为动作,甚至穿戴,AI生图真的比找图快多了。

    以上。

    虽然自动化程度不够高,比较散装,跟成型的产品没法比。

    但个人觉得它还是能帮我解决一些我自己的实际问题的。

    我希望在PPT这件事儿上,AI能够更多辅助我的思考和逻辑梳理,而不是帮我简单列个大纲再套个马马虎虎的模板。如果你也跟我是一样的需求,希望你能够喜欢我这个模板。

    也希望将来能有更好用的开箱即用的AI PPT产品。

  • 一些飞书多维表格的AI使用经验分享

    1.多维表格AI上的核心优势在于批处理。

    2.内置的AI字段捷径大多只能针对单一字段配置指令(特异化功能捷径除外,如总结),但有一个例外,叫做「自定义AI自动填充」。它的指令中可以引用多个字段,包括公式。甚至能够设置输出格式。

    3.多数人对单一字段指令的字段捷径的错误理解:指令内容处选择被操作的对象字段,自定义要求处填写提示词。其实不然,指令内容选择的字段内填写的才是提示词,自定义要求处应该是提示词的特异化补充。 举例,简历分析场景。使用字段作为提示词,可以配合公式,通过CONCATENATE()函数串联多个字段内容和手动录入的文本,通过FILTER()函数实现岗位JD跟随记录中的岗位名称变化,这样不同岗位简历的分析提示词就是不同的;如果把提示词写在自定义要求,每一个不同岗位的提示词都要重新手写。

    4.有些AI字段捷径的指令内容只能选择文本,无法选择公式。可以通过工作流自动把公式写入一个新的文本字段,再使用文本字段作为指令内容。之后,为了美观也可以把公式字段隐藏掉。

    5.有些AI字段捷径不支持设置输出格式,通过AI进行数值提取操作后输出的字段格式为文本,不能直接参与计算。不用急着添加辅助列进行格式转换,在计算公式中的文本字段后添加VALUE()函数即可。

    6.如果要把AI提取出的人名转换成人员字段,进行消息推送,可以手动添加花名册辅助表,通过FILTER()公式把花名册中的人员字段拉取过来(其实就是查找引用)。如果要推送相关人员的上级,先在花名册中获取,再使用公式或查找引用拉过来即可。

    7.实测智谱字段捷径的输入token上限比其他捷径更高,使用其他AI字段捷径报错提示词过长时可以使用智谱AI的捷径,名字有点冷门,叫「AI内容生成」。而且支持多种模态。

    8.一些常用的可进行附件操作的字段捷径:

    (批量上传附件在插件中)

    图片识别:AI图片理解(豆包)、AI图片理解(阶跃)、AI内容生成(智谱)、智能巡检(零一),其中阶跃对模糊图片的效果更好,智能巡检进行固定元素打标更方便;

    视频识别:AI视频理解(阶跃);

    PDF操作:Kimi阅读助手、PDF 转文本(免费版),Kimi用于AI总结,PDF 转文本(免费版)则是直接提取;

    网页总结:AI读取网页链接(Webpilot);

    URL转换为附件:链接转附件,可用于外部API生图、生视频返回的url链接到附件的自动转换,也可搭配影刀或八爪鱼使用;

    提取附件的文件名:附件名提取,可以从格式化的文件名中提取信息。例如从BOSS直聘下载的附件简历,获取文件名后可以快速根据文件名拆出岗位名称、base地点、薪资范围、候选人姓名、工作经验。

    (字段捷径中心有很多有意思的字段捷径,此处只列举个人最近用过的,更多的不一一推荐了,建议没事儿多逛逛)

    9.通过HTTP请求调用外部大模型的API: 可使用工作流或自动化实现,需要参考对应大模型的API文档,请求方法一般为POST。 以DeepSeek为例,参考curl方式。

    请求URL即为:https://api.deepseek.com/chat/completions

    请求头为两个键值对:

    Content-Type: application/json

    Authorization: Bearer <DeepSeek API Key>

    请求体选择raw格式,参照API文档录入JSON代码。

    如上图,其中model即为模型参数(图中是V3模型),messages即为系统提示词和用户提示词。 图示只是基础内容,temperature、max_tokens等也可以在此处传参配置,具体可查阅文档。 填写后应如图,在用户提示词中引用需要提交给AI的字段:

    但只是这样配置请求体,AI返回的是一整段囫囵的结果,参数信息、思考过程、输出结果混在一起,不能直接使用。

    所以还需要配置出参的响应体。

    以Deepseek为例,文档:https://api-docs.deepseek.com/zh-cn/api/create-chat-completion

    我们需要的信息在下图红框部分,"content"是输出结果,"reasoning_content"是思考过程。

    格式为JSON格式。

    于是,响应体参考上图,写作:

    {
            "choices": [
                {
                    "message": {
                        "content": "{content}",
                        "reasoning_content": "{reasoning_content}"
                    }
                }
            ]
    }

    如图:

    接下来,通过修改记录动作将输出结果和思考过程录入到相应字段。 选择上一步的「发送HTTP请求」,点击继续,找到"content"和"reasoning_content"选择即可。

    细节可参见这两个模板的工作流部分:

    https://ilovezhiwai.feishu.cn/wiki/IuNpw1zNZiw0DLkJtMQc0kocnhh?table=tblmKn0mcctVlh7y&view=vewltkSkYA

    https://ilovezhiwai.feishu.cn/wiki/Bv1ZwJ5tcimQkYkU4OPcUczNnQG?table=ldxmb17UU0j3gXoV

    10.开发自己的字段捷径,可参考开发指南:

    https://feishu.feishu.cn/docx/SZFpd9v6EoHMI7xEhWhckLLfnBh

    使用AI编程工具Trae进行开发。虽然Claude的上下文窗口够长,但Trae对输入框的输入长度进行了限制,长文档无法通过复制粘贴的方式发送。但可以将文档下载(最好改成.md格式),在AI对话中引用即可。

  • 实测通义万相Wan2.1:可能是目前支持本地部署的最强图生视频大模型 | 附本地部署教程

    最近两天在玩阿里新开源的Wan2.1。

    网上很多关于这个模型的文生视频演示,但图生的不多,所以我想说说图生。

    敲了一堆字又删了,还是直接上演示。

    此刻,我的电脑桌上方的置物架上摆着一个超级索尼子的兔女郎手办,长这样:

    随手一拍,用作素材。

    这套兔女郎装,我看她高跟鞋有点高,脚腕子应该是站酸了。

    不如就让她活动活动:

    腿也麻了?那做个操?

    注意看影子的跟随,这就是部署在本地的Wan2.1跑出来的效果。

    如何?

    翻素材的时候刚好翻出来一年前在本地跑的视频,也放上来给大伙看下,长这样:

    不由感慨,技术进步真是太快了。

    再来跟扛把子可灵做个对比吧。

    这是我用SD1.5生成的图片:

    那时候超级喜欢双手插兜,经历过的应该都懂。

    她绝对想不到有一天我们会让她把手从口袋里拿出来撩头发。

    提示词:

    一位身着白色水手服的青春女学生,黑色直发齐刘海,面容清秀,红润的嘴唇。站在校园楼梯间,阳光透过窗户斜射进来,在她脸上和白色衣服上形成温暖的光斑,背景是模糊的楼梯和栏杆。她轻轻眨动眼睛,嘴角缓缓上扬形成浅浅的微笑,随后低头看向地面,手指不经意地轻抚过垂落的发丝,将它们别到耳后,又将双手轻轻放入校服口袋,微微侧头望向远方,眼神中流露出些许思考和憧憬的神情。镜头采用近景拍摄,柔和地捕捉她细微的表情变化和动作,随后缓缓平移至侧面,展现她站立的优雅轮廓。整个场景充满宁静与温暖的氛围,洋溢着青春的气息,日系青春电影风格,柔和复古的色调,如同胶片相机般带有淡淡的怀旧感。

    先来Wan2.1。

    参数使用fp8/14b/480p/20steps/24fps,这样生成3-5s的视频,RTX4090显卡基本可以控制在5-10分钟以内,与线上平台相当。

    生成两段吧,一段3s,一段5s。

    3s版:

    5s版:

    接下来可灵。

    直接使用最新的可灵1.6,上传图片进行首帧生成。可灵视频长度可选5s和10s,有标准和高品质两个版本。

    我们统一选择5s长度,两个版本各生成一条。

    标准版:

    高品质:

    单以成片效果来看,个人觉得最强的还是可灵1.6的高品质模式,不得不说,可灵确实强。但Wan2.1的水准我认为可以算在可灵标准版和高品质版之间,尤其是指令跟随,明显强过可灵标准版。

    并且,当你使用家用消费级以上的显卡时,也可以继续提高Wan2.1的精度、步数和分辨率,获得更好的效果。

    对AI视频领域有过了解的朋友都知道,图生视频在工程上的重要性远比外界想象的大。如果只使用文生视频,成片难度简直几何倍数提高。

    PS:昨天AI.TALK汗青老师新发布的短片《LONELY》,完全使用Google VEO2文生视频创作,没有用到图生视频,牛逼。

    同时,图生视频在视频创作之外的通用工作场景的应用,我认为也比单纯的文生视频更高。

    比如我之前介绍Mermaid这篇文章:DeepSeek-R1使用技巧:学会这一句Prompt,让AI帮你生成多种酷炫图表的封面,如果有人还记得的话,长这样:

    假设说,我现在正在制作一个演示用PPT,这是我的PPT封面。我想让它更酷炫一点,我想让水和鱼儿都动起来,但背后的Mermaid文字不要变化,怎么办?

    这种需要,Wan2.1图生视频就可以完成。

    提示词:

    一幅动画风格的美人鱼场景,橙红色"Mermaid"文字悬浮在画面上方。深蓝色水域中,红发美人鱼少女浮在水面,身着橙红色贝壳上衣,长发在水中轻轻飘动,眼睛眨动,嘴角微微上扬。周围的橙红色鱼儿灵活游动,有的从她身边穿过,有的在深处游弋。水面泛起涟漪,光影在水下闪烁变幻。镜头采用固定视角,捕捉水中生物的自然流动感。整个场景充满梦幻而神秘的氛围,动漫插画风格,色彩对比强烈,蓝色水域与橙红色元素相映成趣。

    生成的视频:

    上面两张底图都是来自AI生成,使用照片的话可以得到更真实的效果。

    例如这张图:

    提示词:

    镜头从侧面捕捉一位身着黑色西装的精英商业人士,站在装饰华丽的走廊中,手持一杯咖啡。他面容沉稳,眉头微皱,眼神中透露出思考和决断。他将咖啡杯缓缓举至唇边,轻啜一口,随后微微低头注视杯中液体,眼神中闪过一丝满足和释然。背景是米色墙壁和金色相框,营造出正式而庄重的氛围。镜头采用近景拍摄,捕捉他饮用咖啡时微妙的表情变化。整个场景充满力量与沉着的氛围,商业纪实风格,色调冷静而克制。

    输出视频:

    以及,Wan2.1作为能在本地部署的开源模型,就会有一些线上平台无法比拟的优势,SD玩家懂得都懂。

    友情提醒:小擦怡情,大擦伤身。

    再来说说本地部署。

    说先还是要给个大大的赞的,相比隔壁阶跃的Step-Video-T2V,上来就要80G显存,万相起码有的玩。

    但说实话,Wan2.1满血本地运行还是很吃力的,毕竟是生成视频,算力要求比Flux.1肯定是高。图生视频是14B模型,我自己用4090亲测,还是fp8量化的480p用起来更舒服一些,再高的精度或者分辨率,就会让生成时间变长,导致体验下降。

    结合我自己的经验,不太建议4070Ti以下的玩家进行本地部署。除非你是文生视频需求。

    万相贴心地准备了一个1.3B/BF16精度的文生视频模型,4070就可以流畅运行。4090生成一个3s视频的时间更是不到一分半。

    本文插入视频数量已经到达上限了,效果就不放了。个人评价是,除非你要的量大,或者说在这个生产流程中介意水印,那使用线上文生图也是不错的选择。

    但我认为本地部署依旧可以聊聊。为什么呢?因为很多人喜欢讲卡,却忽略了算力租赁这件事儿。

    关于AI时代个人可以获取的buff,我一直有点粗浅的见解:有两项云服务,可能会越来越从ToB转向ToC。一个是云服务器,一个是云端算力。

    个人云服务器,我之前的文章经常有提到。不到100元/年的租赁价格,可以获得一个随时随地都能访问的公网IP,加上一台更适合生产的Linux主机,配置不高但对个人来说够用。有了它你就可以调用各种AI的API,通过AI编程的方式把它捏成最适合自己的形状,然后它就是成了你行走江湖的私有外挂,甚至你也可以开放给别人使用,提供服务。

    个人云端算力,其实也可以算作云服务器的一种,只是配置更高。很多人跟我说你有4090如何如何,确实,舍得花钱买显卡也是个执行力壁垒。但我可以提醒一下各位的是,很多算力租赁平台租用4090也就是网吧的价格,从1块多到几块钱一小时,足以完成一些不需要长期跟进的事情了。这就像相机,有点反常识,都说胶片贵,冲洗翻拍还要加邮费,但买台数码按不够一定快门次数,还真不好说谁成本更高。

    这里没接到广告啊,也不推荐平台,大伙儿自行判断。我就提醒一句,如果算力过于便宜,尽量不要放重要文件和数据进去。

    下面是个人总结的一个路径较短且无需魔法的部署教程:

    1.到B站下载一个秋叶ComfyUI整合包。

    具体地址在下面这个视频的评论区:

    https://www.bilibili.com/video/BV1Ew411776J

    解压即用,记得更新版本到最新。

    2.到魔搭社区下载Wan2.1模型。

    魔搭社区是阿里云旗下的AI大模型开源社区,国内可以直接访问,而且文件下载速度很快。

    我们不去直接下载通义万相发布的模型,那个部署起来需要一定的专业技术知识。我们去下载Comfy Org打包的模型,只要你上一步把ComfyUI更新到最新,那就不需要再安装任何的节点,开箱即用。

    具体地址是:

    https://www.modelscope.cn/models/Comfy-Org/Wan_2.1_ComfyUI_repackaged/files

    目录结构大概是这个样子:

    然后下载模型文件(即split_files文件加下的内容)。

    一共4个子文件夹:

    clip_vision下只有一个clip_vision_h.safetensors 文件,下载到ComfyUI目录Comfyui/models/clip_vision/。

    vae下也只有一个wan_2.1_vae.safetensors文件,下载到ComfyUI目录ComfyUI/models/vae/。

    text_encoders下有两个文件,分别是fp8和fp16精度的文本编码器,可以结合自己的电脑配置选其一,或者两个都下载。

    diffusion_models下的文件较大,可参考下图,根据自己的配置按需下载。

    做一个简单的说明:

    ①分辨率高,规模大,精度高的,更吃配置。

    ②文生视频1.3B的bf16和fp16效果基本上不会有什么差距,理论上bf更适合训练,fp推理优化更好。

    ③文生视频模型的分辨率,根据网上的信息,应该480p和720p皆可生成。

    ④下载文件夹内的文件或直接打包下载文件夹皆可,ComfyUI可以选择二级文件夹下的路径。

    3.下载工作流。

    ComfyUI提供了官方示例工作流,在example workflows_Wan2.1文件夹下。就下面这三个,可以直接下载:

    这个几个官方工作流没有加视频导出节点,如果你需要导出为视频,可以手动在最后串联一个video combine节点,格式选择h264-mp4或h265-mp4即可。

    如果不会,也可以直接使用我添加好视频导出节点的工作流:Wan2.1工作流

    4.导入使用工作流。

    导入工作流十分简单,启动comfyui后会自动打开一个这样的页面,把工作流json文件直接拖进去即可。

    然后就可以生成你的视频了。

    以上就是全部内容了,感谢关注!

  • Wan2.1工作流

    链接: https://pan.baidu.com/s/1JTKPfhSXmGbpjDOg-HheDg 提取码: 842q 复制这段内容后打开百度网盘手机App,操作更方便哦
    –来自百度网盘超级会员v9的分享

  • 一个UP主开发的「卡片式AI写作助手」项目,花一晚上改了改,并试图教你怎么用 | 5000字长文

    星期天逛B站发现一个挺有意思的卡片式AI写作助手项目,原视频2w+播放2k+收藏,收藏率接近10%。up主「良我叫什么」用Cursor开发了这个项目,GitHub有200多Star。

    原视频和原项目的GitHub链接先放出来:

    https://www.bilibili.com/video/BV1QYKWeFE16

    https://github.com/ErSanSan233/prose-polish

    好好,我知道你不愿看视频。那就祭出我之前我之前做的B站视频分析小网站——我让AI开发了一个自动分析B站弹幕的网站——交给AI总结一下:

    插播一段,说到这个网站,最近我把AI又换回DeepSeek了,现在用的火山引擎的API,速度比别家快不少。不过公开发布出来以后tokens消耗还蛮快的,已经干掉我好几管豆包的50w体验tokens了,还充了点钱。

    火山引擎的API怎么用之前发过,不再赘述了,可以看这篇文章的中间部分:

    DeepSeek服务器总繁忙怎么办?不愿稍后,不如试试通过API续命你的聊天儿

    说回这个「卡片式AI写作助手」项目。

    其实它有点像工作流,但专门为文本工作而生,没有功能节点,只能串联文本节点。

    它的基本工作流程是这样的,左边一栏是提示词卡片,右边是文本内容卡片,在提示词卡片中,以占位符{{text}}指代需要处理的文本(段落是{{p1}},这个看预制卡片的内容就懂了)。

    当我们使用连线将提示词卡片和文本卡片相连,点击提交时,这个操作的意思就是将这段提示词应用于它连接的文本。如下图,就是将原文卡片中这段文字进行规范表述处理,得到了结果卡片中的这段文字。

    又例如下图,意思就是在原文段落1和段落2中间生成一个过渡的段落,让这两段文字的衔接不那么突兀。

    如果你已经分别处理好了多个分段落,想对整个大段落进行处理,那要怎么办呢?不需要多余的复制粘贴,看到文本卡片左下角还有紫色的插头没?把它跟下一张卡片连接起来即可。

    例如这样,进行一个翻译:

    被翻译的内容就是这三小段连接成的一大段。

    当然能实现的不止于此,你可以根据自己的需求无限添加适合自己的提示词。这么说吧,凡是你在聊天窗口能写的提示词,在这里一样能写。例如昨天早上我就写了一个叫做「工作嘴替」的提示词,放在了这里面。

    昨天早上我比较忙,处理事儿来不及做太多思考,所以记事儿都是记的一些第一直觉想到的细碎的片段,且措辞稀碎,像这样:

    就读起来很吃力是吧?说的些啥啊这是……

    然后我把上面的这个「嘴替」卡片,跟我这段说的乱七八糟的话相连,选择DeepSeek-R1模型,提交。

    得到的结果:

    怎么样?清晰多了吧。

    这就是这套卡片式AI系统的基本运作机制。

    那么如何在自己的电脑上部署使用呢?

    推荐查看原作者「良我叫什么」的视频,Win和Mac的方式都有介绍:

    https://www.bilibili.com/video/BV1QYKWeFE16

    不是我懒得写,视频确实讲得很清楚。

    接下来就来说说我改的部分了。

    同样的,先把GitHub页面放在这里:

    https://github.com/Liu-Bot24/prose-polish-fork

    如果你看了原视频,应该能发现我上面的截图跟原视频稍稍有点不一样。

    因为我也用Cursor,对原作者的这个项目做了一些小小的易用性优化:

    1.双击添加和快速复制卡片

    原项目添加新的文本卡片,必须点击右下角的添加按钮,且添加出来的卡片需要双击才能进入编辑状态(粘贴文本)。

    我修改的这个版本,你可以通过在任意你想添加文本卡片的空白位置双击,实现卡片的添加。并且新添加的卡片,默认就是编辑状态,方便你直接粘贴文字。右下角的新建卡片按钮依旧保留,新加的卡片也是,默认进入编辑状态。

    并且还支持了按住ctrl键拖动卡片复制的功能。

    2.快速模型选择选项

    原项目切换不同大模型,需要在提交按钮的右侧展开菜单进行选择,频繁切换有些繁琐。

    这里我在保留了下拉菜单的同时,加入了快速选择选项。

    比如说你上一个需求使用GLM-4-FLASH处理,这个需求需要用到DeepSeek-R1这样的推理模型,然后下一次处理一个另外的需求的时候可能要用到GEMINI,这样频繁的菜单操作就很麻烦。现在,还可以直接在提交上面进行点选,点到哪个用哪个,十分方便。

    并且,这里的选择,跟在菜单里的选择是相互关联同步的。唯一不同的是,「自定义」模型我没有加入到快速选择里。如果你在菜单中选择并配置了自定义模型,这时候自定义模型就会生效,但快速选择中不会有任何模型被选中。

    3.预制提示词卡片的复制和排序

    原项目的预制提示词卡片虽然可新建,但是不支持排序和复制。

    我在原项目的基础上加入了卡片复制功能。点击右上角的复制按钮,就会在原卡片下方自动复制出一个相同卡片,但标题后面会添加序号以做区分。你可以在原卡片的模版上进行修改,创作新的提示词卡片。

    并且在左下角添加了拖动柄,拖动拖动柄可以对这些卡片进行排序操作。

    4.多预制提示词并行执行

    原版每次只支持激活一个提示词卡片。如果要继续执行下一张卡片,需要等这次的流程跑完。

    经过我的修改后,现在它支持一次选中多个提示词卡片,同时启动执行。

    比如说我想同时对两段话进行翻译。

    那我就可以把翻译卡片复制一份「翻译2」,然后都选中启用,再点击提交。

    这时候就会双线程执行,同时翻译这两张卡片。

    如果你暂时只想翻译其中之一,也可以保持连线,取消不想启用的提示词卡片的选择,再点提交,就会执行你选中的提示流程。

    多线程执行的时候,原版左下角的一个输出位自然是不够的了。

    所以我把结果输出改成了直接生成卡片,就生成在该条提示流最后的一个文本卡片旁边。原来的结果输出位置,改成了生成状态指示器。

    5.预制提示词卡片自动保存入本地浏览器缓存

    原项目的提示词卡片支持新建添加,但无法自动保存。需要手动导出,下次使用时再进行导入,否则每次刷新页面都是默认的三个卡片。

    我在这里加入了浏览器缓存功能。只要你不清除浏览器缓存,刷新页面后,所有自建提示词卡片仍然会保留,不会像原来一样消失,需要你重新手动导入回来。

    卡片的排列顺序也会自动保存,你可以把最常用的一张卡片放在最上方。每次刷新时,排序在最上方的一张提示词卡片会被默认选择,你可以直接连线并提交处理。而不需要像原版一样,每次都要先手动点击提示词卡片激活。

    当然你要更换浏览器和设备,或是清除浏览器缓存,还是需要进行手动的提示词导出和导入操作的。

    缓存难免有小概率出bug,所以我也加入了仅针对本网站的浏览器缓存清除功能,叫做重置所有卡片。点击这个按钮后,本应用对应的缓存会被清除,提示词卡片恢复到默认三张卡片的状态。

    值得一提的是,这里原版有一个删除所有卡片功能,因为跟重置卡片效果有重叠,所以被我删除了。如果使用重置,但要达到删除所有卡片的效果,你还要手动把三个初始卡片再删一下。但这个应该是小概率事件吧,好像没有什么动机非要全部删除……

    不过有一点啊,原项目的apikey是写在js文件里的,会暴露到前端。所以如果发布到互联网上,使用的用户有心的话,是可以获取到你的apikey并拿到其他地方去使用的。

    一般比较好的做法是像下面那个头脑风暴项目一样,把敏感信息放到环境变量.env文件里,这样就不会在前端泄露。

    我已经改完了上面说那些才发现这个问题,折腾不动了就没有继续改。然后很遗憾也没有办法直接把网站放出来了。

    如果有真正自己会写代码的大佬看到,可以帮忙修复一下。

    提醒下大家,如果要把这个写作助手部署到服务器上,还是避免下大规模发给生人。

    本地下载后的使用方法依旧可以参考原UP主视频,说的很详细,我就不再文字敲一遍了。

    我来说说怎么把这个套东西部署到自己的服务器上,让你自己可以脱离空间的限制,随时随地使用,并且还能发给别人用。

    我的整个部署方案基于宝塔面板,基本不怎么涉及命令行和代码操作,你应该很容易看懂。

    (如果你不知道怎么装宝塔面板,等我写完这段到文末继续说,送佛送到西。)

    之前写这个AI脑暴项目《开源一个由AI生成的AI头脑风暴项目》的时候,就有人问应该要怎么用,这次干脆也一起说了。你可以结合这两个项目的部署一块儿来理解。

    先说头脑风暴的。

    进入GitHub页面:

    https://github.com/Liu-Bot24/AI-BrainStorm

    我们尽量避免命令行操作,就不用git clone了,直接下载ZIP包。

    然后在宝塔面板左侧菜单点击文件,打开文件管理器,进入到这个目录:/www/wwwroot/。

    然后把刚才下载的压缩包上传并解压。

    如果是在GitHub下载的,那文件夹应该如下:

    在文件管理器打开这个文件夹,修改.env.example文件中的AI模型模型ID、API KEY、接口地址为自己的。(豆包、智谱、通义、讯飞星火、DeepSeek等等都有免费额度赠送。) 然后把.env.example文件名修改成.env即可。

    如果你更换了模型,记得到/static/js/文件夹下把main.js文件开头这里也改一下:

    (这里看着像在操作代码,实际上只是在改文件名和复制粘贴密钥。)

    然后找到左侧菜单,网站——Python项目——添加Python项目。

    然后项目路径选择刚才上传的文件的文件夹,项目名称会自动填写,Python版本安装3.8版本,启动方式选择命令行启动,启动命令填写:

    /www/server/pyporject_evn/AI-BrainStorm-main_venv/bin/python3 -m uvicorn app.main:app –host 0.0.0.0 –port 8000
    

    (记得防火墙开启8000端口)

    环境变量无,启动用户www,安装依赖包。

    然后等待一段时间,宝塔这时会自动创建虚拟环境并安装依赖。

    完事儿后项目状态自动变成运行中状态(还没有就手动启动一下)。

    然后,在浏览器地址栏输入http://你的服务器ip:8000/,就可以打开AI头脑风暴页面了。(如果打不开,多半是防火墙没有放行8000端口。)

    这就完成了,简单吧?

    然后是今天的这个卡片式AI写作助手项目。

    依旧是进入GitHub页面:

    https://github.com/Liu-Bot24/prose-polish-fork

    直接下载ZIP包。

    但要注意,Branches选择update-project这个分支,另一个分支下是原版。

    同样是上传到/www/wwwroot/,解压。

    刚才的脑暴是Python项目,而这是个基于Node.js的项目,所以来到网站——Node项目。

    先进入Node管理器,安装一个比较新的LTS稳定版本的Node版本即可。

    然后添加一个Node项目。

    项目目录选择刚才解压的目录。

    项目名称自定义即可。

    启动选项选择自定义启动命令,输入npm start。

    端口5888。

    (一样需要到防火墙设置放行这个端口;我在代码中使用的是这个端口,如果需要更改,要连同代码一块更改)

    运行用户www,包管理器npm,Node版本选择刚才安装的版本。

    然后保存设置,同样等待宝塔自动创建完成后,项目自动运行。

    接下来访问http://你的服务器ip:5888,就可以打开WEB界面了。

    注意,你需要到项目目录下,找到config.example.js这个文件,填写上相应的apikey,保存后修改文件名为config.js,才能正常调用AI能力。

    这里我使用的几个接口说一下,如果你要继续沿用就到对应平台获取key:

    通义的apikey去阿里云百炼平台获取,模型调用的是qwen-max-2025-01-25,有100w免费tokens赠额;

    DeepSeek使用的硅基流动接口,apikey需要去硅基流动获取;

    (以上两个平台的apikey获取方法,在DeepSeek服务器总繁忙怎么办?不愿稍后,不如试试通过API续命你的聊天儿中都有提到)

    智谱使用的glm-4-flash免费模型,apikey直接去智谱开放平台官网获取;

    GEMNI的apikey稍微麻烦了一点,需求使用美国IP,前往Google AI Studio(https://aistudio.google.com/apikey)获取,我使用的也是免费模型,gemini-2.0-flash。

    你也可以自己去script.js这个文件修改api的base_url,比如说你想把DeepSeek的API改回官方的,只需要修改下面红框部分:

    把base_url改成https://api.deepseek.com/v1,V3和R1模型分别改成deepseek-chat和deepseek-reasoner。

    如果你想彻底更换成自己喜欢的AI,还涉及到前端的修改,我建议你使用 Cursor 或 Trae,让它们帮你一键修改。

    接下来再说宝塔面板。

    如果你有一个现成的Linux服务器,其实可以直接到宝塔面板的官网

    https://www.bt.cn/new/download.html

    通过SSH使用这个在线安装工具,直接一键安装。

    官方页面也有常见问题的问答。

    同时他们也有Window版本的面板,但这个我就没用过了,需要你自己探索。

    另外还有个更快捷的方法:在购买服务器直接一键部署。

    主流云服务器基本都支持直接在购买时部署好宝塔面板,以阿里云为例:

    https://www.aliyun.com/minisite/goods?userCode=r18u1tal

    一般我们最常买的就是轻量应用和ECS经济e实例这两款2G的服务器,搭个API网页应用完全够用。

    这两款性能差不多,差别在于68的次年续费涨价,99的续费同价。年抛选前者,一直用选后者。

    如果选择轻量应用服务器,部署宝塔面板的方法:

    直接在下单时,镜像选择应用镜像中的宝塔面板镜像。

    如果选择ECS服务器,部署宝塔面板则是:

    下单时,把镜像切换到云市场镜像,然后在下拉菜单中选择宝塔面板。

    而后进入到服务器控制台,按照提示获取到管理员账号密码和登入端口,就可以登入宝塔面板了。

    腾讯云等平台大同小异。

    进入宝塔面板后,套件选择推荐的LNMP一键安装即可。

    现在,就能接上上一段文件上传的步骤了。

    如果你准备使用Cursor直接在服务器上修改代码。

    需要先在「安全」菜单中开启SSH密钥登录,然后下载密钥,文件名应该是「ip地址_id_XXXX」的形式,先存起来,稍后会用到。

    在Cursor的应用市场中,安装Remote – SSH这个插件。

    然后在Cursor的新窗口中,就可以选择通过SSH连接SSH主机了。

    首先要先点击「配置SSH主机…」进行一下配置。

    这里一般默认会有两个config文件,用哪个都行,比如我用第一个。

    C:\Users\用户名.ssh是个本地文件夹,你可以找到这个路径打开,然后把刚才下载的密钥粘贴过来,并修改密钥的文件名为key.id_rsa。

    操作好后,密钥应该跟config文件同级。

    编辑config文件的内容为:

    Host 服务器ip(就是刚才密钥没改名之前文件名里的ip)
    

    然后再次SSH连接,你就能看到你的服务器主机(显示为IP地址)了,点击它即可。

    第一次连接的时候需要选一下系统,选Linux。(前面用了Windows版宝塔的除外,那个真没用过,要靠你自己摸索一下。)

    SSH连接成功后,打开刚才在宝塔面板解压出来的项目文件夹。

    然后,你就可以通过Cursor,尽情地远程开发你的项目了。

  • ComfyUI | 如何AI放大照片不模糊?推荐一个冷门的图片放大模型

    大语言模型和DeepSeek说吐了,换换口味。

    分享一个我自己一直在用但比较冷门的图片放大模型,这个模型国内用的不多,但真的很好用。它能够把一张图片几乎无损地进行放大,而且重绘幅度很低,尽可能保持原汁原味。

    不卖关子,模型名称:4xNomos8kSCHAT-L。

    演示下效果,左边放大后,右边原图:

    这个模型Google可以搜索到,懒得搜的话也可以直接看这篇文章:4xNomos8kSCHAT-L

    (使用这个模型需要你有一台配置还可以的电脑或者云电脑,并且掌握ComfyUI的基础操作,如果暂时没有的话,只能先收藏将来再战了。)

    很多人都喜欢用SUPIR做图片放大,当然SUPIR也不错。

    但它的问题我认为也挺明显。

    第一,大图爆显存。

    原图比较大或者放大倍数大都容易爆显存。

    300万左右像素的照片放大一下,这个需求其实不过分啊。

    但作为4090用户,我可以证明,这个事情消费级显卡真不太好搞。

    第二,SUPIR要用到两个模型。

    一个SUPIR模型,一个SDXL模型。

    有这个SDXL模型就意味着它会重采样,就容易引入不必要的变量。

    哪怕你只用画质prompt,s_noise调很低,它重绘了就是重绘了。

    比如说我用大家在SUPIR上最常用的Juggernaut模型,只用画质提示词,放大这张妹子照片:

    放大细节,这脸前面还有后面墙上的头发是怎么回事啊:

    把SDXL模型换掉会有不一样的效果,比如我其他参数不动,换成LEOSAM HelloWorld新世界模型,这个头发问题就没了,但因为HelloWorld这个模型人像自带磨皮,反而看起来会有点糊。

    多放几张。

    Juggernaut:

    HelloWorld:


    Juggernaut:

    HelloWorld:

    (SUPIR其实挺适合老照片修复的)

    感受很明显吧。

    受SDXL模型影响很大。

    而且,一旦涉及到商用,多一个SDXL模型会让问题复杂很多。

    这就是4xNomos8k的好了。

    就一个放大模型,独立把事儿解决。

    放大4倍,就这么简单:

    可以商用。

    而且尽可能忠实于原图。

    po一些作者在reddit上发表观点(Google机翻凑合看):

    所以这个放大模型非常适合对实拍照片进行放大(当然破损老照片除外)。

    比如说刚才放大的这张世界名照:

    来看看原图和放大后的尺寸:

    从不到300w像素直接放大到接近4500w像素。

    这还是原图小,实际放大到1.5亿像素以上也完全没有问题,也不会爆显存。

    这个尺寸的图片无法上传,直接截图细节吧,左边是放大后,右边是原图:

    再找个原图够小的,比如这张:

    原图512*350,这都能算糊了吧?怎么不su…好了我把梗收回去。

    放大之后:

    细节:

    这次把对比节点反过来接一下,右边是放大后的,注意痣的位置,完全没有变化,完全忠实于原图。

    并且注意一下衣服的细节,都足够还原:

    我们再用最熟悉的4x-UltraSharp来一次。

    放大之后:

    下图左4x-UltraSharp,右4xNomos8kSCHAT-L,

    UltraSharp自带锐化,乍一看更清晰,然而细看不够自然。

    尤其是细节上,UltraSharp明显失真。

    4x-UltraSharp毛衣细节⬇️

    4xNomos8kSCHAT-L毛衣细节⬇️

    4x-UltraSharp人物毛发⬇️

    4xNomos8kSCHAT-L人物毛发⬇️

    如果你说,我就是希望能有一个生图模型重绘一些细节出来,我也不准备商用,也不介意跟原图的完全一致,就是想重采样放大获得更好的图片品质。

    当然也没有问题。

    我放大模型还用4xNomos8kSCHAT-L,重绘模型给你换成fp16的flux.1 dev怎么样?

    这个加强足够吧。

    皮肤和嘴唇的细节:

    flux重绘+放大⬇️

    原图放大⬇️

    原图⬇️

    眉毛和头发的细节:

    flux重绘+放大⬇️

    原图放大⬇️

    原图⬇️

    模型文件放到models\upscale_models文件夹中。

    Enjoy。

  • DeepSeek-R1使用技巧:学会这一句Prompt,让AI帮你生成多种酷炫图表

    直接开门见山了,这一句Prompt就是:

    请使用mermaid帮我画………
    

    为了避免说起来干巴巴的,先展示个效果吧。

    输入Prompt:

    做一个30天假期的减肥规划,请用mermaid帮我画成甘特图
    

    输出的甘特图:

    怎么样?效果还可以吧。

    那我们接着说。

    前面我们科普过Markdown:为什么AI的回答复制出来总是带有「##」、「**」、「-」等无用符号?如何才能去掉它们?

    Markdown可以通过简单的文本语法表示多种格式,今天说的跟它类似,可以通过简单的文本语法创建多种类型的图表,并基于JavaScript完成可视化渲染,叫做Mermaid。

    上面的减肥计划,在AI对话窗口中,其实长这样:

    点击代码框右上角的复制,然后粘贴到提供Mermaid渲染功能的网站,例如mermaidchart.com或者mermaid.live,就可以转换成可视化图表。

    下面设置几个具体的场景来演示一下吧。

    1.比如说,我们今天在「人人都是产品经理」这个网站上读到一篇文章,介绍的是《活动策划的标准SOP流程》。我想把它梳理并总结下来。

    那我就可以复制整篇文章,然后告诉DeepSeek-R1,请帮我把下面这篇文章梳理成mermaid图表。

    于是我们就得到了这样一份类似思维导图的图表:

    这篇示例文章的原文不怎么复杂,而且图片比较多,所以得到的图表相对简单。如果你使用你们公司内部的流程或者SOP,或者正在学习的课程等等,会有更好的效果。

    2.绘制一份行业知识图谱。比如说,绘制一份大语言模型行业的知识图谱。

    于是我们就得到了一份知识图谱:

    3.请使用mermaid帮我画出双十一当天用户进入优衣库天猫直播间下单的购物旅程图。

    于是我们就得到了一份用户旅程图:

    4.同时开始深度思考和联网搜索:请使用mermaid帮我画出2023年和2024年云服务器市场份额占比。

    于是我们得到两个饼图:

    5.请用mermaid帮我画出普通家庭宽带网络的协议交互图。

    于是得到图表如下:

    6.同时开启深度思考和联网搜索:请总结并梳理罗振宇2025年跨年演讲的演讲稿,然后用mermaid帮我把它画成思维导图(mindmap)。

    *这里DeepSeek有点反应不过来,需要提示一下使用mindmap画思维导图,否则会画成前面第1条那种流程图形式的思维导图

    于是得到思维导图:

    7.同时开启深度思考和联网搜索:请使用mermaid帮我画出网站acfun的发展历程。

    这个案例里DeepSeek突发奇想使用了甘特图来画,不过倒也合理:

    也可以明确要求它用时间线来画:

    8.同时开启深度思考和联网搜索:请用mermaid帮我画出历年天猫双十一GMV的变化柱状图(xychart)。

    *这里也需要提示一下deepseek使用xychart图表才能正确绘制坐标柱状图。

    于是得到柱状图:

    以上几个演示案例基本覆盖了最常见的几种Mermaid图表,相信你也已经看懂了。

    但我并不想到这里就结束。

    之前我在:DeepSeek的API,我们普通人都能用在哪?这篇文章表达过一个观点,我想在这里重申一下:

    在过去,掌握一些搜索能力的人,包括我自己在内,会吃到一部分小红利。因为我们总能判断出针对某一些问题,是否可能存在一些现成的解决方案,然后通过搜索,找到这些已经存在于互联网上的现成解决方案或者说小工具。然后利用这些现成的旧轮子,快速解决自己遇到的新问题。

    但随着AI的进步,解决很多问题的最优路径,可能不再是找到一个现成的好方案来解决问题,而是直接用AI针对眼前的问题生成一个100%匹配的解决方案直接莽过去。

    这也是我认为的AI时代解决问题的一个新范式。

    之前Markdown那篇文章评论区有很多人留言,对为什么我推荐写一个新的转换器来处理Markdown标记表示不理解。

    有人说这种符号用手一个一个直接删了了事,并不麻烦;有人说要到word查找替换;有人说使用腾讯文档;有人说选择到网上找一个开源的Markdown编辑器导成PDF;有人选择安装VSC和Typora解决;有人说Markdown本身就允许人类直接阅读,没有必要转换;有人说选择直接放弃格式,在Prompt里要求禁止使用Markdown。

    但我依旧建议,使用AI生成一个最符合自己习惯的个人转换器。不仅是自己为自己私人定制,也是在刻意练习。

    所以,mermaidchart.com和mermaid.live固然都很好,

    我依旧打开了Cursor。

    最终,我的Mermaid转换器:

    -支持四个主题,黑白两种背景

    -支持横向、竖向两种流程图的排版方式

    -支持鼠标拖动和不按住ctrl键通过滚轮放大缩小(这个单纯是因为我不喜欢按ctrl键)

    -支持全屏浏览

    -支持在任意浏览状态下导出图表为png,且清晰度比在线网站高得多

    按照惯例,源码贴在这里:

    <!DOCTYPE html>
    

    依旧是新建一个文本文档,把代码粘贴进去,修改扩展名为「.html」,开箱即用,也可以发给他人。

    但还是那句话,建议试着自己借助AI写一个。

  • DeepSeek+飞书:教你用多维表格手搓一个AI应用给人看姻缘

    刷到几篇命理圈的推文,煞有介事地分析DeepSeek算什么准算什么不准,感觉多少有点赛博魔幻。虽然知道这两年玄学一直藏在水下暗戳戳汹涌增长,AI算命其实也不是啥新鲜玩法,但摆在明面上圈外疯传+圈内一本正经分析,DeepSeek好像还是头一遭。

    所以,凑个热闹。

    分享一个比口口相传提示词优雅一点的玩法:

    DeepSeek API+飞书多维表格。

    使用多维表格的收集表收集生辰八字信息,用户提交后,自动调取DeepSeek的API,演算两人的姻缘。而后用户可以凭借自己录入的姓名,查询演算结果。

    这一系列操作,我们可以直接使用飞书多维表格的收集表和自动化功能完成。

    首先,我们要搭建一个基础的信息表格。其中要包括用于查询结果的姓名,用于进行演算的男女双方八字,还有最终结果的输出。

    以及一个辅助字段性别,和一个思考过程字段用于存储推理模型think的部分。这两个字段暂时没用,但可以用于后期增加功能或进行用户分析。

    接下来直接使用生成表单功能即可创建收集表单。

    系统会自动按现有字段生成表单,也提供了简单的编辑和装修功能。

    生辰八字部分我嵌入了一个公历生日转换成八字的智能体。

    虽然其实直接输入公历出生年月日也能算,但这种事儿要的就是TMD仪式感。所以格式我要按照传统的生辰八字来要求,并且提供一个转换器。同时,针对现代很多人不知道出生具体时间的情况,提供一个统一采用正午12时的解决方案,降低用户的使用成本。

    这个智能体通过字节的智能体平台扣子(https://www.coze.cn)搭建,三分钟就能搞定,简单说一下:

    首先,进入扣子直接创建智能体,选择AI创建,输入「生辰八字计算器」,直接生成。

    AI会自动创建好一个智能体,并写好prompt。

    然后我们在这个基础上添加两条,让无法提供时辰信息的用户也能顺畅使用,同时对输出格式进行限定,增加仪式感。

    再写一个开场白。

    测试一下,十分完美。

    然后点击右上角发布,获取到对外链接链接即可。

    (扣子的智能体可以发布到豆包、飞书、抖音、微信和多维表格,还提供API服务,可玩性很高,感兴趣可以深入玩一玩。)

    https://www.coze.cn/s/iP6SeUdN/

    但扣子有个缺点,使用智能体也需要注册。这点有点影响用户使用路径的顺畅度,直接搓一个转换器页面放服务器上或许会更好,但演示就先用这个了。

    回归正题,接下来页面右上角点击查看查询页面,即可创建结果查询页面。

    将收集表和查询页面发布,并按需配置好权限。

    这样,用户登记信息和查询测试结果这两个主要交互端口,就做好了。

    接下来要做的是自动化部分,也是我们的核心功能,让DeepSeek自动根据用户录入的信息算一算Ta的姻缘。

    其实前段时间飞书就内置了一个DeepSeek R1的字段捷径,使用这个字段捷径,可以直接进行DeepSeek R1的快速调用。

    这个功能很方便,但是只支持通过火山引擎调用DeepSeek模型。

    火山的赠额偏低,超过一定tokens数量就要开始收费了。

    所以我们通过自动化来做,这样可以调用任意API,自由度高很多。(前提你的飞书多维表格要有自动化功能。)

    新建一个自动化流程。

    第一步触发条件选择添加新纪录时。如果需要录入的字段在收集表中都被设置为必填项,则这些字段都不会为空,所以选择哪一个都行。

    接下来第二步操作,这一步需要准备好对应AI模型的调用名称、API接口和API KEY。

    如果没有,可先查看这篇文章的前半部分:

    DeepSeek服务器总繁忙怎么办?不愿稍后,不如试试通过API续命你的聊天儿

    我以硅基流动的API做演示:

    请求方法使用POST;

    入参部分,请求URL为API的Base URL,硅基流动的就是:

    https://api.siliconflow.cn/v1/chat/completions;

    查询参数不需要;请求头填入两个键值对:

    Content-Type:application/json
    

    接下来:

    请求体,实际上就API文档中Body部分的内容。

    以硅基流动的文档举例:

    https://docs.siliconflow.cn/api-reference/chat-completions/chat-completions

    需要我们填写的就是Body下面这些项目,全部参数配置好后即是右边curl请求的data部分。

    不过因为我们只是做一个简单的对话请求和返回而已,多维表格的自动化也不支持function调用(即右边tools部分),所以可以对它进行简略,只保留需要的部分。

    下面是实际填写的请求体,你可以结合文档中的来理解:

    {
    

    注意两点:

    1.”model”:后面跟的是模型调用名称,这个要严格按照API文档中规定的名称填写,否则会报错。API文档中都会写清楚,复制粘贴就好,例如下面是硅基流动的模型名称:

    对应到请求体中,就是这个部分:

    因为R1的请求延迟太高了,所以我就使用R1蒸馏的Qwen-7B来演示,这个模型在硅基中可以免费调用。

    2.Prompt部分需要从第一步新增的记录(也就是用户录入的记录)中引用男女双方的生辰八字,八字信息由此进入prompt中传递给AI,操作看图就懂了:

    接下来出参的响应体部分,可以选择Text和JSON。

    选择Text会一股脑把所有信息都以文本形式返回,类似:

    我们只需要回答内容主体和思考过程部分,所以我们选JSON。

    查看API文档的Response部分。

    回答内容主体即为content,思考过程即为reasoning_content。

    飞书多维表格的自动化要求必须要按原响应的格式书写响应体,才能够选择到对应的响应参数。

    也就是:

    ├── choices
    

    要求JSON格式,所以这样写返回值:

    {
    

    然后,第三步和第四步,就是把回答内容主体和思考过程分别填写到对应的字段中,我们使用「修改记录」即可。

    在数据库中,用表格的词汇来描述,一行的内容叫做记录,一列的内容叫做字段。

    选择记录设置为第一步新增的记录,也即对应用户录入的那一行记录,再翻译一下就是把要写入的内容写入到这一行上。

    接下在「设置记录内容」中选择「你们的姻缘」这一字段,行列都有了,也就是说把这次的回答内容主体(content),写入到行列交叉的这一个「单元格」(值)里。

    在接下来,如果你前面的响应体书写正确,就可以在这里引用到content了。选择上content,就是说把content写入到这个「单元格」中。

    第四步就是第三步的重复了,把思考过程(reasoning_content)写入到对应的位置。

    到这里,自动化就配置完成了。

    每当新用户录入信息时,就会自动调用AI,再把结果写进表格中。

    录入后稍等一段时间,用户就可以在结果查询界面查到自己的姻缘情况了。

    现在DeepSeek的第三方API还是普遍延迟都比较高,所以也可以再补一个手动操作的按钮应对超时的情况。复制一遍刚才的自动化流程,把「添加新纪录时」改成「点击按钮时」即可。

    也可以换成其他API,比如智谱的Flash系列,我就挺喜欢用的,免费、不慢,性能也可以。当然你要是就觉得DeepSeek算的准,那你当我没说。

    上面介绍的只是一个小玩法,多维表格+AI的衍生玩法还有很多,比如用贴吧暴躁老哥的口气挑战弱智吧训练集:

    生产场景自然也有很多可挖掘的,多维表格的一个字段值完全足够存储一整篇文章,那么会不会有批量分析、批量写作等等工作流衍生?