实不相瞒,ChatGLM3时代我就尝试着用Langchain-Chatchat搞一个自己的知识库。
但幻想很美好,现实很骨感。真的是……不太好用。

纯文本内容相对还好,勉强还在能用的范畴内,但PPT之类的文档识别效果很差,都不知道识别成什么样子了。
后来这个问题好像一直都没有太好的解法。
前段时间飞书正式发布了「飞书知识问答」。
甚至都不需要自己做embedding,0技术门槛,只要你有权限阅读的飞书文档,都可以进行AI知识问答。
这又燃起了我搞个知识库的想法。
并且还真让我找到一个不需要技术门槛的解决PPT识别问题的方案:
利用多维表格+多模态视觉模型批量识图解析PPT再转换成文字版文档。
仔细想想还挺合理的,PPT这种呈现形式本身就跟视觉效果强相关。
它不像文章一样,从头到尾由连续的文字串成一个连贯的整体,反而是要求文字上尽可能做到高度概括,甚至单纯的文字内容之间需要有跳跃,再由排版等视觉设计加上读者的联想共同完成信息的表达。
例如这样:

就算完整提取出其中的文字,不存在任何的顺序错乱和乱码,仅凭文字还是不能理解它表达的意思。反而同时具备视觉和理解两项能力的多模态大模型来做这个,刚刚好。
于是,就有了这个多维表格模板。

先展示一下效果,再讲讲怎么用这个表格。
这是原版PPT(既有表格又有文字):

这是使用多维表格转换成的文字版文档(3×3表格行列关系精准识别):

这是我在飞书知识问答里的提问:

这份PPT文件经过表格的转换,无缝成为了飞书知识问答的知识库信息源。
如果你不是飞书用户,没有飞书知识问答,也没有关系,我在表格中也做了基于知识库内容(塞入上下文)的问答功能:

如果你单纯要做文档的整理和速览,它也是不错的选择,可以自动对文档进行总结并生成封面图片:

下面我们来详细介绍一下这个模板的功能和用法:
打开模板链接:
https://gcnax5pj3z0y.feishu.cn/base/AM26bPSpnamXYesHukscryQJnhg?table=ldxLEVCkyDeBPNQe
然后点击「使用该模板」按钮,就可以使用这个模板创建自己的知识库了。
通过模板创建表格后:
1.文件上传&留存
在同名表格中,通过附件字段,将需要归档的所有文件(PDF、图片、PPT等)统一上传。 表格会自动提取文件名并进行选项化操作。

你可以对上传资源进行分类管理。
模板对「文件分类」、「一级标签」、「二级标签」三个选单的选项进行了统一管理,如需调整,可前往「配置和工具」下「配置表-选项索引」表进行调整。

「三级标签」做了宽松处理,支持填写时手动创建选项。
2.文件分类处理
PPT(包括PDF格式的PPT)请这样操作:
①先将PPT的每一页都转换成图片提取出来。
可以使用WPS等工具进行转换:

如果没有现成工具也没有关系,可以前往「配置和工具」下「工具箱-PPT转图片工具」表格中,点击下图链接使用Web工具进行转换。

这个工具是直接生成的,这就是我一直说的,AI时代很多做事儿的范式都可以尝试大胆改变了:

用了纯前端HTML+JS加外部库的方式实现,绿色轻量,源代码和网页文件也在工具箱表格中。
简单到只有几个按钮,用法应该也不用我多说了:


②前往「PPT内容识别」表格中,使用固定在右上角侧边栏的「批量上传附件」插件批量上传每一页截图。

③双击「内容识别」,为AI图片理解字段捷径配置豆包大模型账号。
建议使用Doubao-1.5-vision-pro模型,如果你希望AI更加忠实于原文并减少延展,也可以使用Doubao-Seed-1.6。


(可以参加火山方舟的协作奖励计划,每天领取50w tokens。)
配置好后,豆包大模型开始理解每一张PPT页面并进行总结。
经过PPT排版和美化后的分区块不连贯内容,也可以被豆包大模型理解并总结。
④手动录入图片字段左侧的「页码编号」字段和「资料名称」字段,支持像Excel一样拖动填充柄进行填充。
页码录入会关联右侧公式字段,公式内带有Markdown标题标记,以便于后续创建飞书文档时自动识别页码标题。


文本类PDF(非扫描)请这样操作:
①前往「PDF文档提取」表格中,在下拉列表中选择相应的资料名称。

②手动将自动匹配出的附件,复制到右侧PDF文档附件字段中。

PDF文档的文字内容会被自动提取到「内容提取」字段。
截图类请这样操作:
动作基本跟文本类PDF相同。
①前往「图片OCR」表格中,在下拉列表中选择资料相应的资料名称。
②手动将自动匹配出的附件,复制到右侧PDF文档附件字段中。

3.生成文档总结和飞书文档
表格默认按照自增编号进行资料匹配,只要在「1.文件上传&留存」中上传过的文件,下左图红框内的信息都会自动出现,不需要手动操作。如果上传文件数量超过本表行数导致新传文档未显示出,只需要向下插入新行即可。


如果按钮为灰色,需要进入自动化中心手动启用自动化流程。

按钮生效后,对需要总结的文档点击按钮,则按钮右侧自动生成「资料内容」、「重点总结」、「飞书文档」三个字段的内容。

生成飞书文档需要按提示进行扣子授权,授权通过后重新运行字段捷径即可。
飞书文档生成后,就可以在飞书知识问答中作为参考信息被AI引用了。

使用「查询页」,可以查询对应资料的重点信息。

表格最右侧几个字段根据资料重点内容总结完成了封面图生成。生图需要消耗一定API费用,默认关闭自动生成,你可以自行选择是否开启。
启用后,「知识图册」仪表盘的画册组件会带有AI生成的标题封面:

画册展示效果是这样:

4.豆包智能决策建议
本功能可实现小范围参考本表格知识库内资料进行解决方案问答。
可通过「参考1」、「参考2」、「参考3」选择最多3份资料进行参考,然后在「问题字段」输入问题。
则豆包大模型会在「智能建议」字段返回问题的答案/建议。

问答示例:
问题1:我想招聘一个谷歌广告创意策划,帮我出5道题考考他。
参考:《Google Ads Video Certification学习笔记》
豆包回答:

问题2:我们是一家抖音达人电商公司,想在2025年拓展一个AI驱动的像LABUBU一样的潮玩IP业务,有什么AI技术趋势是值得我们关注的吗?
参考:《State of AI Report – 2024 ONLINE》、《2024达人电商全年报》、《LABUBU顶流现象洞察报告》
豆包回答:

此处豆包大模型选用了Doubao-Seed-1.6模型,直接通过自定义API捷径调用成本相对较低的Doubao-Seed-1.6-flash,表现也不错。
5.其他知识剪藏
这两个表格用于碎片化知识快速剪藏,内容不进入上述文档知识库中。
建议配合飞书手机APP使用。
Web链接剪藏
适合快捷收藏公众号、小红书等社媒以及博客和网站的内容。
粘贴链接后,可自动总结内容并根据内容生成一个更具概括性的资料名称(过滤自媒体标题党)。

碎片截图剪藏
适合快速存储和整理手机截图、群聊图片、朋友圈图片中的有价值信息。
以上就是这张表格的全部功能,希望你能喜欢~
发表回复