小刘Bot

用这套多维表格模板，零门槛搭建属于自己的知识库

作者：

在

实不相瞒，ChatGLM3时代我就尝试着用Langchain-Chatchat搞一个自己的知识库。

但幻想很美好，现实很骨感。真的是……不太好用。

纯文本内容相对还好，勉强还在能用的范畴内，但PPT之类的文档识别效果很差，都不知道识别成什么样子了。

后来这个问题好像一直都没有太好的解法。

前段时间飞书正式发布了「飞书知识问答」。

甚至都不需要自己做embedding，0技术门槛，只要你有权限阅读的飞书文档，都可以进行AI知识问答。

这又燃起了我搞个知识库的想法。

并且还真让我找到一个不需要技术门槛的解决PPT识别问题的方案：

利用多维表格+多模态视觉模型批量识图解析PPT再转换成文字版文档。

仔细想想还挺合理的，PPT这种呈现形式本身就跟视觉效果强相关。

它不像文章一样，从头到尾由连续的文字串成一个连贯的整体，反而是要求文字上尽可能做到高度概括，甚至单纯的文字内容之间需要有跳跃，再由排版等视觉设计加上读者的联想共同完成信息的表达。

例如这样：

就算完整提取出其中的文字，不存在任何的顺序错乱和乱码，仅凭文字还是不能理解它表达的意思。反而同时具备视觉和理解两项能力的多模态大模型来做这个，刚刚好。

于是，就有了这个多维表格模板。

先展示一下效果，再讲讲怎么用这个表格。

这是原版PPT（既有表格又有文字）：

这是使用多维表格转换成的文字版文档（3×3表格行列关系精准识别）：

这是我在飞书知识问答里的提问：

这份PPT文件经过表格的转换，无缝成为了飞书知识问答的知识库信息源。

如果你不是飞书用户，没有飞书知识问答，也没有关系，我在表格中也做了基于知识库内容（塞入上下文）的问答功能：

如果你单纯要做文档的整理和速览，它也是不错的选择，可以自动对文档进行总结并生成封面图片：

下面我们来详细介绍一下这个模板的功能和用法：

打开模板链接：

https://gcnax5pj3z0y.feishu.cn/base/AM26bPSpnamXYesHukscryQJnhg?table=ldxLEVCkyDeBPNQe

然后点击「使用该模板」按钮，就可以使用这个模板创建自己的知识库了。

通过模板创建表格后：

1.文件上传&留存

在同名表格中，通过附件字段，将需要归档的所有文件（PDF、图片、PPT等）统一上传。表格会自动提取文件名并进行选项化操作。

你可以对上传资源进行分类管理。

模板对「文件分类」、「一级标签」、「二级标签」三个选单的选项进行了统一管理，如需调整，可前往「配置和工具」下「配置表-选项索引」表进行调整。

「三级标签」做了宽松处理，支持填写时手动创建选项。

2.文件分类处理

PPT（包括PDF格式的PPT）请这样操作：

①先将PPT的每一页都转换成图片提取出来。

可以使用WPS等工具进行转换：

如果没有现成工具也没有关系，可以前往「配置和工具」下「工具箱-PPT转图片工具」表格中，点击下图链接使用Web工具进行转换。

这个工具是直接生成的，这就是我一直说的，AI时代很多做事儿的范式都可以尝试大胆改变了：

用了纯前端HTML+JS加外部库的方式实现，绿色轻量，源代码和网页文件也在工具箱表格中。

简单到只有几个按钮，用法应该也不用我多说了：

②前往「PPT内容识别」表格中，使用固定在右上角侧边栏的「批量上传附件」插件批量上传每一页截图。

③双击「内容识别」，为AI图片理解字段捷径配置豆包大模型账号。

建议使用Doubao-1.5-vision-pro模型，如果你希望AI更加忠实于原文并减少延展，也可以使用Doubao-Seed-1.6。

（可以参加火山方舟的协作奖励计划，每天领取50w tokens。）

配置好后，豆包大模型开始理解每一张PPT页面并进行总结。

经过PPT排版和美化后的分区块不连贯内容，也可以被豆包大模型理解并总结。

④手动录入图片字段左侧的「页码编号」字段和「资料名称」字段，支持像Excel一样拖动填充柄进行填充。

页码录入会关联右侧公式字段，公式内带有Markdown标题标记，以便于后续创建飞书文档时自动识别页码标题。

文本类PDF（非扫描）请这样操作：

①前往「PDF文档提取」表格中，在下拉列表中选择相应的资料名称。

②手动将自动匹配出的附件，复制到右侧PDF文档附件字段中。

PDF文档的文字内容会被自动提取到「内容提取」字段。

截图类请这样操作：

动作基本跟文本类PDF相同。

①前往「图片OCR」表格中，在下拉列表中选择资料相应的资料名称。

②手动将自动匹配出的附件，复制到右侧PDF文档附件字段中。

3.生成文档总结和飞书文档

表格默认按照自增编号进行资料匹配，只要在「1.文件上传&留存」中上传过的文件，下左图红框内的信息都会自动出现，不需要手动操作。如果上传文件数量超过本表行数导致新传文档未显示出，只需要向下插入新行即可。

如果按钮为灰色，需要进入自动化中心手动启用自动化流程。

按钮生效后，对需要总结的文档点击按钮，则按钮右侧自动生成「资料内容」、「重点总结」、「飞书文档」三个字段的内容。

生成飞书文档需要按提示进行扣子授权，授权通过后重新运行字段捷径即可。

飞书文档生成后，就可以在飞书知识问答中作为参考信息被AI引用了。

使用「查询页」，可以查询对应资料的重点信息。

表格最右侧几个字段根据资料重点内容总结完成了封面图生成。生图需要消耗一定API费用，默认关闭自动生成，你可以自行选择是否开启。

启用后，「知识图册」仪表盘的画册组件会带有AI生成的标题封面：

画册展示效果是这样：

4.豆包智能决策建议

本功能可实现小范围参考本表格知识库内资料进行解决方案问答。

可通过「参考1」、「参考2」、「参考3」选择最多3份资料进行参考，然后在「问题字段」输入问题。

则豆包大模型会在「智能建议」字段返回问题的答案/建议。

问答示例：

问题1：我想招聘一个谷歌广告创意策划，帮我出5道题考考他。

参考：《Google Ads Video Certification学习笔记》

豆包回答：

问题2：我们是一家抖音达人电商公司，想在2025年拓展一个AI驱动的像LABUBU一样的潮玩IP业务，有什么AI技术趋势是值得我们关注的吗？

参考：《State of AI Report – 2024 ONLINE》、《2024达人电商全年报》、《LABUBU顶流现象洞察报告》

豆包回答：

此处豆包大模型选用了Doubao-Seed-1.6模型，直接通过自定义API捷径调用成本相对较低的Doubao-Seed-1.6-flash，表现也不错。

5.其他知识剪藏

这两个表格用于碎片化知识快速剪藏，内容不进入上述文档知识库中。

建议配合飞书手机APP使用。

Web链接剪藏

适合快捷收藏公众号、小红书等社媒以及博客和网站的内容。

粘贴链接后，可自动总结内容并根据内容生成一个更具概括性的资料名称（过滤自媒体标题党）。

碎片截图剪藏

适合快速存储和整理手机截图、群聊图片、朋友圈图片中的有价值信息。

以上就是这张表格的全部功能，希望你能喜欢~

评论

发表回复取消回复

更多文章