用这套多维表格模板,零门槛搭建属于自己的知识库

实不相瞒,ChatGLM3时代我就尝试着用Langchain-Chatchat搞一个自己的知识库。

但幻想很美好,现实很骨感。真的是……不太好用。

纯文本内容相对还好,勉强还在能用的范畴内,但PPT之类的文档识别效果很差,都不知道识别成什么样子了。

后来这个问题好像一直都没有太好的解法。

前段时间飞书正式发布了「飞书知识问答」。

甚至都不需要自己做embedding,0技术门槛,只要你有权限阅读的飞书文档,都可以进行AI知识问答。

这又燃起了我搞个知识库的想法。

并且还真让我找到一个不需要技术门槛的解决PPT识别问题的方案:

利用多维表格+多模态视觉模型批量识图解析PPT再转换成文字版文档。

仔细想想还挺合理的,PPT这种呈现形式本身就跟视觉效果强相关。

它不像文章一样,从头到尾由连续的文字串成一个连贯的整体,反而是要求文字上尽可能做到高度概括,甚至单纯的文字内容之间需要有跳跃,再由排版等视觉设计加上读者的联想共同完成信息的表达。

例如这样:

就算完整提取出其中的文字,不存在任何的顺序错乱和乱码,仅凭文字还是不能理解它表达的意思。反而同时具备视觉和理解两项能力的多模态大模型来做这个,刚刚好。

于是,就有了这个多维表格模板。

先展示一下效果,再讲讲怎么用这个表格。

这是原版PPT(既有表格又有文字):

Image

这是使用多维表格转换成的文字版文档(3×3表格行列关系精准识别):

Image

这是我在飞书知识问答里的提问:

Image

这份PPT文件经过表格的转换,无缝成为了飞书知识问答的知识库信息源。

如果你不是飞书用户,没有飞书知识问答,也没有关系,我在表格中也做了基于知识库内容(塞入上下文)的问答功能:

Image

如果你单纯要做文档的整理和速览,它也是不错的选择,可以自动对文档进行总结并生成封面图片:

Image

下面我们来详细介绍一下这个模板的功能和用法:

打开模板链接:

https://gcnax5pj3z0y.feishu.cn/base/AM26bPSpnamXYesHukscryQJnhg?table=ldxLEVCkyDeBPNQe

然后点击「使用该模板」按钮,就可以使用这个模板创建自己的知识库了。

通过模板创建表格后:

1.文件上传&留存

在同名表格中,通过附件字段,将需要归档的所有文件(PDF、图片、PPT等)统一上传。 表格会自动提取文件名并进行选项化操作。

Image

你可以对上传资源进行分类管理。

模板对「文件分类」、「一级标签」、「二级标签」三个选单的选项进行了统一管理,如需调整,可前往「配置和工具」下「配置表-选项索引」表进行调整。

Image

「三级标签」做了宽松处理,支持填写时手动创建选项。

2.文件分类处理

PPT(包括PDF格式的PPT)请这样操作:

①先将PPT的每一页都转换成图片提取出来。

可以使用WPS等工具进行转换:

Image

如果没有现成工具也没有关系,可以前往「配置和工具」下「工具箱-PPT转图片工具」表格中,点击下图链接使用Web工具进行转换。

Image

这个工具是直接生成的,这就是我一直说的,AI时代很多做事儿的范式都可以尝试大胆改变了:

Image

用了纯前端HTML+JS加外部库的方式实现,绿色轻量,源代码和网页文件也在工具箱表格中。

简单到只有几个按钮,用法应该也不用我多说了:

Image

Image

②前往「PPT内容识别」表格中,使用固定在右上角侧边栏的「批量上传附件」插件批量上传每一页截图。

Image

③双击「内容识别」,为AI图片理解字段捷径配置豆包大模型账号。

建议使用Doubao-1.5-vision-pro模型,如果你希望AI更加忠实于原文并减少延展,也可以使用Doubao-Seed-1.6。

Image

Image

(可以参加火山方舟的协作奖励计划,每天领取50w tokens。)

配置好后,豆包大模型开始理解每一张PPT页面并进行总结。

经过PPT排版和美化后的分区块不连贯内容,也可以被豆包大模型理解并总结。

④手动录入图片字段左侧的「页码编号」字段和「资料名称」字段,支持像Excel一样拖动填充柄进行填充。

页码录入会关联右侧公式字段,公式内带有Markdown标题标记,以便于后续创建飞书文档时自动识别页码标题。

Image

Image

文本类PDF(非扫描)请这样操作:

①前往「PDF文档提取」表格中,在下拉列表中选择相应的资料名称。

Image

②手动将自动匹配出的附件,复制到右侧PDF文档附件字段中。

Image

PDF文档的文字内容会被自动提取到「内容提取」字段。

截图类请这样操作:

动作基本跟文本类PDF相同。

①前往「图片OCR」表格中,在下拉列表中选择资料相应的资料名称。

②手动将自动匹配出的附件,复制到右侧PDF文档附件字段中。

Image

3.生成文档总结和飞书文档

表格默认按照自增编号进行资料匹配,只要在「1.文件上传&留存」中上传过的文件,下左图红框内的信息都会自动出现,不需要手动操作。如果上传文件数量超过本表行数导致新传文档未显示出,只需要向下插入新行即可。

Image

Image

如果按钮为灰色,需要进入自动化中心手动启用自动化流程。

Image

按钮生效后,对需要总结的文档点击按钮,则按钮右侧自动生成「资料内容」、「重点总结」、「飞书文档」三个字段的内容。

Image

生成飞书文档需要按提示进行扣子授权,授权通过后重新运行字段捷径即可。

飞书文档生成后,就可以在飞书知识问答中作为参考信息被AI引用了。

Image

使用「查询页」,可以查询对应资料的重点信息。

Image

表格最右侧几个字段根据资料重点内容总结完成了封面图生成。生图需要消耗一定API费用,默认关闭自动生成,你可以自行选择是否开启。

启用后,「知识图册」仪表盘的画册组件会带有AI生成的标题封面:

Image

画册展示效果是这样:

Image

4.豆包智能决策建议

本功能可实现小范围参考本表格知识库内资料进行解决方案问答。

可通过「参考1」、「参考2」、「参考3」选择最多3份资料进行参考,然后在「问题字段」输入问题。

则豆包大模型会在「智能建议」字段返回问题的答案/建议。

Image

问答示例:

问题1:我想招聘一个谷歌广告创意策划,帮我出5道题考考他。

参考:《Google Ads Video Certification学习笔记》

豆包回答:

Image

问题2:我们是一家抖音达人电商公司,想在2025年拓展一个AI驱动的像LABUBU一样的潮玩IP业务,有什么AI技术趋势是值得我们关注的吗?

参考:《State of AI Report – 2024 ONLINE》、《2024达人电商全年报》、《LABUBU顶流现象洞察报告》

豆包回答:

Image

此处豆包大模型选用了Doubao-Seed-1.6模型,直接通过自定义API捷径调用成本相对较低的Doubao-Seed-1.6-flash,表现也不错。

5.其他知识剪藏

这两个表格用于碎片化知识快速剪藏,内容不进入上述文档知识库中。

建议配合飞书手机APP使用。

Web链接剪藏

适合快捷收藏公众号、小红书等社媒以及博客和网站的内容。

粘贴链接后,可自动总结内容并根据内容生成一个更具概括性的资料名称(过滤自媒体标题党)。

Image

碎片截图剪藏

适合快速存储和整理手机截图、群聊图片、朋友圈图片中的有价值信息。

以上就是这张表格的全部功能,希望你能喜欢~

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注