GoForum🌐 V2EX

向量数据库的正确用法是什么?

sillydaddy · 2026-05-26 10:03 · 0 次点赞 · 2 条回复

想用它预处理文档,然后帮助提取与关键字匹配的内容。看起来很理想,但实际提取不尽人意。

我做了个小工具,把切分后的每段,与关键字的匹配程度,可视化出来了,可以直观看到匹配度。

从网页内容中,提取“中国人民银行的编制”,效果不错: https://i.v2ex.co/Un42aYmEl.jpeg

从网页内容中,提取“中国人民银行的职责”,开头匹配的很好,但漏掉了接下来的那些: https://i.v2ex.co/NOX30mHPl.jpeg

可以看到,在提取“中国人民银行的职责”匹配的句段时,会漏掉枚举的那几条。

这可以说是段落拆分的问题,我是逐句拆分的,问题是,段落怎么才能合理拆分呢?如果必须知道哪些跟哪些是在一起的,那就相当于已经提前理解文章的内容了,就没有必要上向量数据库了。

所以,向量数据库如何做是比较合适的呢?就比如我上面的这种应用场景。

2 条回复
IsaacYoung · 2026-05-26 10:08
#1

没太研究过,不过记得之前好像看到过几个方向,楼主可以参考下:

  1. 分段的时候不要完全分割开,上一段和下一段保留一部分重叠
  2. 用语义分割,印象中好像是根据文本的结构例如段落、标题等进行分割
cryptovae · 2026-05-26 10:23
#2

400 个 token 一段的情况下,上一段的后 50 个 token 和下一段开头的 50 个 token ,一起算向量,连贯性有了 每个段落都有自己的 metadata ,包含标题,章节,目录名称,都可以拿来计算向量 通过 LLM 提取时间线和关键词计算向量,可以增强相对应的语义检索

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: sillydaddy
发布: 2026-05-26
点赞: 0
回复: 0