GoForum › 🌐 V2EX

向量数据库的正确用法是什么？

sillydaddy · 2026-05-26 10:03 · 0 次点赞 · 2 条回复

想用它预处理文档，然后帮助提取与关键字匹配的内容。看起来很理想，但实际提取不尽人意。

我做了个小工具，把切分后的每段，与关键字的匹配程度，可视化出来了，可以直观看到匹配度。

从网页内容中，提取“中国人民银行的编制”，效果不错： https://i.v2ex.co/Un42aYmEl.jpeg

从网页内容中，提取“中国人民银行的职责”，开头匹配的很好，但漏掉了接下来的那些： https://i.v2ex.co/NOX30mHPl.jpeg

可以看到，在提取“中国人民银行的职责”匹配的句段时，会漏掉枚举的那几条。

这可以说是段落拆分的问题，我是逐句拆分的，问题是，段落怎么才能合理拆分呢？如果必须知道哪些跟哪些是在一起的，那就相当于已经提前理解文章的内容了，就没有必要上向量数据库了。

所以，向量数据库如何做是比较合适的呢？就比如我上面的这种应用场景。

2 条回复

IsaacYoung · 2026-05-26 10:08

没太研究过，不过记得之前好像看到过几个方向，楼主可以参考下：

cryptovae · 2026-05-26 10:23

400 个 token 一段的情况下，上一段的后 50 个 token 和下一段开头的 50 个 token ，一起算向量，连贯性有了每个段落都有自己的 metadata ，包含标题，章节，目录名称，都可以拿来计算向量通过 LLM 提取时间线和关键词计算向量，可以增强相对应的语义检索

添加回复

你还需要登录后发表回复

登录后可发帖和回复

登录注册

主题信息

作者: sillydaddy

发布: 2026-05-26

点赞: 0

回复: 0