Dify 知识库是怎么检索的？如何提升召回和答案准确率？

Question

Levenx · Accepted Answer

Dify 知识库的核心不是“把文档丢给大模型”，而是先把文档切成块、转成向量、存进检索系统，再在用户提问时找出最相关的片段交给模型生成回答。真正影响效果的通常有四件事：文档清洗是否干净、分块是否合适、Embedding 模型是否稳定、召回后的重排和提示词是否把边界说清楚。一个常见流程是：上传 PDF、Markdown、网页或纯文本后，Dify 会抽取正文，按规则切分为多个 chunk；每个 chunk 通过 Embedding 模型转成向量；用户提问也会转成查询向量；系统根据相似度召回片段，再把片段作为上下文传给 LLM。这里的取舍很明显：块太大，召回内容容易夹带无关信息；块太小，上下文被拆散，模型可能看不到完整结论。配置时可以先用一个保守起点：chunk size 设在 500-800 字符，overlap 设在 50-120 字符，Top K 设为 3-6，score threshold 不要一开始调得太高。中文资料建议优先选择中文语义表现稳定的 Embedding 模型，并用同一批 FAQ 做回归测试。不要只看“能不能回答”，还要看答案是否引用了正确段落、是否把过期制度和现行制度

Dify 知识库是怎么检索的？如何提升召回和答案准确率？

追问

为什么知识库检索效果差，明明文档里有答案却召回不到？

chunk size、overlap 和 Top K 应该怎么取舍？

Dify 里要不要开启混合检索或重排模型？

如何判断是知识库问题还是提示词问题？

知识库上线后应该怎么持续优化？