Part IV 向量、检索与知识工程¶

本部分目标¶

企业 Agent 需要从文档、知识库、图片、表格和业务实体中找到可靠证据。Part IV 讨论向量表示、检索、文档解析、RAG 和知识图谱的工程边界。重点不在“接一个向量库”，而在于让证据可召回、可过滤、可引用、可评估。

章	主题	读完应能回答的问题
第16章嵌入模型	文本、多模态 embedding 与评测基线	怎样选择 embedding 模型，怎样用内部评测集避免选型很快过期
第17章嵌入微调与重排	hard negative、reranker、版本灰度	什么时候需要微调或重排，怎样把召回问题和排序问题分开
第18章向量数据库与索引算法	Milvus、Qdrant、HNSW、IVF、PQ	向量库怎样同时处理召回、权限过滤、版本治理和成本
第19章文档解析与多模态 OCR	PDF、表格、版面、OCR、VLM	文档进入检索前怎样解析，哪些错误会直接污染后续 RAG
第20章 RAG 工程与高级检索	分块、混合检索、重排、引用校验	RAG 怎样从“能答”变成“有证据、可复盘、可治理”
第21章知识工程：本体、抽取与知识图谱	本体、实体链接、GraphRAG	知识图谱怎样补足向量检索的关系推理和实体消歧能力

第16章至第18章建立检索的向量底座，第19章处理文档进入底座前的解析质量，第20章把召回结果组织成可引用证据，第21章再把实体、关系和规则接入知识工程。读到 Part VI 的 DataAgent 时，本部分提供的是“证据从哪里来、为什么可信”的答案。