Part II 模型与推理层¶
本部分不再强制套用统一三层章节模板,而是按模型与推理层的实际决策链展开:先回答“选什么模型”,再回答“如何本地服务化”,然后进入“如何优化推理成本和延迟”“如何让模型输出可被系统消费”“如何定制能力与接入企业知识”。各章保留章头导读、关键议题、必要图表和本章小结;接口契约、实现路径、发布准入或接入条件只在章节对象确实需要时出现。
本部分章节¶
| 章节 | 回答的问题 | 图表重点 |
|---|---|---|
| 第5章 大模型选型 | 选什么模型,如何让模型选择可评测、可路由、可回滚 | 模型矩阵、质量-成本-延迟三角 |
| 第6章 本地推理引擎 | 如何把开放权重模型服务化,并在吞吐与延迟之间取舍 | 推理服务接入条件、吞吐与延迟曲线 |
| 第7章 推理优化 | 如何定位推理瓶颈,并选择 KV Cache、Prefix Cache、推测解码或量化 | 优化作用位置、KV Cache 显存增长 |
| 第8章 结构化输出与提示工程 | 如何让模型输出成为可验证、可审计、可恢复的系统契约 | 四层契约、解析校验与异常处理 |
| 第9章 模型能力定制与知识增强 | 何时使用 Prompt、RAG、微调或对齐,如何治理版本发布 | 定制路线选择、失败样本到灰度发布 |