Part II 模型与推理层¶

本部分不再强制套用统一三层章节模板，而是按模型与推理层的实际决策链展开：先回答“选什么模型”，再回答“如何本地服务化”，然后进入“如何优化推理成本和延迟”“如何让模型输出可被系统消费”“如何定制能力与接入企业知识”。各章保留章头导读、关键议题、必要图表和本章小结；接口契约、实现路径、发布准入或接入条件只在章节对象确实需要时出现。

本部分章节¶

章节	回答的问题	图表重点
第5章大模型选型	选什么模型，如何让模型选择可评测、可路由、可回滚	模型矩阵、质量-成本-延迟三角
第6章本地推理引擎	如何把开放权重模型服务化，并在吞吐与延迟之间取舍	推理服务接入条件、吞吐与延迟曲线
第7章推理优化	如何定位推理瓶颈，并选择 KV Cache、Prefix Cache、推测解码或量化	优化作用位置、KV Cache 显存增长
第8章结构化输出与提示工程	如何让模型输出成为可验证、可审计、可恢复的系统契约	四层契约、解析校验与异常处理
第9章模型能力定制与知识增强	何时使用 Prompt、RAG、微调或对齐，如何治理版本发布	定制路线选择、失败样本到灰度发布