Skip to content

Part II 模型与推理层

本部分不再强制套用统一三层章节模板,而是按模型与推理层的实际决策链展开:先回答“选什么模型”,再回答“如何本地服务化”,然后进入“如何优化推理成本和延迟”“如何让模型输出可被系统消费”“如何定制能力与接入企业知识”。各章保留章头导读、关键议题、必要图表和本章小结;接口契约、实现路径、发布准入或接入条件只在章节对象确实需要时出现。

本部分章节

章节 回答的问题 图表重点
第5章 大模型选型 选什么模型,如何让模型选择可评测、可路由、可回滚 模型矩阵、质量-成本-延迟三角
第6章 本地推理引擎 如何把开放权重模型服务化,并在吞吐与延迟之间取舍 推理服务接入条件、吞吐与延迟曲线
第7章 推理优化 如何定位推理瓶颈,并选择 KV Cache、Prefix Cache、推测解码或量化 优化作用位置、KV Cache 显存增长
第8章 结构化输出与提示工程 如何让模型输出成为可验证、可审计、可恢复的系统契约 四层契约、解析校验与异常处理
第9章 模型能力定制与知识增强 何时使用 Prompt、RAG、微调或对齐,如何治理版本发布 定制路线选择、失败样本到灰度发布