Part VIII 部署与基础设施¶
本部分目标¶
Part VIII 讨论 Agent 平台从实验环境进入生产环境时必须面对的基础设施问题:GPU 怎样调度,模型怎样服务化,请求怎样进入多租户网关,配置和制品怎样交付到不同环境。四章合起来形成“调度、服务、网关、交付”的生产链路。
本部分章节¶
| 章 | 标题 | 核心职责 |
|---|---|---|
| 第43章 | GPU 调度与 Kubernetes | 算力从哪来 |
| 第44章 | 模型部署 | 模型怎么跑 |
| 第45章 | LLM 网关与多租户 | 请求怎么进 |
| 第46章 | GitOps、IaC 与边缘推理 | 整套怎么交付 |
阅读建议¶
架构师建议按第43章到第46章顺序完整阅读,重点关注调度、服务、网关和交付之间的依赖关系。AI 应用开发者可以先读第44章和第45章,理解模型服务、网关路由、鉴权、限流和错误语义。CTO 和平台负责人应重点关注第43章、第45章和第46章,因为算力投入、租户隔离、合规边界和交付治理最终都会回到平台预算与组织责任上。
与全书关系¶
Part II 的推理引擎和推理优化为本部分提供模型服务选型依据。Part IX 的前端和流式交互依赖本部分提供稳定 API。Part VII 的成本与 SLO、Part X 的安全隔离,会反过来约束 GPU 调度、网关路由和交付策略。