跳转至

Part VIII 部署与基础设施

本部分目标

Part VIII 讨论 Agent 平台从实验环境进入生产环境时必须面对的基础设施问题:GPU 怎样调度,模型怎样服务化,请求怎样进入多租户网关,配置和制品怎样交付到不同环境。四章合起来形成“调度、服务、网关、交付”的生产链路。

本部分章节

标题 核心职责
第43章 GPU 调度与 Kubernetes 算力从哪来
第44章 模型部署 模型怎么跑
第45章 LLM 网关与多租户 请求怎么进
第46章 GitOps、IaC 与边缘推理 整套怎么交付

阅读建议

架构师建议按第43章到第46章顺序完整阅读,重点关注调度、服务、网关和交付之间的依赖关系。AI 应用开发者可以先读第44章和第45章,理解模型服务、网关路由、鉴权、限流和错误语义。CTO 和平台负责人应重点关注第43章、第45章和第46章,因为算力投入、租户隔离、合规边界和交付治理最终都会回到平台预算与组织责任上。

与全书关系

Part II 的推理引擎和推理优化为本部分提供模型服务选型依据。Part IX 的前端和流式交互依赖本部分提供稳定 API。Part VII 的成本与 SLO、Part X 的安全隔离,会反过来约束 GPU 调度、网关路由和交付策略。