Part III 数据基础设施层¶

本部分目标¶

Agent 能否进入企业生产，取决于它拿到的数据是否及时、可信、可追溯。Part III 讨论数据底座从采集、湖仓、OLAP、实时计算到元数据治理的主链路。这里不把数据平台当成背景设施，而把它看作 Agent 平台的事实来源和责任边界。

章	主题	读完应能回答的问题
第10章数据采集与集成	CDC、批同步、文件与 API 接入	源系统数据怎样进入 Agent 平台，哪些接入方式会影响新鲜度和一致性
第11章数据湖与湖仓	Iceberg、Hudi、Delta、Paimon	湖仓怎样保存可回放的数据版本，为什么快照和 Catalog 会影响回答可追溯性
第12章湖仓引擎与 OLAP	Doris、StarRocks、Trino、ClickHouse、DuckDB	不同分析负载应落在哪类引擎上，DataAgent 查询怎样避免拖垮生产看板
第13章流式计算与实时数据	Kafka、Flink、watermark、exactly-once	实时指标怎样进入 Agent 决策，迟到数据和状态恢复怎样解释给业务用户
第14章数据编排与质量	Airflow、Dagster、质量门禁	数据产品怎样发布、回填和阻断，DataAgent 何时应该回答“数据不可用”
第15章元数据、血缘、契约与指标	DataHub、OpenLineage、Data Contract、指标层	Agent 怎样知道口径、权限、血缘和字段变更，而非临场猜测

第10章至第13章解决“数据怎么来、怎么存、怎么查、怎么实时更新”。第14章和第15章再把这条链路收进质量、血缘、契约和指标治理。后续 DataAgent 章节中的 Schema Linking、NL2SQL、报告证据链，都依赖这里建立的数据边界。