Q27 — AWS DEA-C01 第1章

第 27/100 题 | ← 返回第1章

一家公司使用Amazon S3在事务型数据湖中存储半结构化数据。部分数据文件较小,而其他数据文件则达数十TB。 一名数据工程师必须执行变更数据捕获(CDC)操作,以识别数据源中的已变更数据。数据源每天发送一个完整快照JSON文件,并将变更数据注入数据湖。 以下哪种解决方案能以最高成本效益捕获变更数据?

正确答案: C. 使用开源数据湖格式将数据源与S3数据湖合并,以插入新数据并更新现有数据。

解析

考虑到数据文件大小差异巨大(从极小到数十TB),成本效益是选择方案的关键。选项A使用AWS Lambda识别变更,虽支持按需执行,但在处理海量数据时可能产生高昂费用。选项B和D均需先将数据导入关系型数据库(RDS或Aurora),再借助AWS DMS捕获变更,适用于结构化数据场景,但对半结构化数据而言并非成本最优路径。选项C建议采用开源数据湖格式(如Delta Lake、Apache Iceberg或Apache Hudi)直接在S3数据湖层面执行合并操作,避免额外的数据迁移、转换及中间存储开销,从而实现最高成本效益。因此,答案为C。