Q24 — AWS DEA-C01 第1章

第 24/100 题 | ← 返回第1章

某公司正将遗留应用程序迁移至基于Amazon S3的数据湖。数据工程师审查了与该遗留应用程序相关的数据,发现其中包含重复信息。 数据工程师必须识别并移除遗留应用程序数据中的重复信息。 哪种解决方案能以最少的运维开销满足这些要求?

正确答案: B. 编写AWS Glue ETL作业,使用FindMatches机器学习(ML)转换执行数据去重。

解析

选项B是最佳方案:AWS Glue内置的FindMatches ML转换专为数据去重设计,基于机器学习算法自动识别相似记录并分组,无需编写、调试或维护自定义去重逻辑,显著降低开发与运维负担。Glue作为全托管服务,自动扩展、容错且与AWS生态深度集成,开销最小。选项A和C依赖Pandas或dedupe库,需自行处理数据分区、扩展性及错误恢复;选项D虽运行于Glue环境,但引入第三方dedupe库仍需额外依赖管理、版本兼容性验证及调优,运维复杂度高于开箱即用的FindMatches。因此,选项B是满足要求且运维开销最小的解决方案。