Q24 — AWS DEA-C01 第1章
第 24/100 题 | ← 返回第1章
某公司正将遗留应用程序迁移至基于Amazon S3的数据湖。数据工程师审查了与该遗留应用程序相关的数据,发现其中包含重复信息。 数据工程师必须识别并移除遗留应用程序数据中的重复信息。 哪种解决方案能以最少的运维开销满足这些要求?
- A. 用Python编写自定义提取、转换和加载(ETL)作业,导入Pandas库并使用DataFrame.drop_duplicates()函数执行数据去重。
- B. 编写AWS Glue ETL作业,使用FindMatches机器学习(ML)转换执行数据去重。 ✓
- C. 用Python编写自定义ETL作业,导入Python dedupe库并使用该库执行数据去重。
- D. 编写AWS Glue ETL作业,导入Python dedupe库并使用该库执行数据去重。
正确答案: B. 编写AWS Glue ETL作业,使用FindMatches机器学习(ML)转换执行数据去重。
解析
选项B是最佳方案:AWS Glue内置的FindMatches ML转换专为数据去重设计,基于机器学习算法自动识别相似记录并分组,无需编写、调试或维护自定义去重逻辑,显著降低开发与运维负担。Glue作为全托管服务,自动扩展、容错且与AWS生态深度集成,开销最小。选项A和C依赖Pandas或dedupe库,需自行处理数据分区、扩展性及错误恢复;选项D虽运行于Glue环境,但引入第三方dedupe库仍需额外依赖管理、版本兼容性验证及调优,运维复杂度高于开箱即用的FindMatches。因此,选项B是满足要求且运维开销最小的解决方案。