某公司正将遗留应用程序迁移至基于Amazon S3的数据湖。数据工程师审查了与该遗留应用程序相关的数据，发现其中包含重复信息。
数据工程师必须识别并移除遗留应用程序数据中的重复信息。
哪种解决方案能以最少的运维开销满足这

Question

某公司正将遗留应用程序迁移至基于Amazon S3的数据湖。数据工程师审查了与该遗留应用程序相关的数据，发现其中包含重复信息。
数据工程师必须识别并移除遗留应用程序数据中的重复信息。
哪种解决方案能以最少的运维开销满足这些要求？

Accepted Answer

B. 编写AWS Glue ETL作业，使用FindMatches机器学习（ML）转换执行数据去重。

Answer

A. 用Python编写自定义提取、转换和加载（ETL）作业，导入Pandas库并使用DataFrame.drop_duplicates()函数执行数据去重。

Answer

C. 用Python编写自定义ETL作业，导入Python dedupe库并使用该库执行数据去重。

Answer

D. 编写AWS Glue ETL作业，导入Python dedupe库并使用该库执行数据去重。

Q24 — AWS DEA-C01 第1章