Q58 — AWS DEA-C01 第1章
第 58/100 题 | ← 返回第1章
一家公司每天接收一个包含客户数据的 .xls 格式文件,并将该文件存储在 Amazon S3 中。该每日文件大小约为 2 GB。 一名数据工程师需将文件中包含客户名字的列与包含客户姓氏的列进行拼接。该数据工程师需要确定该文件中不同客户的数量。 哪种解决方案能以最少的操作努力满足此要求?
- A. 在 AWS Glue 笔记本中创建并运行 Apache Spark 作业。配置该作业以读取 S3 文件并计算不同客户的数量。
- B. 创建 AWS Glue 爬网程序,为 S3 文件创建 AWS Glue 数据目录。从 Amazon Athena 运行 SQL 查询以计算不同客户的数量。
- C. 在 Amazon EMR Serverless 中创建并运行 Apache Spark 作业以计算不同客户的数量。
- D. 使用 AWS Glue DataBrew 创建一个配方(recipe),利用 COUNT_DISTINCT 聚合函数计算不同客户的数量。 ✓
正确答案: D. 使用 AWS Glue DataBrew 创建一个配方(recipe),利用 COUNT_DISTINCT 聚合函数计算不同客户的数量。
解析
考虑到操作简便性和效率,AWS Glue DataBrew 提供了一个用户友好的界面,允许数据工程师通过简单的操作来清洗和准备数据。在这个场景中,数据工程师需要将两列数据合并,并计算不同客户的数量。使用 AWS Glue DataBrew,可以通过创建一个配方(recipe),使用 COUNT_DISTINCT 聚合函数直接计算出不同客户的数量,而无需编写复杂的代码或配置额外的服务。因此,选项D提供了最少的操作努力,是满足这一需求的最佳解决方案。