一家公司每天接收一个包含客户数据的 .xls 格式文件，并将该文件存储在 Amazon S3 中。该每日文件大小约为 2 GB。
一名数据工程师需将文件中包含客户名字的列与包含客户姓氏的列进行拼接。该数据工程师需要确定该

Question

一家公司每天接收一个包含客户数据的 .xls 格式文件，并将该文件存储在 Amazon S3 中。该每日文件大小约为 2 GB。
一名数据工程师需将文件中包含客户名字的列与包含客户姓氏的列进行拼接。该数据工程师需要确定该文件中不同客户的数量。
哪种解决方案能以最少的操作努力满足此要求？

Accepted Answer

D. 使用 AWS Glue DataBrew 创建一个配方（recipe），利用 COUNT_DISTINCT 聚合函数计算不同客户的数量。

Answer

A. 在 AWS Glue 笔记本中创建并运行 Apache Spark 作业。配置该作业以读取 S3 文件并计算不同客户的数量。

Answer

B. 创建 AWS Glue 爬网程序，为 S3 文件创建 AWS Glue 数据目录。从 Amazon Athena 运行 SQL 查询以计算不同客户的数量。

Answer

C. 在 Amazon EMR Serverless 中创建并运行 Apache Spark 作业以计算不同客户的数量。

Q58 — AWS DEA-C01 第1章