Q64 — AWS DEA-C01 第1章

第 64/100 题 | ← 返回第1章

一名数据工程师需要构建一个提取、转换和加载(ETL)作业。该 ETL 作业将处理用户上传至 Amazon S3 存储桶的每日传入 .csv 文件。每个 S3 对象的大小小于 100 MB。

正确答案: C. 编写 AWS Glue PySpark 作业,使用 Apache Spark 转换数据。

解析

AWS Glue 专门为 ETL 任务设计,尤其适用于处理 S3 中的数据。对于小于 100MB 的 S3 对象,AWS Glue PySpark 作业能够高效且经济地完成提取、转换和加载的任务。相比之下,自定义 Python 应用在 EKS 集群上运行或在 EMR 集群上运行 PySpark 脚本,以及使用 pandas 在 AWS Glue Python Shell 作业中处理,都不如 AWS Glue PySpark 作业在这种场景下具有成本效益。因此,选项C是最符合要求且成本效益最高的答案。