データエンジニアは、抽出・変換・ロード（ETL）ジョブを構築する必要があります。このETLジョブは、ユーザーがAmazon S3バケットにアップロードする日々の入力.csvファイルを処理します。各S3オブジェクトのサイズ

Question

データエンジニアは、抽出・変換・ロード（ETL）ジョブを構築する必要があります。このETLジョブは、ユーザーがAmazon S3バケットにアップロードする日々の入力.csvファイルを処理します。各S3オブジェクトのサイズは100 MB未満です。
これらの要件を最も費用対効果よく満たすソリューションはどれですか？

Accepted Answer

C. AWS Glue PySparkジョブを作成し、Apache Sparkを使用してデータを変換します。

Answer

A. カスタムPythonアプリケーションを作成し、Amazon Elastic Kubernetes Service（Amazon EKS）クラスター上でホストします。

Answer

B. PySpark ETLスクリプトを作成し、Amazon EMRクラスター上でホストします。

Answer

D. AWS Glue Pythonシェルジョブを作成し、pandasを使用してデータを変換します。

Q64 — AWS DEA-C01 第1章

正解: C. AWS Glue PySparkジョブを作成し、Apache Sparkを使用してデータを変換します。

解説