Q64 — AWS DEA-C01 第1章
第 64/100 問 | ← 第1章
データエンジニアは、抽出・変換・ロード(ETL)ジョブを構築する必要があります。このETLジョブは、ユーザーがAmazon S3バケットにアップロードする日々の入力.csvファイルを処理します。各S3オブジェクトのサイズは100 MB未満です。 これらの要件を最も費用対効果よく満たすソリューションはどれですか?
- A. カスタムPythonアプリケーションを作成し、Amazon Elastic Kubernetes Service(Amazon EKS)クラスター上でホストします。
- B. PySpark ETLスクリプトを作成し、Amazon EMRクラスター上でホストします。
- C. AWS Glue PySparkジョブを作成し、Apache Sparkを使用してデータを変換します。 ✓
- D. AWS Glue Pythonシェルジョブを作成し、pandasを使用してデータを変換します。
正解: C. AWS Glue PySparkジョブを作成し、Apache Sparkを使用してデータを変換します。
解説
AWS GlueはETLタスクを専門に設計されており、特にS3内のデータ処理に最適化されています。100 MB未満のS3オブジェクトの場合、AWS Glue PySparkジョブは、抽出・変換・ロードのタスクを効率的かつ経済的に実行できます。一方、EKSクラスター上で実行されるカスタムPythonアプリケーションや、EMRクラスター上で実行されるPySparkスクリプト、およびpandasを用いたAWS Glue Pythonシェルジョブは、このシナリオにおいてAWS Glue PySparkジョブほど費用対効果が高くありません。したがって、選択肢Cが最も要件を満たし、費用対効果が最も高い解答です。