Q64 — AWS DEA-C01 第1章

第 64/100 問 | ← 第1章

データエンジニアは、抽出・変換・ロード(ETL)ジョブを構築する必要があります。このETLジョブは、ユーザーがAmazon S3バケットにアップロードする日々の入力.csvファイルを処理します。各S3オブジェクトのサイズは100 MB未満です。 これらの要件を最も費用対効果よく満たすソリューションはどれですか?

正解: C. AWS Glue PySparkジョブを作成し、Apache Sparkを使用してデータを変換します。

解説

AWS GlueはETLタスクを専門に設計されており、特にS3内のデータ処理に最適化されています。100 MB未満のS3オブジェクトの場合、AWS Glue PySparkジョブは、抽出・変換・ロードのタスクを効率的かつ経済的に実行できます。一方、EKSクラスター上で実行されるカスタムPythonアプリケーションや、EMRクラスター上で実行されるPySparkスクリプト、およびpandasを用いたAWS Glue Pythonシェルジョブは、このシナリオにおいてAWS Glue PySparkジョブほど費用対効果が高くありません。したがって、選択肢Cが最も要件を満たし、費用対効果が最も高い解答です。