Q75 — AWS DEA-C01 第1章
第 75/100 問 | ← 第1章
ある企業は、Amazon S3からデータを検証および変換するための複数のAWS Glue抽出・変換・ロード(ETL)ジョブを開発しました。これらのETLジョブは、データを1日1回バッチ処理でAmazon RDS for MySQLにロードします。ETLジョブはDynamicFrameを使用してS3データを読み込みます。 現在、ETLジョブはS3バケット内のすべてのデータを処理しています。しかし、企業はジョブが毎日の増分データのみを処理するようにしたいと考えています。 この要件を満たし、かつコーディング作業が最小となるソリューションはどれですか?
- A. S3ファイルのステータスを読み取り、そのステータスをAmazon DynamoDBに記録するETLジョブを作成します。
- B. ETLジョブでジョブブックマークを有効化し、実行後に状態を更新して、以前に処理済みのデータを追跡できるようにします。 ✓
- C. ETLジョブでジョブメトリクスを有効化し、Amazon CloudWatchで処理済みオブジェクトを追跡できるようにします。
- D. ETLジョブを設定して、各実行後にAmazon S3から処理済みオブジェクトを削除します。
正解: B. ETLジョブでジョブブックマークを有効化し、実行後に状態を更新して、以前に処理済みのデータを追跡できるようにします。
解説
毎日の増分データのみを処理するという要件において、選択肢Bのジョブブックマーク(job bookmarks)を有効化することが最も少ないコーディング作業で実現できます。ジョブブックマークは、各実行後に状態を更新し、以前に処理されたデータを追跡するため、後続の実行では増分データのみを処理できます。選択肢Aは、S3ファイルのステータスを読み取り、Amazon DynamoDBに記録するETLジョブの作成を必要とし、追加の開発および設定作業が必要です。選択肢Cは、Amazon CloudWatchで処理済みオブジェクトを追跡するためのジョブメトリクスの有効化ですが、これは増分データのみを処理するという目標を直接達成できません。選択肢Dは、各実行後にAmazon S3から処理済みオブジェクトを削除する設定ですが、これはデータ損失などのリスクを伴い、増分データのみを処理するための最も効果的な方法ではありません。したがって、解答はBです。