Q89 — AWS DEA-C01 第1章

第 89/100 問 | ← 第1章

データエンジニアは、Amazon S3から読み取り、Amazon Redshiftに書き込むAWS Glueジョブのデバッグを行う必要があります。データエンジニアは、AWS Glueジョブに対してブックマーク機能を有効化しました。 データエンジニアは、AWS Glueジョブの最大同時実行数を1に設定しました。 AWS Glueジョブは、Amazon Redshiftへの出力の書き込みに正常に成功しています。しかし、以前のAWS Glueジョブ実行時に読み込まれたAmazon S3ファイルが、後続の実行で再処理されています。 AWS Glueジョブがファイルを再処理している可能性が高い理由は何ですか?

正解: D. AWS Glueジョブに必要なコミットステートメントがありません。

解説

AWS Glueでは、ブックマーク機能はジョブが新規データまたは変更データのみを処理することを保証します。AWS Glueジョブが適切なコミットステートメントなしでブックマークを使用している場合、ジョブは処理進捗を正しく記録できず、以前に読み込まれたS3ファイルが後続の実行で再処理される可能性があります。したがって、オプションDが正しく、AWS Glueジョブに必要なコミットステートメントが欠落していることが、ファイルの再処理の原因である可能性が高いです。