Q35 — AWS DEA-C01 第1章
第 35/100 問 | ← 第1章
ある企業は、データレイクとして使用しているAmazon S3ストレージをパーティション化する必要があります。パーティション化には、次の形式のS3オブジェクトキーのパスを使用します:s3://bucket/prefix/year=2023/month=01/day=01。 データエンジニアは、企業がバケットに新しいパーティションを追加した際に、AWS Glue Data CatalogがS3ストレージと同期されることを保証する必要があります。 これらの要件を最も低い遅延で満たすソリューションはどれですか?
- A. AWS Glueクローラーを毎朝実行するようスケジュールする。
- B. AWS Glue CreatePartition APIを1日に2回手動で実行する。
- C. Amazon S3にデータを書き込むコードからBoto3 AWS Glue create_partition API呼び出しを実行する。 ✓
- D. AWS GlueコンソールからMSCK REPAIR TABLEコマンドを実行する。
正解: C. Amazon S3にデータを書き込むコードからBoto3 AWS Glue create_partition API呼び出しを実行する。
解説
遅延を最小限に抑え、AWS Glue Data CatalogがAmazon S3ストレージと同期されることを保証するには、データがS3に書き込まれた直後にパーティション作成をトリガーすることが理想的です。選択肢Cは、S3へのデータ書き込みを行うコードからBoto3 AWS Glueのcreate_partition APIを呼び出すことを説明しており、即時同期を実現できるため、遅延が最小となります。一方、定期的にクローラーを実行する選択肢A、手動でAPIを実行する選択肢B、またはMSCK REPAIR TABLEコマンドを使用する選択肢Dは、即時同期を実現できず、より高い遅延を伴います。したがって、選択肢Cが要件を満たし、かつ遅延が最小となるソリューションです。