Q35 — AWS DEA-C01 第1章
第 35/100 题 | ← 返回第1章
一家公司需要对其用于数据湖的 Amazon S3 存储进行分区,分区路径格式如下:s3://bucket/prefix/year=2023/month=01/day=01。数据工程师必须确保当公司在存储桶中新增分区时,AWS Glue Data Catalog 能与 S3 存储同步。
- A. 每天早晨调度一次 AWS Glue 爬网程序。
- B. 每天手动两次调用 AWS Glue CreatePartition API。
- C. 在向 Amazon S3 写入数据的代码中调用 Boto3 AWS Glue create_partition API。 ✓
- D. 从 AWS Glue 控制台运行 MSCK REPAIR TABLE 命令。
正确答案: C. 在向 Amazon S3 写入数据的代码中调用 Boto3 AWS Glue create_partition API。
解析
为实现最低延迟同步,应在新分区创建后立即更新 Data Catalog,而非依赖周期性或手动操作。选项 C 在写入 S3 的同一事务或流程中直接调用 create_partition API,可实现毫秒级元数据注册,延迟最小。选项 A 的定时爬网存在最长 24 小时延迟;选项 B 依赖人工操作,不可靠且延迟高;选项 D 的 MSCK REPAIR TABLE 仅扫描现有路径并添加缺失分区,无法保证实时性且需全表扫描,开销大、延迟高。因此 C 是最优解。