Q35 — AWS DEA-C01 第1章

第 35/100 题 | ← 返回第1章

一家公司需要对其用于数据湖的 Amazon S3 存储进行分区,分区路径格式如下:s3://bucket/prefix/year=2023/month=01/day=01。数据工程师必须确保当公司在存储桶中新增分区时,AWS Glue Data Catalog 能与 S3 存储同步。

正确答案: C. 在向 Amazon S3 写入数据的代码中调用 Boto3 AWS Glue create_partition API。

解析

为实现最低延迟同步,应在新分区创建后立即更新 Data Catalog,而非依赖周期性或手动操作。选项 C 在写入 S3 的同一事务或流程中直接调用 create_partition API,可实现毫秒级元数据注册,延迟最小。选项 A 的定时爬网存在最长 24 小时延迟;选项 B 依赖人工操作,不可靠且延迟高;选项 D 的 MSCK REPAIR TABLE 仅扫描现有路径并添加缺失分区,无法保证实时性且需全表扫描,开销大、延迟高。因此 C 是最优解。