Q47 — AWS SAA-C03 第4章

第 47/105 题 | ← 返回第4章

Q242.一家公司有一个每天在同一时间运行的 AWS Glue 提取. 转换和加载 (ETL) 作业.该作业处理 Amazon S3 存储桶中的 XML 数据 每天都有新数据添加到 S3 存储桶中.解决方案架构师注意到 AWS Glue 在每次运行期间处理所有数据.解决方案架构师应该如何防止 AWS Glue 重新处理旧数据?

正确答案: A. 编辑作业以使用作业书签.

解析

为了防止AWS Glue重新处理旧数据,解决方案架构师应该编辑作业以使用作业书签。因此,选项A是正确答案。 默认情况下,每次作业运行时,AWS Glue都会处理输入位置中的所有数据。这可能导致不必要的处理开销和成本增加。通过使用作业书签,AWS Glue可以记住最后处理的记录,并在下次运行时从该记录开始处理。这允许作业只处理自上次运行以来添加的新数据。 选项B建议编辑作业,以便在处理完数据后删除数据。虽然这种方法是可行的,但是如果需要为其他目的保留数据,或者存在数据保留的监管要求,那么这种方法可能不是最佳的。 选项C建议通过将NumberOfWorkers字段设置为1来编辑作业。虽然这种方法可以工作,但它可能不足以防止AWS Glue重新处理旧数据。使用作业书签是实现这一目标的更精确的方法。 选项D建议使用FindMatches机器学习(ML)转换。虽然这种方法可以在数据中找到匹配项,但它不能解决防止AWS Glue重新处理旧数据的问题。 通过编辑AWS Glue ETL作业以使用作业书签,公司可以确保在每次运行期间只处理新数据。该解决方案最大限度地减少了处理开销并降低了成本,同时确保作业正常运行。