Q75 — AWS DEA-C01 第1章
第 75/100 题 | ← 返回第1章
一家公司开发了多个AWS Glue提取、转换和加载(ETL)作业,用于验证和转换来自Amazon S3的数据。这些ETL作业每天批量一次将数据加载到Amazon RDS for MySQL中。ETL作业使用DynamicFrame从S3读取数据。 当前,ETL作业处理S3存储桶中的全部数据。但该公司希望作业仅处理每日增量数据。 哪种解决方案能以最少的编码工作量满足此要求?
- A. 创建一个ETL作业,读取S3文件状态并将状态记录在Amazon DynamoDB中。
- B. 为ETL作业启用作业书签(job bookmarks),以便在每次运行后更新状态,跟踪先前已处理的数据。 ✓
- C. 为ETL作业启用作业指标(job metrics),以帮助在Amazon CloudWatch中跟踪已处理的对象。
- D. 配置ETL作业在每次运行后从Amazon S3删除已处理的对象。
正确答案: B. 为ETL作业启用作业书签(job bookmarks),以便在每次运行后更新状态,跟踪先前已处理的数据。
解析
在处理仅需处理每日增量数据的需求时,选项B启用作业书签(job bookmarks)是最省力的方法。作业书签能够在每次运行后更新状态,以跟踪先前处理的数据,从而使ETL作业在后续运行中只处理增量数据。选项A创建读取S3文件状态并在Amazon DynamoDB中记录状态的ETL作业,需要额外的开发和配置工作。选项C启用作业指标在Amazon CloudWatch中跟踪处理的对象,不能直接实现只处理增量数据的目标。选项D配置ETL作业在每次运行后从Amazon S3删除已处理的对象,这种方式可能会导致数据丢失等问题,且不是最有效的只处理增量数据的方法。所以,答案选B。