Q11 — AWS DEA-C01 第1章

第 11/100 题 | ← 返回第1章

一家公司将投资组合每日财务表现记录以.csv格式存储在Amazon S3存储桶中。一名数据工程师使用AWS Glue爬虫对S3中的数据进行爬取。 该数据工程师必须确保S3数据每日均可在AWS Glue Data Catalog中被访问。

正确答案: B. 创建一个包含AWSGlueServiceRole策略的IAM角色。将该角色与爬虫关联。将源数据的S3存储桶路径指定为爬虫的数据存储位置。创建每日运行爬虫的计划。为输出指定数据库名称。

解析

AWS Glue爬虫需要关联具有适当权限的IAM角色,其中AWSGlueServiceRole策略包含了访问S3和执行Glue操作的必要权限。每日运行爬虫的任务需通过创建计划来实现,而非手动分配DPUs。指定数据库名称确保爬虫输出的元数据正确存储在Glue Data Catalog中,而不是将数据导出到S3路径。AmazonS3FullAccess策略权限过大且非必要,且DPU分配由AWS自动处理。正确选项应包含AWSGlueServiceRole策略、调度设置及数据库输出。[AWS文档指出,AWSGlueServiceRole策略为Glue服务提供所需权限,包括访问S3和更新Data Catalog。设置定时任务使用Schedule而非DPUs分配。输出到数据库而非S3路径符合Data Catalog的使用场景。选项B符合所有这些要求。]