Q11 — AWS DEA-C01 第1章
第 11/100 题 | ← 返回第1章
一家公司将投资组合每日财务表现记录以.csv格式存储在Amazon S3存储桶中。一名数据工程师使用AWS Glue爬虫对S3中的数据进行爬取。 该数据工程师必须确保S3数据每日均可在AWS Glue Data Catalog中被访问。
- A. 创建一个包含AmazonS3FullAccess策略的IAM角色。将该角色与爬虫关联。将源数据的S3存储桶路径指定为爬虫的数据存储位置。创建每日运行爬虫的计划。将输出目标配置为现有S3存储桶中的新路径。
- B. 创建一个包含AWSGlueServiceRole策略的IAM角色。将该角色与爬虫关联。将源数据的S3存储桶路径指定为爬虫的数据存储位置。创建每日运行爬虫的计划。为输出指定数据库名称。 ✓
- C. 创建一个包含AmazonS3FullAccess策略的IAM角色。将该角色与爬虫关联。将源数据的S3存储桶路径指定为爬虫的数据存储位置。分配数据处理单元(DPUs)以每日运行爬虫。为输出指定数据库名称。
- D. 创建一个包含AWSGlueServiceRole策略的IAM角色。将该角色与爬虫关联。将源数据的S3存储桶路径指定为爬虫的数据存储位置。分配数据处理单元(DPUs)以每日运行爬虫。将输出目标配置为现有S3存储桶中的新路径。
正确答案: B. 创建一个包含AWSGlueServiceRole策略的IAM角色。将该角色与爬虫关联。将源数据的S3存储桶路径指定为爬虫的数据存储位置。创建每日运行爬虫的计划。为输出指定数据库名称。
解析
AWS Glue爬虫需要关联具有适当权限的IAM角色,其中AWSGlueServiceRole策略包含了访问S3和执行Glue操作的必要权限。每日运行爬虫的任务需通过创建计划来实现,而非手动分配DPUs。指定数据库名称确保爬虫输出的元数据正确存储在Glue Data Catalog中,而不是将数据导出到S3路径。AmazonS3FullAccess策略权限过大且非必要,且DPU分配由AWS自动处理。正确选项应包含AWSGlueServiceRole策略、调度设置及数据库输出。[AWS文档指出,AWSGlueServiceRole策略为Glue服务提供所需权限,包括访问S3和更新Data Catalog。设置定时任务使用Schedule而非DPUs分配。输出到数据库而非S3路径符合Data Catalog的使用场景。选项B符合所有这些要求。]