Q69 — AWS DEA-C01 第1章
第 69/100 题 | ← 返回第1章
一家在线零售公司将其应用负载均衡器(ALB)访问日志存储在Amazon S3存储桶中。该公司希望使用Amazon Athena查询日志以分析流量模式。 一名数据工程师在Athena中创建了一个未分区表。随着数据量逐渐增加,查询响应时间也随之延长。该数据工程师希望提升Athena中的查询性能。 哪种解决方案可在运营工作量最少的前提下满足这些要求?
- A. 创建一个AWS Glue作业,自动推断所有ALB访问日志的模式,并将分区元数据写入AWS Glue Data Catalog。
- B. 创建一个AWS Glue爬网程序,配置分类器以自动推断所有ALB访问日志的模式,并将分区元数据写入AWS Glue Data Catalog。 ✓
- C. 创建一个AWS Lambda函数转换所有ALB访问日志,将结果以Apache Parquet格式保存至Amazon S3,并对元数据进行分区,然后使用Athena查询转换后的数据。
- D. 使用Apache Hive创建分桶表,并使用AWS Lambda函数转换所有ALB访问日志。
正确答案: B. 创建一个AWS Glue爬网程序,配置分类器以自动推断所有ALB访问日志的模式,并将分区元数据写入AWS Glue Data Catalog。
解析
AWS Glue爬网程序可全自动发现S3中数据的模式与分区结构(如按日期路径),并将元数据同步至Data Catalog,使Athena能利用分区裁剪显著加速查询,且无需编写代码或管理作业。选项A需开发Glue作业,增加开发与维护成本;选项C需Lambda开发、Parquet转换及S3路径管理,操作复杂度高;选项D引入Hive和Lambda双重组件,运维负担最重。选项B自动化程度最高、操作最简,故为最优解。