Q38 — AWS DEA-C01 第1章
第 38/100 题 | ← 返回第1章
一名数据工程师有一项一次性任务:读取 Amazon S3 存储桶中 Apache Parquet 格式对象的数据,且仅需查询其中一列。
- A. 配置一个 AWS Lambda 函数,从 S3 存储桶加载数据到 pandas DataFrame,再在该 DataFrame 上编写 SQL SELECT 语句查询所需列。
- B. 使用 S3 Select 编写 SQL SELECT 语句,直接从 S3 对象中检索所需列。 ✓
- C. 准备一个 AWS Glue DataBrew 项目来消费 S3 对象并查询所需列。
- D. 对 S3 对象运行 AWS Glue 爬网程序,然后在 Amazon Athena 中使用 SQL SELECT 语句查询所需列。
正确答案: B. 使用 S3 Select 编写 SQL SELECT 语句,直接从 S3 对象中检索所需列。
解析
S3 Select 允许直接对 S3 中的 Parquet 对象执行 SQL 查询,仅返回指定列,无需下载整个文件、无需预定义 Schema、无需启动计算集群,具备最低操作开销和最快响应。选项 A 需部署 Lambda、管理依赖、处理大文件内存限制;选项 C 的 DataBrew 需创建项目、配置作业、等待执行,适合交互式探索而非一次性轻量查询;选项 D 需先运行爬网(耗时且可能失败)、创建表、再提交 Athena 查询,步骤冗长、延迟高、成本高。因此 B 是唯一满足“最低操作开销”的方案。