Q32 — AWS DEA-C01 第1章
第 32/100 题 | ← 返回第1章
一名数据工程师需将结构化CSV格式的源数据摄取至Amazon S3数据湖。CSV文件包含15列。数据分析师需对数据集的一列或两列运行Amazon Athena查询,极少查询整个文件。
- A. 使用AWS Glue PySpark作业将源数据以CSV格式摄取至数据湖。
- B. 创建一个AWS Glue提取、转换和加载(ETL)作业,从CSV结构化数据源读取数据。配置该作业以JSON格式将数据摄取至数据湖。
- C. 使用AWS Glue PySpark作业将源数据以Apache Avro格式摄取至数据湖。
- D. 创建一个AWS Glue提取、转换和加载(ETL)作业,从CSV结构化数据源读取数据。配置该作业以Apache Parquet格式将数据写入数据湖。 ✓
正确答案: D. 创建一个AWS Glue提取、转换和加载(ETL)作业,从CSV结构化数据源读取数据。配置该作业以Apache Parquet格式将数据写入数据湖。
解析
鉴于数据分析师通常仅查询少数几列且极少全表扫描,选择列式存储格式可显著提升查询效率并降低成本。Apache Parquet作为列式存储格式,天然支持按列读取、高效压缩及谓词下推,能大幅减少Athena查询时扫描的数据量,从而降低计算费用。相比之下,CSV(选项A)、JSON(选项B)为行式格式,全列读取开销大;Avro(选项C)虽为二进制行式格式,压缩率优于CSV但不支持列裁剪。因此,使用AWS Glue ETL作业将CSV转换为Parquet写入S3(选项D)是最具成本效益的方案。