Q32 — AWS DEA-C01 第1章

第 32/100 题 | ← 返回第1章

一名数据工程师需将结构化CSV格式的源数据摄取至Amazon S3数据湖。CSV文件包含15列。数据分析师需对数据集的一列或两列运行Amazon Athena查询,极少查询整个文件。

正确答案: D. 创建一个AWS Glue提取、转换和加载(ETL)作业,从CSV结构化数据源读取数据。配置该作业以Apache Parquet格式将数据写入数据湖。

解析

鉴于数据分析师通常仅查询少数几列且极少全表扫描,选择列式存储格式可显著提升查询效率并降低成本。Apache Parquet作为列式存储格式,天然支持按列读取、高效压缩及谓词下推,能大幅减少Athena查询时扫描的数据量,从而降低计算费用。相比之下,CSV(选项A)、JSON(选项B)为行式格式,全列读取开销大;Avro(选项C)虽为二进制行式格式,压缩率优于CSV但不支持列裁剪。因此,使用AWS Glue ETL作业将CSV转换为Parquet写入S3(选项D)是最具成本效益的方案。