Q66 — AWS DEA-C01 第1章

第 66/100 题 | ← 返回第1章

某公司将在 Amazon S3 中存储10至15 TB未压缩的.csv文件。该公司正在评估将 Amazon Athena 作为一次性查询引擎。 该公司希望转换数据以优化查询运行时间和存储成本。 哪种文件格式与压缩方案可满足 Athena 查询的上述要求?

正确答案: C. Apache Parquet格式,使用Snappy压缩

解析

Apache Parquet是一种列式存储格式,专为高效分析查询和压缩而设计;Snappy提供快速解压与良好压缩比,显著提升Athena查询性能并降低存储成本。CSV为行式格式,无内置模式和压缩优势,查询效率低;JSON虽具结构化特性,但缺乏列裁剪能力,查询性能不及Parquet;Avro虽支持模式演化,但在Athena中查询性能和压缩效率均逊于Parquet+Snappy组合。因此,选项C最优。