Q66 — AWS DEA-C01 第1章
第 66/100 問 | ← 第1章
ある企業は、Amazon S3に10~15 TBの圧縮されていない.csvファイルを保存しています。この企業は、Amazon Athenaをワンタイムクエリエンジンとして評価しています。 この企業は、クエリ実行時間およびストレージコストを最適化するためにデータを変換したいと考えています。 Athenaクエリに対してこれらの要件を満たすファイル形式および圧縮ソリューションはどれですか?
- A. zipで圧縮されたcsv形式
- B. bzip2で圧縮されたJSON形式
- C. Snappyで圧縮されたApache Parquet形式 ✓
- D. LZOで圧縮されたApache Avro形式
正解: C. Snappyで圧縮されたApache Parquet形式
解説
Apache Parquetは、大規模なデータ分析およびクエリに最適化された効率的な列指向ストレージ形式です。Snappyは高速かつ効果的な圧縮アルゴリズムです。一方、.csv形式は最適なストレージ形式ではなく、圧縮効果も限定的です。JSON形式は複雑なデータ構造の保存およびクエリ効率においてParquetほど優れておらず、Avro形式もデータストレージに広く使用されていますが、Athenaとの組み合わせでは、クエリパフォーマンスおよび圧縮効率の面でParquet+Snappyほど優れていません。したがって、選択肢Cはクエリ実行時間の最適化およびストレージコストの削減という要件をより良く満たします。