Q9 — AWS DEA-C01 第1章
第 9/100 問 | ← 第1章
データエンジニアは、Amazon Athenaクエリの完了時間を短縮する必要があります。データエンジニアは、Athenaクエリで使用されるすべてのファイルが現在圧縮されていない.csv形式で保存されていることに気づきました。また、ユーザーはほとんどのクエリで特定の列を選択して実行していることに気づきました。
- A. データ形式を.csvからJSON形式に変更し、Snappy圧縮を適用します。
- B. .csvファイルをSnappy圧縮で圧縮します。
- C. データ形式を.csvからApache Parquetに変更し、Snappy圧縮を適用します。 ✓
- D. .csvファイルをgzip圧縮で圧縮します。
正解: C. データ形式を.csvからApache Parquetに変更し、Snappy圧縮を適用します。
解説
答えCが正しいです。この状況では、データ形式を.csvからApache Parquet形式に変更し、Snappy圧縮を適用することで、Athenaクエリのパフォーマンスを大幅に向上させることができます。Parquetは、列指向の効率的なストレージ形式であり、列単位のクエリに優れ、読み込まれるデータ量を削減できます。また、Snappy圧縮は良好な圧縮率を保ちつつ、解凍速度が速く、クエリ時の高速処理に適しています。選択肢AのJSON形式は、クエリ最適化にはParquetほど適していません。選択肢Bは.csvファイルの圧縮のみであり、形式変更による効果には及びません。選択肢Dのgzip圧縮は、解凍速度が比較的遅いです。以上より、選択肢Cが最適な解答です。