Q32 — AWS DEA-C01 第1章

第 32/100 問 | ← 第1章

データエンジニアは、構造化された.csv形式のデータソースをAmazon S3データレイクに取り込む必要があります。.csvファイルには15列が含まれています。データアナリストは、このデータセットの1〜2列に対してAmazon Athenaクエリを実行する必要があります。データアナリストは、ファイル全体をクエリすることをほとんど行いません。 これらの要件を最もコスト効率よく満たすソリューションはどれですか?

正解: D. AWS Glueの抽出・変換・ロード(ETL)ジョブを作成し、.csv形式の構造化データソースから読み込みます。このジョブを、データレイクにApache Parquet形式でデータを書き込むように設定します。

解説

データアナリストが通常、データセットの1〜2列のみをクエリし、ファイル全体をクエリすることは稀であることを考慮すると、データの効率的な圧縮およびストレージを可能にするフォーマットの選択がコスト削減にとって極めて重要です。Apache Parquetフォーマットは、列指向ストレージフォーマットであり、部分列読み取りや単一列読み取りに最適化されており、クエリ時のデータスキャン量を効果的に削減することでクエリコストを低減できます。したがって、.csv形式のソースデータを読み込んでデータレイクにApache Parquet形式で書き込むよう設定したAWS Glue ETLジョブを作成することが、最もコスト効率の高いソリューションです。よって、正解はDです。