データエンジニアは、構造化された.csv形式のデータソースをAmazon S3データレイクに取り込む必要があります。.csvファイルには15列が含まれています。データアナリストは、このデータセットの1〜2列に対してAma

Question

データエンジニアは、構造化された.csv形式のデータソースをAmazon S3データレイクに取り込む必要があります。.csvファイルには15列が含まれています。データアナリストは、このデータセットの1〜2列に対してAmazon Athenaクエリを実行する必要があります。データアナリストは、ファイル全体をクエリすることをほとんど行いません。
これらの要件を最もコスト効率よく満たすソリューションはどれですか？

Accepted Answer

D. AWS Glueの抽出・変換・ロード（ETL）ジョブを作成し、.csv形式の構造化データソースから読み込みます。このジョブを、データレイクにApache Parquet形式でデータを書き込むように設定します。

Answer

A. AWS Glue PySparkジョブを使用して、ソースデータを.csv形式でデータレイクに取り込みます。

Answer

B. AWS Glueの抽出・変換・ロード（ETL）ジョブを作成し、.csv形式の構造化データソースから読み込みます。このジョブを、データレイクにJSON形式でデータを取り込むように設定します。

Answer

C. AWS Glue PySparkジョブを使用して、ソースデータをApache Avro形式でデータレイクに取り込みます。

Q32 — AWS DEA-C01 第1章

正解: D. AWS Glueの抽出・変換・ロード（ETL）ジョブを作成し、.csv形式の構造化データソースから読み込みます。このジョブを、データレイクにApache Parquet形式でデータを書き込むように設定します。

解説