Q58 — AWS DEA-C01 第1章
第 58/100 問 | ← 第1章
ある会社は、.xls形式の顧客データを含む日次ファイルを受信します。このファイルはAmazon S3に保存されています。日次ファイルのサイズは約2GBです。 データエンジニアは、ファイル内の顧客の名(first name)を含む列と姓(last name)を含む列を連結します。データエンジニアは、ファイル内の固有の顧客数を決定する必要があります。
- A. AWS GlueノートブックでApache Sparkジョブを作成および実行します。ジョブを構成してS3ファイルを読み込み、固有の顧客数を計算します。
- B. AWS Glueクローラーを作成して、S3ファイルのAWS Glue Data Catalogを作成します。Amazon AthenaからSQLクエリを実行して、固有の顧客数を計算します。
- C. Amazon EMR ServerlessでApache Sparkジョブを作成および実行して、固有の顧客数を計算します。
- D. AWS Glue DataBrewを使用して、COUNT_DISTINCT集計関数を用いるレシピを作成し、固有の顧客数を計算します。 ✓
正解: D. AWS Glue DataBrewを使用して、COUNT_DISTINCT集計関数を用いるレシピを作成し、固有の顧客数を計算します。
解説
操作の簡便性と効率性を考慮すると、AWS Glue DataBrewは、データエンジニアが直感的なインターフェースでデータのクリーニングおよび準備を行うことを可能にします。このシナリオでは、2つの列を連結し、固有の顧客数を計算する必要があります。AWS Glue DataBrewでは、COUNT_DISTINCT集計関数を用いたレシピを作成することで、複雑なコードの記述や追加サービスの設定を必要とせずに、直接的に固有の顧客数を計算できます。したがって、選択肢Dは最小の運用労力を提供し、この要件を満たす最適なソリューションです。