Q60 — AWS DEA-C01 第1章
第 60/100 問 | ← 第1章
ある会社は、JSON形式および.csv形式のデータセットをAmazon S3バケットに保存しています。この会社は、Amazon RDS for Microsoft SQL Serverデータベース、プロビジョニング容量モードのAmazon DynamoDBテーブル、およびAmazon Redshiftクラスターを所有しています。データエンジニアリングチームは、データサイエンティストがSQLに類似した構文を用いてすべてのデータソースをクエリできるソリューションを開発する必要があります。
- A. AWS Glueを使用してデータソースをクロールします。メタデータをAWS Glue Data Catalogに保存します。Amazon Athenaを使用してデータをクエリします。構造化データソースにはSQLを使用します。JSON形式で保存されたデータにはPartiQLを使用します。 ✓
- B. AWS Glueを使用してデータソースをクロールします。メタデータをAWS Glue Data Catalogに保存します。Redshift Spectrumを使用してデータをクエリします。構造化データソースにはSQLを使用します。JSON形式で保存されたデータにはPartiQLを使用します。
- C. AWS Glueを使用してデータソースをクロールします。メタデータをAWS Glue Data Catalogに保存します。AWS Glueジョブを使用してJSON形式のデータをApache Parquetまたは.csv形式に変換します。変換後のデータをS3バケットに保存します。Amazon Athenaを使用して、S3バケット内の元のデータおよび変換済みデータをクエリします。
- D. AWS Lake Formationを使用してデータレイクを作成します。Lake Formationジョブを使用して、すべてのデータソースからデータをApache Parquet形式に変換します。変換後のデータをS3バケットに保存します。Amazon AthenaまたはRedshift Spectrumを使用してデータをクエリします。
正解: A. AWS Glueを使用してデータソースをクロールします。メタデータをAWS Glue Data Catalogに保存します。Amazon Athenaを使用してデータをクエリします。構造化データソースにはSQLを使用します。JSON形式で保存されたデータにはPartiQLを使用します。
解説
データサイエンティストがSQLに類似した構文ですべてのデータソースをクエリできるようにする要件を満たすには、選択肢Aが最も適しており、運用オーバーヘッドが最小です。AWS Glueは、S3に保存されたJSONおよび.csvなどのさまざまな形式のデータを自動的に検出し分類し、そのメタデータをAWS Glue Data Catalogに保存できます。Amazon Athenaは、S3に保存されたデータを標準SQLでクエリでき、JSON形式のデータにはPartiQLをサポートします。この方法ではデータ形式の変換が不要であり、処理時間とストレージスペースを節約でき、さらにAthenaはクエリごとに課金されるサーバーレスサービスであるため、低頻度または偶発的な大規模分析に最適です。