Q41 — AWS DEA-C01 第1章
第 41/100 問 | ← 第1章
ある企業は、AWSクラウド上で実行されるデータソースのためのデータカタログおよびメタデータ管理を設定する必要があります。企業は、一連のデータストアに存在するすべてのオブジェクトのメタデータを維持するためにデータカタログを使用します。データストアには、Amazon RDSおよびAmazon Redshiftなどの構造化ソースが含まれます。また、Amazon S3に保存されているJSONファイルおよび.xmlファイルなどの半構造化ソースも含まれます。 企業は、定期的にデータカタログを更新するソリューションを必要としています。また、ソースメタデータの変更を検出する必要があります。 これらの要件を最も少ない運用オーバーヘッドで満たすソリューションはどれですか?
- A. データカタログとしてAmazon Auroraを使用します。AWS Lambda関数を作成し、データカタログに接続します。Lambda関数を構成して、複数のソースからメタデータ情報を収集し、Auroraデータカタログを更新します。Lambda関数を定期的に実行するようスケジュールします。
- B. AWS Glue Data Catalogを中央メタデータリポジトリとして使用します。AWS Glueクローラーを使用して複数のデータストアに接続し、メタデータ変更をData Catalogに更新します。クローラーを定期的に実行するようスケジュールして、メタデータカタログを更新します。 ✓
- C. データカタログとしてAmazon DynamoDBを使用します。AWS Lambda関数を作成し、データカタログに接続します。Lambda関数を構成して、複数のソースからメタデータ情報を収集し、DynamoDBデータカタログを更新します。Lambda関数を定期的に実行するようスケジュールします。
- D. AWS Glue Data Catalogを中央メタデータリポジトリとして使用します。Amazon RDSおよびAmazon Redshiftソースのスキーマを抽出し、Data Catalogを構築します。Amazon S3内のデータに対してAWS Glueクローラーを使用してスキーマを推論し、Data Catalogを自動的に更新します。
正解: B. AWS Glue Data Catalogを中央メタデータリポジトリとして使用します。AWS Glueクローラーを使用して複数のデータストアに接続し、メタデータ変更をData Catalogに更新します。クローラーを定期的に実行するようスケジュールして、メタデータカタログを更新します。
解説
正解はBです。AWS Glue Data Catalogは、構造化および半構造化データソースを含む多様なデータソースのメタデータ管理に特化して設計されています。Glueクローラーは、さまざまなデータストアに自動的に接続し、定期的にメタデータの変更を検出して更新することができるため、手動での設定およびコーディングの必要性が減少し、運用オーバーヘッドが低減されます。一方、選択肢AではAuroraをデータカタログとして使用し、Lambda関数で更新する方法は、Glue Data Catalogおよびクローラーの組み合わせよりも煩雑で効率的ではありません。選択肢CではDynamoDBとLambda関数を組み合わせるため、同様に効率性に劣ります。選択肢Dは一部のデータソースのみを対象としており、Bほど包括的ではありません。したがって、Bの選択肢が最適解です。