Q41 — AWS DEA-C01 第1章

第 41/100 题 | ← 返回第1章

一家公司需要为其在AWS云中运行的数据源设置数据目录和元数据管理。该公司将使用该数据目录来维护一组数据存储中所有对象的元数据。这些数据存储包括结构化数据源(例如Amazon RDS和Amazon Redshift),也包括半结构化数据源(例如存储在Amazon S3中的JSON文件和.xml文件)。该公司需要一种能够定期更新数据目录的解决方案,该方案还必须能够检测源元数据的变化。哪种解决方案能以最少的运维开销满足这些要求?

正确答案: B. 使用AWS Glue Data Catalog作为中心元数据存储库。使用AWS Glue爬虫连接到多个数据存储,并使用元数据变更更新Data Catalog。按计划定期运行爬虫以更新元数据目录。

解析

答案B是最优选择。AWS Glue Data Catalog专门设计用于处理多源数据的元数据管理,包括结构化和半结构化数据源。Glue爬虫可以自动连接到各种数据存储,并定期检测和更新元数据变化,减少了手动配置和编码的需求,从而降低了操作开销。而选项A中使用Aurora作为数据目录并通过Lambda函数更新,以及选项C中使用DynamoDB结合Lambda函数,都不如Glue Data Catalog和爬虫的组合便捷和高效。选项D只提到了部分数据源的处理方式,不如B全面。所以选择B选项。