Q45 — AWS SAP-C02 第3章

第 45/75 题 | ← 返回第3章

Q270. 一家公司从物联网设备车队收集大量数据。数据以优化行列式(ORC)文件格式存储在持久Amazon EMR集群上的Hadoop分布式文件系统(HDFS)中。 公司的数据分析团队使用部署在同一EMR集群上的Apache Presto中的SQL查询数据。查询扫描大量数据,始终在15分钟内运行完成,且仅在下午5点到晚上10点之间运行。 公司担心当前解决方案的高成本。解决方案架构师必须提出最具成本效益的允许SQL数据查询的解决方案。 哪种解决方案将满足这些要求?

正确答案: B. 将数据存储在Amazon S3中。使用AWS Glue Data Catalog和Amazon Athena查询数据。

解析

将数据存储在Amazon S3中并使用AWS Glue Data Catalog和Amazon Athena查询数据是非常高效的方法。 Amazon Athena可以使用标准SQL执行查询,并按需计费,这意味着您只为实际查询付费。AWS Glue Data Catalog可以提供元数据的中央存储库。Amazon S3提供可扩展的存储选项和强大的安全功能。 由于查询仅在下午5点到晚上10点之间运行,使用AWS Glue和Amazon Athena进行查询还避免了与EMR集群相关的高成本。 选项A使用Redshift Spectrum对于较小的查询不是最经济实惠的选择。选项C增加了维护EMR集群的成本。选项D维护Redshift集群的成本较高,不适合快速查询小型数据集。