Q60 — AWS DEA-C01 第1章
第 60/100 题 | ← 返回第1章
一家公司将数据集以 JSON 和 .csv 格式存储在 Amazon S3 存储桶中。该公司拥有 Amazon RDS for Microsoft SQL Server 数据库、采用预置容量模式的 Amazon DynamoDB 表以及一个 Amazon Redshift 集群。一个数据工程团队必须开发一种解决方案,使数据科学家能够使用类似 SQL 的语法查询所有数据源。
- A. 使用 AWS Glue 爬取数据源,将元数据存储在 AWS Glue 数据目录中。使用 Amazon Athena 查询数据:对结构化数据源使用 SQL;对 JSON 格式存储的数据使用 PartiQL。 ✓
- B. 使用 AWS Glue 爬取数据源,将元数据存储在 AWS Glue 数据目录中。使用 Redshift Spectrum 查询数据:对结构化数据源使用 SQL;对 JSON 格式存储的数据使用 PartiQL。
- C. 使用 AWS Glue 爬取数据源,将元数据存储在 AWS Glue 数据目录中。使用 AWS Glue 作业将 JSON 格式的数据转换为 Apache Parquet 或 .csv 格式,并将转换后的数据存储在 S3 存储桶中。使用 Amazon Athena 查询原始数据和 S3 存储桶中的转换后数据。
- D. 使用 AWS Lake Formation 构建数据湖。使用 Lake Formation 作业将所有数据源的数据转换为 Apache Parquet 格式,并将转换后的数据存储在 S3 存储桶中。使用 Amazon Athena 或 Redshift Spectrum 查询数据。
正确答案: A. 使用 AWS Glue 爬取数据源,将元数据存储在 AWS Glue 数据目录中。使用 Amazon Athena 查询数据:对结构化数据源使用 SQL;对 JSON 格式存储的数据使用 PartiQL。
解析
为满足数据科学家使用类似SQL的语法查询所有数据源的需求,选择A选项最为合适且操作开销最小。AWS Glue可以自动发现和分类数据存储在S3中的不同格式,包括JSON和.csv,并将元数据存储在AWS Glue Data Catalog中。Amazon Athena支持使用标准SQL查询存储在S3中的数据,同时支持PartiQL来查询JSON格式的数据。这种方式无需转换数据格式,减少了处理时间和存储空间需求,且Athena按查询付费,无服务器管理成本,适合处理低频或偶发的大数据分析需求。