一家公司将数据集以 JSON 和 .csv 格式存储在 Amazon S3 存储桶中。该公司拥有 Amazon RDS for Microsoft SQL Server 数据库、采用预置容量模式的 Amazon Dyna

Question

一家公司将数据集以 JSON 和 .csv 格式存储在 Amazon S3 存储桶中。该公司拥有 Amazon RDS for Microsoft SQL Server 数据库、采用预置容量模式的 Amazon DynamoDB 表以及一个 Amazon Redshift 集群。一个数据工程团队必须开发一种解决方案，使数据科学家能够使用类似 SQL 的语法查询所有数据源。

Accepted Answer

A. 使用 AWS Glue 爬取数据源，将元数据存储在 AWS Glue 数据目录中。使用 Amazon Athena 查询数据：对结构化数据源使用 SQL；对 JSON 格式存储的数据使用 PartiQL。

Answer

B. 使用 AWS Glue 爬取数据源，将元数据存储在 AWS Glue 数据目录中。使用 Redshift Spectrum 查询数据：对结构化数据源使用 SQL；对 JSON 格式存储的数据使用 PartiQL。

Answer

C. 使用 AWS Glue 爬取数据源，将元数据存储在 AWS Glue 数据目录中。使用 AWS Glue 作业将 JSON 格式的数据转换为 Apache Parquet 或 .csv 格式，并将转换后的数据存储在 S3 存储桶中。使用 Amazon Athena 查询原始数据和 S3 存储桶中的转换后数据。

Answer

D. 使用 AWS Lake Formation 构建数据湖。使用 Lake Formation 作业将所有数据源的数据转换为 Apache Parquet 格式，并将转换后的数据存储在 S3 存储桶中。使用 Amazon Athena 或 Redshift Spectrum 查询数据。

Q60 — AWS DEA-C01 第1章

正确答案: A. 使用 AWS Glue 爬取数据源，将元数据存储在 AWS Glue 数据目录中。使用 Amazon Athena 查询数据：对结构化数据源使用 SQL；对 JSON 格式存储的数据使用 PartiQL。

解析