一家公司每天从 SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka 和 Amazon DynamoDB 等数据源提取约 1 TB 的数据。部分数据源具有未定义的数据模式或

Question

一家公司每天从 SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka 和 Amazon DynamoDB 等数据源提取约 1 TB 的数据。部分数据源具有未定义的数据模式或会变化的数据模式。
一名数据工程师必须实施一种解决方案，以检测这些数据源的模式。该解决方案必须将数据提取、转换并加载（ETL）到 Amazon S3 存储桶中。该公司有服务级别协议（SLA），要求在数据生成后 15 分钟内将数据加载到 S3 存储桶中。

Accepted Answer

B. 使用 AWS Glue 检测模式并将数据提取、转换和加载到 S3 存储桶中。在 Apache Spark 中创建管道。

Answer

A. 使用 Amazon EMR 检测模式并将数据提取、转换和加载到 S3 存储桶中。在 Apache Spark 中创建管道。

Answer

C. 在 AWS Lambda 中创建 PySpark 程序，将数据提取、转换并加载到 S3 存储桶中。

Answer

D. 在 Amazon Redshift 中创建存储过程，以检测模式并将数据提取、转换和加载到 Redshift Spectrum 表中。从 Amazon S3 访问该表。

Q62 — AWS DEA-C01 第1章

正确答案: B. 使用 AWS Glue 检测模式并将数据提取、转换和加载到 S3 存储桶中。在 Apache Spark 中创建管道。

解析