Q62 — AWS DEA-C01 第1章
第 62/100 题 | ← 返回第1章
一家公司每天从 SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka 和 Amazon DynamoDB 等数据源提取约 1 TB 的数据。部分数据源具有未定义的数据模式或会变化的数据模式。 一名数据工程师必须实施一种解决方案,以检测这些数据源的模式。该解决方案必须将数据提取、转换并加载(ETL)到 Amazon S3 存储桶中。该公司有服务级别协议(SLA),要求在数据生成后 15 分钟内将数据加载到 S3 存储桶中。
- A. 使用 Amazon EMR 检测模式并将数据提取、转换和加载到 S3 存储桶中。在 Apache Spark 中创建管道。
- B. 使用 AWS Glue 检测模式并将数据提取、转换和加载到 S3 存储桶中。在 Apache Spark 中创建管道。 ✓
- C. 在 AWS Lambda 中创建 PySpark 程序,将数据提取、转换并加载到 S3 存储桶中。
- D. 在 Amazon Redshift 中创建存储过程,以检测模式并将数据提取、转换和加载到 Redshift Spectrum 表中。从 Amazon S3 访问该表。
正确答案: B. 使用 AWS Glue 检测模式并将数据提取、转换和加载到 S3 存储桶中。在 Apache Spark 中创建管道。
解析
AWS Glue是专门为处理各种数据源的提取、转换和加载(ETL)任务而设计的服务,能够自动检测数据源的模式变化,并满足将数据在15分钟内加载到S3桶的要求,同时操作开销相对较小。相比之下,Amazon EMR虽然也能实现相关功能,但配置和管理相对复杂,操作开销较大。AWS Lambda对于处理如此大量的数据和复杂的ETL流程可能不太适合,且在处理速度和资源管理上存在局限性。Amazon Redshift主要用于数据仓库,对于这种多源数据的实时处理和快速加载到S3桶并非最优选择。综上所述,选项B是满足要求且操作开销最小的方案。