ある企業は、SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka、Amazon DynamoDBなどのデータソースから、毎日約1 TBのデータを抽出しています。一部のデータ

Question

ある企業は、SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka、Amazon DynamoDBなどのデータソースから、毎日約1 TBのデータを抽出しています。一部のデータソースでは、データスキーマが未定義であるか、または変化する可能性があります。
データエンジニアは、これらのデータソースのスキーマを検出できるソリューションを実装する必要があります。このソリューションは、データの抽出、変換、およびAmazon S3バケットへのロード（ETL）も行う必要があります。また、企業はデータ作成後15分以内にS3バケットへデータをロードするというサービスレベル合意（SLA）を遵守する必要があります。
これらの要件を満たし、かつ運用オーバーヘッドが最小となるソリューションはどれですか？

Accepted Answer

B. AWS Glueを使用してスキーマを検出し、データを抽出・変換・S3バケットへロードします。Apache Sparkでパイプラインを作成します。

Answer

A. Amazon EMRを使用してスキーマを検出し、データを抽出・変換・S3バケットへロードします。Apache Sparkでパイプラインを作成します。

Answer

C. AWS LambdaでPySparkプログラムを作成し、データを抽出・変換・S3バケットへロードします。

Answer

D. Amazon Redshiftでストアドプロシージャを作成し、スキーマを検出し、データを抽出・変換・Redshift Spectrumテーブルへロードします。その後、Amazon S3からそのテーブルにアクセスします。

Q62 — AWS DEA-C01 第1章

正解: B. AWS Glueを使用してスキーマを検出し、データを抽出・変換・S3バケットへロードします。Apache Sparkでパイプラインを作成します。

解説