Q62 — AWS DEA-C01 第1章

第 62/100 問 | ← 第1章

ある企業は、SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka、Amazon DynamoDBなどのデータソースから、毎日約1 TBのデータを抽出しています。一部のデータソースでは、データスキーマが未定義であるか、または変化する可能性があります。 データエンジニアは、これらのデータソースのスキーマを検出できるソリューションを実装する必要があります。このソリューションは、データの抽出、変換、およびAmazon S3バケットへのロード(ETL)も行う必要があります。また、企業はデータ作成後15分以内にS3バケットへデータをロードするというサービスレベル合意(SLA)を遵守する必要があります。 これらの要件を満たし、かつ運用オーバーヘッドが最小となるソリューションはどれですか?

正解: B. AWS Glueを使用してスキーマを検出し、データを抽出・変換・S3バケットへロードします。Apache Sparkでパイプラインを作成します。

解説

AWS Glueは、さまざまなデータソースの抽出・変換・ロード(ETL)タスクを専門に設計されたサービスであり、データソースのスキーマ変化を自動的に検出でき、データを15分以内にS3バケットへロードするという要件を満たすとともに、比較的少ない運用オーバーヘッドで実現できます。一方、Amazon EMRは同様の機能を実現可能ですが、設定および管理がより複雑であり、運用オーバーヘッドが大きくなります。AWS Lambdaは、これほど大量のデータおよび複雑なETLフローを処理するには適しておらず、処理速度およびリソース管理において制限があります。Amazon Redshiftはデータウェアハウス向けに主に設計されており、このような多様なデータソースからのリアルタイム処理およびS3バケットへの迅速なロードには最適ではありません。以上より、選択肢Bが要件を満たし、かつ運用オーバーヘッドが最小のソリューションです。