Q94 — AWS DEA-C01 第1章

第 94/100 問 | ← 第1章

ある企業は、Amazon S3をデータレイクとして使用しています。同社は、マルチノードのAmazon Redshiftクラスターを用いてデータウェアハウスを構築しています。同社は、各データファイルのデータソースに基づいてデータレイク内のデータファイルを整理しています。 同社は、各データファイルの場所ごとに個別のCOPYコマンドを使用して、すべてのデータファイルをRedshiftクラスター内の1つのテーブルにロードしています。この方法では、すべてのデータファイルをテーブルにロードするのに長時間を要します。同社は、データ取り込みの速度を向上させる必要がありますが、プロセスのコスト増加は望んでいません。 これらの要件を満たすソリューションはどれですか?

正解: D. データファイルの場所を含むマニフェストファイルを作成します。COPYコマンドを使用してデータをAmazon Redshiftにロードします。

解説

本ケースでは、データファイルの場所を含むマニフェストファイル(manifest file)を作成することが有効なソリューションです。マニフェストファイルを使用することで、COPYコマンドが複数のデータファイルを一度にロードできるようになり、各データファイルの場所ごとに個別のCOPYコマンドを使用する必要がなくなり、データ取り込みの速度が向上します。選択肢Aのプロビジョニング済みAmazon EMRクラスター使用はコスト増加の可能性があります。選択肢Bは、まずAmazon Auroraにロードし、その後AWS GlueジョブでAmazon Redshiftにロードするという複雑な手順であり、コスト増加の可能性があります。選択肢CのAWS Giveジョブ(※誤記:AWS Glue)によるファイルコピーとロードは最適ではなく、コスト増加の可能性があります。以上より、選択肢Dが要件を満たす最適な解答です。