Q94 — AWS DEA-C01 第1章
第 94/100 問 | ← 第1章
ある企業は、Amazon S3をデータレイクとして使用しています。同社は、マルチノードのAmazon Redshiftクラスターを用いてデータウェアハウスを構築しています。同社は、各データファイルのデータソースに基づいてデータレイク内のデータファイルを整理しています。 同社は、各データファイルの場所ごとに個別のCOPYコマンドを使用して、すべてのデータファイルをRedshiftクラスター内の1つのテーブルにロードしています。この方法では、すべてのデータファイルをテーブルにロードするのに長時間を要します。同社は、データ取り込みの速度を向上させる必要がありますが、プロセスのコスト増加は望んでいません。 これらの要件を満たすソリューションはどれですか?
- A. プロビジョニング済みのAmazon EMRクラスターを使用して、すべてのデータファイルを1つのフォルダーにコピーします。COPYコマンドを使用してデータをAmazon Redshiftにロードします。
- B. すべてのデータファイルを並列でAmazon Auroraにロードします。AWS Glueジョブを実行してデータをAmazon Redshiftにロードします。
- C. AWS Giveジョブを使用してすべてのデータファイルを1つのフォルダーにコピーします。COPYコマンドを使用してデータをAmazon Redshiftにロードします。
- D. データファイルの場所を含むマニフェストファイルを作成します。COPYコマンドを使用してデータをAmazon Redshiftにロードします。 ✓
正解: D. データファイルの場所を含むマニフェストファイルを作成します。COPYコマンドを使用してデータをAmazon Redshiftにロードします。
解説
本ケースでは、データファイルの場所を含むマニフェストファイル(manifest file)を作成することが有効なソリューションです。マニフェストファイルを使用することで、COPYコマンドが複数のデータファイルを一度にロードできるようになり、各データファイルの場所ごとに個別のCOPYコマンドを使用する必要がなくなり、データ取り込みの速度が向上します。選択肢Aのプロビジョニング済みAmazon EMRクラスター使用はコスト増加の可能性があります。選択肢Bは、まずAmazon Auroraにロードし、その後AWS GlueジョブでAmazon Redshiftにロードするという複雑な手順であり、コスト増加の可能性があります。選択肢CのAWS Giveジョブ(※誤記:AWS Glue)によるファイルコピーとロードは最適ではなく、コスト増加の可能性があります。以上より、選択肢Dが要件を満たす最適な解答です。