Q24 — AWS SAA-C03 第5章

第 24/65 問 | ← 第5章

Q324. ある企業では、従来のアプリケーションを使用してCSV形式でデータを生成しています。この従来のアプリケーションは、出力データをAmazon S3に保存します。同社は、Amazon RedshiftおよびAmazon S3に格納されたデータに対して複雑なSQLクエリを実行して分析できる新しい商用オフ・ザ・シェルフ(COTS)アプリケーションを導入しようとしています。ただし、このCOTSアプリケーションは、従来のアプリケーションが生成するCSVファイルを処理できません。また、企業は従来のアプリケーションを更新して他の形式でデータを出力させることはできません。企業は、COTSアプリケーションが従来のアプリケーションが生成したデータを利用できるようにするソリューションを実装する必要があります。これらの要件を満たす中で、運用上のオーバーヘッドが最も少ないソリューションはどれですか?

正解: A. スケジュール実行されるAWS Glueの抽出・変換・ロード(ETL)ジョブを作成します。このETLジョブを設定してCSVファイルを処理し、処理済みデータをAmazon Redshiftに保存します。

解説

AWS Glueは、完全マネージド型の抽出・変換・ロード(ETL)サービスであり、CSVファイルを定期的に処理してAmazon Redshiftに格納するようにスケジュール実行できます。これにより、ファイル変換プロセスを自動化でき、手動での変換やインフラストラクチャの管理を不要にします。選択肢B(EC2上で実行されるPythonスクリプトによるCSVからSQLへの変換)は、EC2インスタンスの管理、コードのデプロイ、継続的な保守など、追加の運用オーバーヘッドを伴います。選択肢C(AWS Lambda関数とDynamoDBテーブルの利用)は、大規模なデータ量には非効率であり、主に小規模・単純なタスク向けに設計されています。選択肢D(EMRクラスターの起動)は、AWS Glueと比較して追加のコストおよび保守負荷が発生します。