Q24 — AWS SAA-C03 第5章
第 24/65 問 | ← 第5章
Q324. ある企業では、従来のアプリケーションを使用してCSV形式でデータを生成しています。この従来のアプリケーションは、出力データをAmazon S3に保存します。同社は、Amazon RedshiftおよびAmazon S3に格納されたデータに対して複雑なSQLクエリを実行して分析できる新しい商用オフ・ザ・シェルフ(COTS)アプリケーションを導入しようとしています。ただし、このCOTSアプリケーションは、従来のアプリケーションが生成するCSVファイルを処理できません。また、企業は従来のアプリケーションを更新して他の形式でデータを出力させることはできません。企業は、COTSアプリケーションが従来のアプリケーションが生成したデータを利用できるようにするソリューションを実装する必要があります。これらの要件を満たす中で、運用上のオーバーヘッドが最も少ないソリューションはどれですか?
- A. スケジュール実行されるAWS Glueの抽出・変換・ロード(ETL)ジョブを作成します。このETLジョブを設定してCSVファイルを処理し、処理済みデータをAmazon Redshiftに保存します。 ✓
- B. Amazon EC2インスタンス上で実行されるPythonスクリプトを開発し、CSVファイルをSQLファイルに変換します。cronスケジュールでこのPythonスクリプトを呼び出し、出力ファイルをAmazon S3に保存します。
- C. AWS Lambda関数とAmazon DynamoDBテーブルを作成します。S3イベントを使用してLambda関数を起動し、そのLambda関数で抽出・変換・ロード(ETL)処理を実行してCSVファイルを処理し、処理済みデータをDynamoDBテーブルに保存するよう設定します。
- D. Amazon EventBridgeを使用して週1回のスケジュールでAmazon EMRクラスターを起動します。このEMRクラスターを設定してCSVファイルを処理する抽出・変換・ロード(ETL)ジョブを実行し、処理済みデータをAmazon Redshiftテーブルに保存します。
正解: A. スケジュール実行されるAWS Glueの抽出・変換・ロード(ETL)ジョブを作成します。このETLジョブを設定してCSVファイルを処理し、処理済みデータをAmazon Redshiftに保存します。
解説
AWS Glueは、完全マネージド型の抽出・変換・ロード(ETL)サービスであり、CSVファイルを定期的に処理してAmazon Redshiftに格納するようにスケジュール実行できます。これにより、ファイル変換プロセスを自動化でき、手動での変換やインフラストラクチャの管理を不要にします。選択肢B(EC2上で実行されるPythonスクリプトによるCSVからSQLへの変換)は、EC2インスタンスの管理、コードのデプロイ、継続的な保守など、追加の運用オーバーヘッドを伴います。選択肢C(AWS Lambda関数とDynamoDBテーブルの利用)は、大規模なデータ量には非効率であり、主に小規模・単純なタスク向けに設計されています。選択肢D(EMRクラスターの起動)は、AWS Glueと比較して追加のコストおよび保守負荷が発生します。