Q45 — AWS SAP-C02 第3章
第 45/75 問 | ← 第3章
Q270. ある会社が、IoTデバイスのファleetから大量のデータを収集しています。このデータは、永続的なAmazon EMRクラスター上のHadoop分散ファイルシステム(HDFS)に、Optimized Row Columnar(ORC)形式で格納されています。 同社のデータ分析チームは、同じEMRクラスター上で実行されるApache Prestoを使用してSQLでデータをクエリしています。 クエリは大量のデータをスキャンし、常に15分未満で完了しますが、実行時間は毎日午後5時から午後10時の間のみに限定されています。 現在のソリューションに関連するコストが高額であることに懸念を抱いている同社に対し、ソリューションアーキテクトは、SQLによるデータクエリを可能にする最もコスト効率の高いソリューションを提案する必要があります。 これらの要件を満たすソリューションはどれですか?
- A. データをAmazon S3に格納し、Amazon Redshift Spectrumでクエリを実行する。
- B. データをAmazon S3に格納する。 AWS Glue Data CatalogとAmazon Athenaを使用してデータをクエリする。 ✓
- C. データをEMR File System(EMRFS)に格納し、Amazon EMR上のPrestoを使用してデータをクエリする。
- D. データをAmazon Redshiftに格納し、Amazon Redshiftを使用してデータをクエリする。
正解: B. データをAmazon S3に格納する。 AWS Glue Data CatalogとAmazon Athenaを使用してデータをクエリする。
解説
データをAmazon S3に格納し、AWS Glue Data CatalogとAmazon Athenaを用いてクエリを実行する方法は、非常に効率的なアプローチです。その利点は以下の通りです: ・Amazon Athenaは標準SQLによるクエリを実行でき、従量課金制であるため、実際に実行したクエリに対してのみ課金されます。 ・AWS Glue Data Catalogはメタデータの中央リポジトリを提供し、Prestoや他のアプリケーションが同一のメタデータ定義を共有できるため、クエリの一貫性と信頼性が向上します。 ・Amazon S3はスケーラブルなストレージと、暗号化やアクセス制御といった強力なセキュリティ機能を提供します。 また、クエリは午後5時~10時の間のみ実行されるため、Amazon EMRクラスターはその時間帯のみ起動すれば十分です。AWS GlueおよびAmazon Athenaを活用することで、EMRクラスター運用に伴う高額なコストを回避できます。 選択肢Aは、データをAmazon S3に格納し、Amazon Redshift Spectrumでクエリを実行するという案です。これは大規模データや複雑なクエリには有効ですが、最大15分程度の比較的小規模なクエリには、最も費用対効果の高い選択肢とは言えません。 選択肢Cは、データをEMRFSに格納し、Amazon EMR上のPrestoでクエリを実行するという案です。これにより、EMRクラスターの維持コストが増加し、パフォーマンス問題を引き起こす可能性があります。 選択肢Dは、データを列指向データベースであるAmazon Redshiftに格納し、同サービスでクエリを実行するという案です。しかし、Redshiftクラスターの維持コストが増加し、小規模なデータセットを迅速にクエリする用途には不適切です。