データエンジニアが、Amazon S3バケットからデータを読み込むAWS Glueジョブを設定しています。データエンジニアは必要なAWS Glue接続情報を設定し、関連するIAMロールを設定済みです。しかし、データエンジニアがAWS Glueジョブを実行しようとすると、Amazon S3 VPCゲートウェイエンドポイントに問題があることを示すエラーメッセージが表示されます。データエンジニアはこのエラーを解決し、AWS GlueジョブをS3バケットに接続する必要があります。この要件を満たすソリューションはどれですか？

D. VPCのルートテーブルに、Amazon S3 VPCゲートウェイエンドポイント用のインバウンドおよびアウトバウンドルートが含まれていることを確認します。

A. AWS Glueのセキュリティグループを更新して、Amazon S3 VPCゲートウェイエンドポイントからのインバウンドトラフィックを許可します。

B. S3バケットポリシーを設定して、AWS GlueジョブがS3バケットにアクセスするための権限を明示的に付与します。

C. AWS Glueジョブのコードを確認し、AWS Glue接続情報に完全修飾ドメイン名（FQDN）が含まれていることを確認します。

D. VPCのルートテーブルに、Amazon S3 VPCゲートウェイエンドポイント用のインバウンドおよびアウトバウンドルートが含まれていることを確認します。

メディア企業が、ユーザーの行動と嗜好に基づいて顧客にメディアコンテンツを推薦するシステムを改善したいと考えています。推薦システムを改善するために、同社は既存の分析プラットフォームにサードパーティのデータセットからのインサイトを取り入れる必要があります。同社は、サードパーティのデータセットを取り入れるための労力と時間を最小限に抑えたいと考えています。これらの要件を満たす、最も運用オーバーヘッドが少ないソリューションはどれですか？

A. AWS Data Exchangeからサードパーティのデータセットにアクセスおよび統合するためにAPI呼び出しを使用します。

B. AWS DataSyncからサードパーティのデータセットにアクセスおよび統合するためにAPI呼び出しを使用します。

C. Amazon Kinesis Data Streamsを使用して、AWS CodeCommitリポジトリからサードパーティのデータセットにアクセスおよび統合します。

D. Amazon Kinesis Data Streamsを使用して、Amazon Elastic Container Registry (Amazon ECR)からサードパーティのデータセットにアクセスおよび統合します。

データエンジニアは、多くのAWS Lambda関数が使用するデータ形式変換プロセスを実行するカスタムPythonスクリプトを管理しています。データエンジニアがPythonスクリプトを変更する必要がある場合、すべてのLambda関数を手動で更新しなければなりません。データエンジニアは、Lambda関数を更新するためのより手動作業の少ない方法を必要としています。この要件を満たすソリューションはどれですか？

B. カスタムPythonスクリプトをLambdaレイヤーとしてパッケージ化します。LambdaレイヤーをLambda関数に適用します。

A. 共有のAmazon S3バケット内の実行コンテキストオブジェクトにカスタムPythonスクリプトへのポインタを格納します。

B. カスタムPythonスクリプトをLambdaレイヤーとしてパッケージ化します。LambdaレイヤーをLambda関数に適用します。

C. 共有のAmazon S3バケット内の環境変数にカスタムPythonスクリプトへのポインタを格納します。

D. 各Lambda関数に同じエイリアスを割り当てます。関数のエイリアスを指定して各Lambda関数を呼び出します。

ある会社がAWS Glueで抽出・変換・ロード（ETL）データパイプラインを作成しました。データエンジニアはMicrosoft SQL Server内のテーブルをクロールする必要があります。データエンジニアは、クロールの出力をAmazon S3バケットに抽出・変換・ロードする必要があります。また、データパイプラインのオーケストレーションも必要です。これらの要件を最もコスト効率よく満たすAWSサービスまたは機能はどれですか？

D. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

金融サービス会社は、金融データをAmazon Redshiftに保存しています。データエンジニアは、Webベースの取引アプリケーションをサポートするために、金融データに対してリアルタイムクエリを実行したいと考えています。データエンジニアは、取引アプリケーション内からクエリを実行したいと考えています。これらの要件を最も運用オーバーヘッドが少なく満たすソリューションはどれですか？

B. Amazon Redshift Data APIを使用します。

A. Amazon RedshiftへのWebSocket接続を確立します。

B. Amazon Redshift Data APIを使用します。

C. Amazon RedshiftへのJava Database Connectivity (JDBC)接続を設定します。

D. 頻繁にアクセスされるデータをAmazon S3に保存し、Amazon S3 Selectを使用してクエリを実行します。

ある会社は、Amazon S3内のデータに対して1回限りのクエリを実行するためにAmazon Athenaを使用しています。同社にはいくつかのユースケースがあります。同社は、同一AWSアカウント内のユーザー、チーム、およびアプリケーション間でクエリプロセスとクエリ履歴へのアクセスを分離するための権限制御を実装する必要があります。

B. 各ユースケースごとにAthenaワークグループを作成します。ワークグループにタグを適用し、タグを使用して適切な権限をワークグループに適用するIAMポリシーを作成します。

A. 各ユースケースごとにS3バケットを作成します。適切な個別のIAMユーザーに権限を付与するS3バケットポリシーを作成し、そのS3バケットに適用します。

B. 各ユースケースごとにAthenaワークグループを作成します。ワークグループにタグを適用し、タグを使用して適切な権限をワークグループに適用するIAMポリシーを作成します。

C. 各ユースケースごとにIAMロールを作成します。各ユースケースに応じて適切な権限をロールに割り当て、Athenaに関連付けます。

D. 各ユースケースごとに、適切な個別のIAMユーザーに権限を付与するAthenaで使用される特定のテーブルに対するAWS Glue Data Catalogリソースポリシーを作成し、そのリソースポリシーを適用します。

データエンジニアは、毎日実行される一連のAWS Glueジョブをスケジュールするワークフローを作成する必要があります。データエンジニアは、Glueジョブが特定の時刻に実行または完了する必要はありません。

A. GlueジョブのプロパティでFLEX実行クラスを選択します。

B. GlueジョブのプロパティでSpotインスタンスタイプを使用します。

C. GlueジョブのプロパティでSTANDARD実行クラスを選択します。

D. GlueジョブのGlueVersionフィールドで最新バージョンを選択します。

データエンジニアは、.csv形式のデータをApache Parquet形式に変換するAWS Lambda関数を作成する必要があります。このLambda関数は、ユーザーがAmazon S3バケットに.csvファイルをアップロードした場合にのみ実行される必要があります。

A. イベントタイプがs3:ObjectCreated:*のS3イベント通知を作成します。フィルタールールを使用して、拡張子が.csvを含む場合にのみ通知を生成します。イベント通知の宛先としてLambda関数のAmazonリソースネーム（ARN）を設定します。

B. イベントタイプがs3:ObjectTagging:*のS3イベント通知を作成します。タグが.csvに設定されたオブジェクトに対してのみ通知を生成します。イベント通知の宛先としてLambda関数のARNを設定します。

C. イベントタイプがs3:*のS3イベント通知を作成します。フィルタールールを使用して、拡張子が.csvを含む場合にのみ通知を生成します。イベント通知の宛先としてLambda関数のARNを設定します。

D. イベントタイプがs3:ObjectCreated:*のS3イベント通知を作成します。フィルタールールを使用して、拡張子が.csvを含む場合にのみ通知を生成します。イベント通知の宛先としてAmazon Simple Notification Service（Amazon SNS）トピックを設定します。Lambda関数をSNSトピックにサブスクライブします。

データエンジニアは、Amazon Athenaクエリの完了時間を短縮する必要があります。データエンジニアは、Athenaクエリで使用されるすべてのファイルが現在圧縮されていない.csv形式で保存されていることに気づきました。また、ユーザーはほとんどのクエリで特定の列を選択して実行していることに気づきました。

C. データ形式を.csvからApache Parquetに変更し、Snappy圧縮を適用します。

A. データ形式を.csvからJSON形式に変更し、Snappy圧縮を適用します。

B. .csvファイルをSnappy圧縮で圧縮します。

C. データ形式を.csvからApache Parquetに変更し、Snappy圧縮を適用します。

D. .csvファイルをgzip圧縮で圧縮します。

製造会社は、工場の現場からセンサーデータを収集し、運用効率の監視および向上を図っています。同社はAmazon Kinesis Data Streamsを使用して、センサーが収集したデータをデータストリームに公開します。その後、Amazon Kinesis Data FirehoseがそのデータをAmazon S3バケットに書き込みます。同社は、製造施設の大画面に運用効率のリアルタイムビューを表示する必要があります。

A. Amazon Managed Service for Apache Flink（旧称：Amazon Kinesis Data Analytics）を使用してセンサーデータを処理します。Apache Flink用のコネクタを使用して、データをAmazon Timestreamデータベースに書き込みます。TimestreamデータベースをソースとしてGrafanaダッシュボードを作成します。

B. S3バケットを構成して、新しいオブジェクトが作成されるたびにAWS Lambda関数に通知を送信します。Lambda関数を使用してデータをAmazon Auroraに公開します。AuroraをソースとしてAmazon QuickSightダッシュボードを作成します。

C. Amazon Managed Service for Apache Flink（旧称：Amazon Kinesis Data Analytics）を使用してセンサーデータを処理します。新しいData Firehose配信ストリームを作成して、データを直接Amazon Timestreamデータベースに公開します。TimestreamデータベースをソースとしてAmazon QuickSightダッシュボードを作成します。

D. AWS Glueブックマークを使用して、S3バケットからセンサーデータをリアルタイムで読み取ります。データをAmazon Timestreamデータベースに公開します。TimestreamデータベースをソースとしてGrafanaダッシュボードを作成します。

AWS DEA-C01 第1章無料練習問題 2025 — データエンジニアアソシエイト

AWS DEA-C01 第1章練習問題（100問）

AWS DEA-C01（データエンジニアアソシエイト）第1章の本番形式の練習問題です。

Q1. データエンジニアが、Amazon S3バケットからデータを読み込むAWS Glueジョブを設定しています。データエンジニアは必要なAWS Glue接続情報を設定し、関連するIAMロールを設定済みです。しかし、データエンジニアがAWS Glueジョブを実行しようとすると、Amazon S3 VPCゲートウェイエンドポイントに問題があることを示すエラーメッセージが表示されます。データエンジニアはこのエラーを解決し、AWS GlueジョブをS3バケットに接続する必要があります。この要件を満たすソリューションはどれですか？
- A. AWS Glueのセキュリティグループを更新して、Amazon S3 VPCゲートウェイエンドポイントからのインバウンドトラフィックを許可します。
- B. S3バケットポリシーを設定して、AWS GlueジョブがS3バケットにアクセスするための権限を明示的に付与します。
- C. AWS Glueジョブのコードを確認し、AWS Glue接続情報に完全修飾ドメイン名（FQDN）が含まれていることを確認します。
- D. VPCのルートテーブルに、Amazon S3 VPCゲートウェイエンドポイント用のインバウンドおよびアウトバウンドルートが含まれていることを確認します。
この問題を見る →
Q2. メディア企業が、ユーザーの行動と嗜好に基づいて顧客にメディアコンテンツを推薦するシステムを改善したいと考えています。推薦システムを改善するために、同社は既存の分析プラットフォームにサードパーティのデータセットからのインサイトを取り入れる必要があります。同社は、サードパーティのデータセットを取り入れるための労力と時間を最小限に抑えたいと考えています。これらの要件を満たす、最も運用オーバーヘッドが少ないソリューションはどれですか？
- A. AWS Data Exchangeからサードパーティのデータセットにアクセスおよび統合するためにAPI呼び出しを使用します。
- B. AWS DataSyncからサードパーティのデータセットにアクセスおよび統合するためにAPI呼び出しを使用します。
- C. Amazon Kinesis Data Streamsを使用して、AWS CodeCommitリポジトリからサードパーティのデータセットにアクセスおよび統合します。
- D. Amazon Kinesis Data Streamsを使用して、Amazon Elastic Container Registry (Amazon ECR)からサードパーティのデータセットにアクセスおよび統合します。
この問題を見る →
Q3. データエンジニアは、多くのAWS Lambda関数が使用するデータ形式変換プロセスを実行するカスタムPythonスクリプトを管理しています。データエンジニアがPythonスクリプトを変更する必要がある場合、すべてのLambda関数を手動で更新しなければなりません。データエンジニアは、Lambda関数を更新するためのより手動作業の少ない方法を必要としています。この要件を満たすソリューションはどれですか？
- A. 共有のAmazon S3バケット内の実行コンテキストオブジェクトにカスタムPythonスクリプトへのポインタを格納します。
- B. カスタムPythonスクリプトをLambdaレイヤーとしてパッケージ化します。LambdaレイヤーをLambda関数に適用します。
- C. 共有のAmazon S3バケット内の環境変数にカスタムPythonスクリプトへのポインタを格納します。
- D. 各Lambda関数に同じエイリアスを割り当てます。関数のエイリアスを指定して各Lambda関数を呼び出します。
この問題を見る →
Q4. ある会社がAWS Glueで抽出・変換・ロード（ETL）データパイプラインを作成しました。データエンジニアはMicrosoft SQL Server内のテーブルをクロールする必要があります。データエンジニアは、クロールの出力をAmazon S3バケットに抽出・変換・ロードする必要があります。また、データパイプラインのオーケストレーションも必要です。これらの要件を最もコスト効率よく満たすAWSサービスまたは機能はどれですか？
- A. AWS Step Functions
- B. AWS Glue workflows
- C. AWS Glue Studio
- D. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)
この問題を見る →
Q5. 金融サービス会社は、金融データをAmazon Redshiftに保存しています。データエンジニアは、Webベースの取引アプリケーションをサポートするために、金融データに対してリアルタイムクエリを実行したいと考えています。データエンジニアは、取引アプリケーション内からクエリを実行したいと考えています。これらの要件を最も運用オーバーヘッドが少なく満たすソリューションはどれですか？
- A. Amazon RedshiftへのWebSocket接続を確立します。
- B. Amazon Redshift Data APIを使用します。
- C. Amazon RedshiftへのJava Database Connectivity (JDBC)接続を設定します。
- D. 頻繁にアクセスされるデータをAmazon S3に保存し、Amazon S3 Selectを使用してクエリを実行します。
この問題を見る →
Q6. ある会社は、Amazon S3内のデータに対して1回限りのクエリを実行するためにAmazon Athenaを使用しています。同社にはいくつかのユースケースがあります。同社は、同一AWSアカウント内のユーザー、チーム、およびアプリケーション間でクエリプロセスとクエリ履歴へのアクセスを分離するための権限制御を実装する必要があります。
- A. 各ユースケースごとにS3バケットを作成します。適切な個別のIAMユーザーに権限を付与するS3バケットポリシーを作成し、そのS3バケットに適用します。
- B. 各ユースケースごとにAthenaワークグループを作成します。ワークグループにタグを適用し、タグを使用して適切な権限をワークグループに適用するIAMポリシーを作成します。
- C. 各ユースケースごとにIAMロールを作成します。各ユースケースに応じて適切な権限をロールに割り当て、Athenaに関連付けます。
- D. 各ユースケースごとに、適切な個別のIAMユーザーに権限を付与するAthenaで使用される特定のテーブルに対するAWS Glue Data Catalogリソースポリシーを作成し、そのリソースポリシーを適用します。
この問題を見る →
Q7. データエンジニアは、毎日実行される一連のAWS Glueジョブをスケジュールするワークフローを作成する必要があります。データエンジニアは、Glueジョブが特定の時刻に実行または完了する必要はありません。
- A. GlueジョブのプロパティでFLEX実行クラスを選択します。
- B. GlueジョブのプロパティでSpotインスタンスタイプを使用します。
- C. GlueジョブのプロパティでSTANDARD実行クラスを選択します。
- D. GlueジョブのGlueVersionフィールドで最新バージョンを選択します。
この問題を見る →
Q8. データエンジニアは、.csv形式のデータをApache Parquet形式に変換するAWS Lambda関数を作成する必要があります。このLambda関数は、ユーザーがAmazon S3バケットに.csvファイルをアップロードした場合にのみ実行される必要があります。
- A. イベントタイプがs3:ObjectCreated:*のS3イベント通知を作成します。フィルタールールを使用して、拡張子が.csvを含む場合にのみ通知を生成します。イベント通知の宛先としてLambda関数のAmazonリソースネーム（ARN）を設定します。
- B. イベントタイプがs3:ObjectTagging:*のS3イベント通知を作成します。タグが.csvに設定されたオブジェクトに対してのみ通知を生成します。イベント通知の宛先としてLambda関数のARNを設定します。
- C. イベントタイプがs3:*のS3イベント通知を作成します。フィルタールールを使用して、拡張子が.csvを含む場合にのみ通知を生成します。イベント通知の宛先としてLambda関数のARNを設定します。
- D. イベントタイプがs3:ObjectCreated:*のS3イベント通知を作成します。フィルタールールを使用して、拡張子が.csvを含む場合にのみ通知を生成します。イベント通知の宛先としてAmazon Simple Notification Service（Amazon SNS）トピックを設定します。Lambda関数をSNSトピックにサブスクライブします。
この問題を見る →
Q9. データエンジニアは、Amazon Athenaクエリの完了時間を短縮する必要があります。データエンジニアは、Athenaクエリで使用されるすべてのファイルが現在圧縮されていない.csv形式で保存されていることに気づきました。また、ユーザーはほとんどのクエリで特定の列を選択して実行していることに気づきました。
- A. データ形式を.csvからJSON形式に変更し、Snappy圧縮を適用します。
- B. .csvファイルをSnappy圧縮で圧縮します。
- C. データ形式を.csvからApache Parquetに変更し、Snappy圧縮を適用します。
- D. .csvファイルをgzip圧縮で圧縮します。
この問題を見る →
Q10. 製造会社は、工場の現場からセンサーデータを収集し、運用効率の監視および向上を図っています。同社はAmazon Kinesis Data Streamsを使用して、センサーが収集したデータをデータストリームに公開します。その後、Amazon Kinesis Data FirehoseがそのデータをAmazon S3バケットに書き込みます。同社は、製造施設の大画面に運用効率のリアルタイムビューを表示する必要があります。
- A. Amazon Managed Service for Apache Flink（旧称：Amazon Kinesis Data Analytics）を使用してセンサーデータを処理します。Apache Flink用のコネクタを使用して、データをAmazon Timestreamデータベースに書き込みます。TimestreamデータベースをソースとしてGrafanaダッシュボードを作成します。
- B. S3バケットを構成して、新しいオブジェクトが作成されるたびにAWS Lambda関数に通知を送信します。Lambda関数を使用してデータをAmazon Auroraに公開します。AuroraをソースとしてAmazon QuickSightダッシュボードを作成します。
- C. Amazon Managed Service for Apache Flink（旧称：Amazon Kinesis Data Analytics）を使用してセンサーデータを処理します。新しいData Firehose配信ストリームを作成して、データを直接Amazon Timestreamデータベースに公開します。TimestreamデータベースをソースとしてAmazon QuickSightダッシュボードを作成します。
- D. AWS Glueブックマークを使用して、S3バケットからセンサーデータをリアルタイムで読み取ります。データをAmazon Timestreamデータベースに公開します。TimestreamデータベースをソースとしてGrafanaダッシュボードを作成します。
この問題を見る →
Q11. ある会社は、投資ポートフォリオの財務パフォーマンスの日々の記録を.csv形式でAmazon S3バケットに保存しています。データエンジニアはAWS Glueクローラーを使用してS3データをクロールします。データエンジニアは、S3データをAWS Glue Data Catalogで毎日利用可能にする必要があります。
- A. AmazonS3FullAccessポリシーを含むIAMロールを作成します。このロールをクローラーに関連付けます。ソースデータのS3バケットパスをクローラーのデータストアとして指定します。クローラーを毎日実行するスケジュールを作成します。出力先を既存のS3バケット内の新しいパスに設定します。
- B. AWSGlueServiceRoleポリシーを含むIAMロールを作成します。このロールをクローラーに関連付けます。ソースデータのS3バケットパスをクローラーのデータストアとして指定します。クローラーを毎日実行するスケジュールを作成します。出力先としてデータベース名を指定します。
- C. AmazonS3FullAccessポリシーを含むIAMロールを作成します。このロールをクローラーに関連付けます。ソースデータのS3バケットパスをクローラーのデータストアとして指定します。毎日クローラーを実行するためにデータ処理ユニット（DPU）を割り当てます。出力先としてデータベース名を指定します。
- D. AWSGlueServiceRoleポリシーを含むIAMロールを作成します。このロールをクローラーに関連付けます。ソースデータのS3バケットパスをクローラーのデータストアとして指定します。毎日クローラーを実行するためにデータ処理ユニット（DPU）を割り当てます。出力先を既存のS3バケット内の新しいパスに設定します。
この問題を見る →
Q12. ある会社は、毎日の取引データを各日の終了時にAmazon Redshiftテーブルにロードします。同社は、どのテーブルがロード済みか、どのテーブルがまだロードされていないかを追跡できるようにしたいと考えています。データエンジニアは、RedshiftテーブルのロードステータスをAmazon DynamoDBテーブルに保存したいと考えています。データエンジニアは、ロードステータスの詳細をDynamoDBに公開するAWS Lambda関数を作成しました。データエンジニアは、DynamoDBテーブルにロードステータスを書き込むためにLambda関数をどのように呼び出すべきですか？
- A. 2番目のLambda関数を使用して、Amazon CloudWatchイベントに基づいて最初のLambda関数を呼び出します。
- B. Amazon Redshift Data APIを使用してAmazon EventBridgeにイベントを公開します。EventBridgeルールを構成してLambda関数を呼び出します。
- C. Amazon Redshift Data APIを使用してAmazon Simple Queue Service（Amazon SQS）キューにメッセージを公開します。SQSキューを構成してLambda関数を呼び出します。
- D. 2番目のLambda関数を使用して、AWS CloudTrailイベントに基づいて最初のLambda関数を呼び出します。
この問題を見る →
Q13. データエンジニアは、オンプレミスのデータセンターからAmazon S3バケットへ5 TBのデータを安全に転送する必要があります。約5%のデータが毎日変更されます。データの更新は定期的にS3バケットに反映させる必要があります。データには複数の形式のファイルが含まれます。データエンジニアは転送プロセスを自動化し、定期的に実行するようにスケジュールする必要があります。
- A. AWS DataSync
- B. AWS Glue
- C. AWS Direct Connect
- D. Amazon S3 Transfer Acceleration
この問題を見る →
Q14. ある会社は、金融取引データを保存するためにオンプレミスのMicrosoft SQL Serverデータベースを使用しています。同社は、各月末にオンプレミスのデータベースからAWSへ取引データをマイグレーションします。同社は、オンプレミスのデータベースからAmazon RDS for SQL Serverデータベースへのデータマイグレーションコストが最近増加していることに気づきました。同社は、コスト効率の良いソリューションでデータをAWSへマイグレーションする必要があります。また、データベースにアクセスするアプリケーションへのダウンタイムを最小限に抑える必要があります。
- A. AWS Lambda
- B. AWS Database Migration Service (AWS DMS)
- C. AWS Direct Connect
- D. AWS DataSync
この問題を見る →
Q15. ある会社は、RA3ノード上で実行されるAmazon Redshiftクラスターを使用しています。同社は、需要に応じて読み取りおよび書き込み容量をスケールする必要があります。データエンジニアは、並列スケーリングを有効にするソリューションを特定する必要があります。
- A. Redshift Serverlessワークグループのワークロード管理（WLM）で並列スケーリングを有効にします。
- B. Redshiftクラスターのワークロード管理（WLM）キューのレベルで並列スケーリングを有効にします。
- C. 新しいRedshiftクラスターを作成する際の設定で並列スケーリングを有効にします。
- D. Redshiftクラスターの1日の使用量クォータに対して並列スケーリングを有効にします。
この問題を見る →
Q16. ある企業がオンプレミスのワークロードをAWSに移行しています。この企業は、全体的な運用オーバーヘッドを削減したいと考えています。また、サーバーレスオプションの検討も希望しています。現在のワークロードでは、Apache Pig、Apache Oozie、Apache Spark、Apache HBase、Apache Flink を使用しており、オンプレミス環境で数秒以内にペタバイト規模のデータを処理しています。AWSへの移行後も、同程度またはそれ以上のパフォーマンスを維持する必要があります。これらの要件を満たす抽出・変換・ロード（ETL）サービスはどれですか？
- A. AWS Glue
- B. Amazon EMR
- C. AWS Lambda
- D. Amazon Redshift
この問題を見る →
Q17. データエンジニアは、AWSサービスを用いてデータセットをAmazon S3データレイクに取り込む必要があります。データエンジニアがデータセットを分析したところ、個人を特定可能な情報（PII）が含まれていることがわかりました。データエンジニアは、データセットを分析し、PIIを曖昧化（オブスキュレーション）するソリューションを実装する必要があります。この要件を満たすために、最も少ない運用作業量で実現できるソリューションはどれですか？
- A. Amazon Kinesis Data Firehose配信ストリームを使用してデータセットを処理します。PIIを識別するAWS Lambda変換関数を作成します。AWS SDKを使用してPIIを曖昧化します。配信ストリームのターゲットとしてS3データレイクを設定します。
- B. AWS Glue StudioのDetect PII変換を使用してPIIを識別します。PIIを曖昧化します。AWS Step Functionsステートマシンを使用して、データをS3データレイクに取り込むデータパイプラインをオーケストレートします。
- C. AWS Glue StudioのDetect PII変換を使用してPIIを識別します。AWS Glue Data QualityでPIIを曖昧化するルールを作成します。AWS Step Functionsステートマシンを使用して、データをS3データレイクに取り込むデータパイプラインをオーケストレートします。
- D. データセットをAmazon DynamoDBに取り込みます。DynamoDBテーブル内のPIIを識別・曖昧化し、データを変換するAWS Lambda関数を作成します。同じLambda関数を使用して、データをS3データレイクに取り込みます。
この問題を見る →
Q18. ある企業は、自社の運用データベースからAmazon S3ベースのデータレイクへデータを取り込む複数の抽出・変換・ロード（ETL）ワークフローを運用しています。これらのETLワークフローは、AWS GlueおよびAmazon EMRを用いてデータを処理しています。企業は、既存のアーキテクチャを改善し、自動化されたオーケストレーションを提供するとともに、最小限の手動作業を要求したいと考えています。これらの要件を満たすために、最も少ない運用オーバーヘッドで実現できるソリューションはどれですか？
- A. AWS Glueワークフロー
- B. AWS Step Functionsタスク
- C. AWS Lambda関数
- D. Amazon Managed Workflows for Apache Airflow（Amazon MWAA）ワークフロー
この問題を見る →
Q19. ある企業は、すべてのデータをAmazon S3のS3 Standardストレージクラスを用いて保存しています。データエンジニアがデータアクセスパターンを調査した結果、以下の傾向が明らかになりました。最初の6か月間は、ほとんどのデータファイルが1日に数回アクセスされます。6か月から2年間は、ほとんどのデータファイルが1か月に1〜2回アクセスされます。2年後は、データファイルが1年に1〜2回しかアクセスされません。データエンジニアは、S3ライフサイクルポリシーを用いて新しいデータストレージルールを開発する必要があります。新しいストレージソリューションは、引き続き高い可用性を提供しなければなりません。これらの要件を最もコスト効率よく満たすソリューションはどれですか？
- A. 6か月後にオブジェクトをS3 One Zone-Infrequent Access（S3 One Zone-IA）に移行し、2年後にS3 Glacier Flexible Retrievalに移行します。
- B. 6か月後にオブジェクトをS3 Standard-Infrequent Access（S3 Standard-IA）に移行し、2年後にS3 Glacier Flexible Retrievalに移行します。
- C. 6か月後にオブジェクトをS3 Standard-Infrequent Access（S3 Standard-IA）に移行し、2年後にS3 Glacier Deep Archiveに移行します。
- D. 6か月後にオブジェクトをS3 One Zone-Infrequent Access（S3 One Zone-IA）に移行し、2年後にS3 Glacier Deep Archiveに移行します。
この問題を見る →
Q20. ある企業は、重要な分析タスクをサポートするための抽出・変換・ロード（ETL）操作に使用するAmazon Redshiftプロビジョニングクラスターを運用しています。また、営業チームはビジネスインテリジェンス（BI）タスクに使用するRedshiftクラスターを別途運用しています。営業チームは最近、ETL Redshiftクラスター内のデータへのアクセスを要求し、週次サマリー分析タスクを実行したいと考えています。営業チームは、ETLクラスターのデータと営業チームのBIクラスターのデータを結合する必要があります。企業は、重要な分析タスクを中断することなくETLクラスターのデータを営業チームと共有するソリューションを必要としています。また、ETLクラスターのコンピューティングリソースの使用を最小限に抑える必要があります。これらの要件を満たすソリューションはどれですか？
- A. Redshiftデータ共有機能を用いて、営業チームのBIクラスターをETLクラスターのコンシューマーとして設定します。
- B. 営業チームの要件に基づいてマテリアライズドビューを作成し、営業チームにETLクラスターへの直接アクセス権限を付与します。
- C. 営業チームの要件に基づいてデータベースビューを作成し、営業チームにETLクラスターへの直接アクセス権限を付与します。
- D. 毎週ETLクラスターからAmazon S3バケットへデータをアンロードし、ETLクラスターの内容に基づいてAmazon Redshift Spectrumテーブルを作成します。
この問題を見る →
Q21. データエンジニアは、一度限りの分析ジョブのために複数のソースからデータを結合する必要があります。データはAmazon DynamoDB、Amazon RDS、Amazon Redshift、およびAmazon S3に格納されています。
- A. Amazon EMRプロビジョニングクラスターを使用してすべてのソースからデータを読み込み、Apache Sparkを用いてデータを結合して分析を行います。
- B. DynamoDB、Amazon RDS、Amazon RedshiftのデータをAmazon S3にコピーします。Amazon AthenaクエリをS3ファイルに対して直接実行します。
- C. Amazon Athenaフェデレーテッドクエリを使用して、すべてのデータソースからデータを結合します。
- D. Redshift Spectrumを使用して、DynamoDB、Amazon RDS、Amazon S3のデータをRedshiftから直接クエリします。
この問題を見る →
Q22. ある企業はリアルタイム分析機能を実装したいと考えています。企業は、Amazon Kinesis Data StreamsおよびAmazon Redshiftを用いて、1秒あたり数ギガバイトの速度でストリーミングデータを取得・処理したいと考えています。また、既存のビジネスインテリジェンス（BI）および分析ツールを用いて、ほぼリアルタイムのインサイトを得たいと考えています。これらの要件を最も少ない運用オーバーヘッドで満たすソリューションはどれですか？
- A. Kinesis Data Streamsを用いてデータをAmazon S3にステージングし、COPYコマンドを用いてS3からAmazon Redshiftにデータを直接ロードして、リアルタイム分析に即座に利用可能にします。
- B. SQLクエリを用いてKinesis Data Streamsのデータにアクセスします。ストリーム上に直接マテリアライズドビューを作成し、最新のストリームデータをクエリするために定期的に更新します。
- C. Amazon Redshiftで外部スキーマを作成して、Kinesis Data StreamsのデータをAmazon Redshiftオブジェクトにマッピングします。ストリームからデータを読み取るマテリアライズドビューを作成し、自動更新を有効にします。
- D. Kinesis Data StreamsをAmazon Kinesis Data Firehoseに接続します。Kinesis Data Firehoseを用いてデータをAmazon S3にステージングし、COPYコマンドでS3からAmazon Redshiftのテーブルにデータをロードします。
この問題を見る →
Q23. データエンジニアは、AWS Step Functionsを用いてオーケストレーションワークフローを設計する必要があります。このワークフローは、多数のデータファイルを並列処理し、各ファイルに特定の変換を適用する必要があります。
- A. Parallel state
- B. Parallel state
- C. Choice state
- D. Map state
- E. Wait state
この問題を見る →
Q24. ある企業がレガシーアプリケーションをAmazon S3ベースのデータレイクに移行しています。データエンジニアがレガシーアプリケーションに関連付けられたデータをレビューしたところ、レガシーデータに重複した情報が含まれていることが判明しました。データエンジニアは、レガシーアプリケーションのデータから重複情報を特定・削除する必要があります。これらの要件を最も少ない運用オーバーヘッドで満たすソリューションはどれですか？
- A. Pythonでカスタムの抽出・変換・ロード（ETL）ジョブを作成します。Pandasライブラリをインポートし、DataFrame.drop_duplicates()関数を用いてデータの重複除去を行います。
- B. AWS Glueの抽出・変換・ロード（ETL）ジョブを作成します。FindMatches機械学習（ML）変換を用いてデータの重複除去を行います。
- C. Pythonでカスタムの抽出・変換・ロード（ETL）ジョブを作成します。Python dedupeライブラリをインポートし、dedupeライブラリを用いてデータの重複除去を行います。
- D. AWS Glueの抽出・変換・ロード（ETL）ジョブを作成します。Python dedupeライブラリをインポートし、dedupeライブラリを用いてデータの重複除去を行います。
この問題を見る →
Q25. ある企業は、Amazon API Gatewayを介してREST APIを呼び出すフロントエンドReactJSウェブサイトを運用しています。APIはウェブサイトの機能を実行します。データエンジニアは、API Gateway経由で時折呼び出されるPythonスクリプトを作成する必要があります。コードはAPI Gatewayに結果を返す必要があります。
- A. Amazon Elastic Container Service（Amazon ECS）クラスター上にカスタムPythonスクリプトをデプロイします。
- B. プロビジョニングされた同時実行数を持つAWS Lambda Python関数を作成します。
- C. Amazon Elastic Kubernetes Service（Amazon EKS）上にAPI Gatewayと統合可能なカスタムPythonスクリプトをデプロイします。
- D. AWS Lambda関数を作成します。Amazon EventBridgeルールをスケジュールして、5分ごとにモックイベントを用いてLambda関数を呼び出し、関数を常駐状態（ウォーム）に保ちます。
この問題を見る →
Q26. ある企業は、社内ワークロードを実行する本番AWSアカウントを保有しています。企業のセキュリティチームは、本番AWSアカウントからのセキュリティログを保存・分析するためのセキュリティ専用AWSアカウントを作成しました。本番AWSアカウントのセキュリティログはAmazon CloudWatch Logsに保存されています。企業は、Amazon Kinesis Data Streamsを用いてセキュリティログをセキュリティ専用AWSアカウントに配信する必要があります。
- A. 本番AWSアカウントに宛先データストリームを作成します。セキュリティ専用AWSアカウントで、本番AWSアカウントのKinesis Data Streamsへのクロスアカウントアクセス権限を持つIAMロールを作成します。
- B. セキュリティ専用AWSアカウントに宛先データストリームを作成します。CloudWatch Logsがストリームにデータを書き込む権限を付与するIAMロールおよび信頼ポリシーを作成します。本番AWSアカウントでサブスクリプションフィルターを作成します。
- C. 本番AWSアカウントに宛先データストリームを作成します。本番AWSアカウントで、セキュリティ専用AWSアカウントのKinesis Data Streamsへのクロスアカウントアクセス権限を持つIAMロールを作成します。
この問題を見る →
Q27. ある企業は、トランザクション型データレイクとしてAmazon S3を用いて半構造化データを保存しています。一部のデータファイルは小さいものの、他のデータファイルは数十テラバイトに達します。データエンジニアは、データソースから変更されたデータを特定するための変更データキャプチャ（CDC）操作を実行する必要があります。データソースは毎日JSON形式の完全スナップショットを送信し、変更データをデータレイクに取り込みます。
- A. 前回のデータと現在のデータの差分を識別するAWS Lambda関数を作成します。Lambda関数を設定して、変更データをデータレイクに取り込みます。
- B. データをAmazon RDS for MySQLに取り込みます。AWS Database Migration Service（AWS DMS）を用いて、変更データをデータレイクに書き込みます。
- C. オープンソースのデータレイクフォーマットを用いて、データソースとS3データレイクをマージし、新規データを挿入し、既存データを更新します。
- D. Amazon Aurora MySQL DBインスタンス（Aurora Serverless）にデータを取り込みます。AWS Database Migration Service（AWS DMS）を用いて、変更データをデータレイクに書き込みます。
この問題を見る →
Q28. データエンジニアは、AWSへのリアルタイムストリーミングデータの取り込みを管理する必要があります。データエンジニアは、最大30分のウィンドウで時間ベースの集計を用いて、着信ストリーミングデータに対してリアルタイム分析を実行したいと考えています。データエンジニアは、高いフォールトトレランスを備えたソリューションを必要としています。
- A. Amazon Kinesis Data Streamsのデータに対して、最大30分のウィンドウで時間ベースの集計を実行するビジネスロジックおよび分析ロジックを含むAWS Lambda関数を使用します。
- B. Amazon Managed Service for Apache Flink（旧称：Amazon Kinesis Data Analytics）を使用して、重複を含む可能性のあるデータを、複数種類の集計を用いて分析します。
- C. イベントタイムスタンプに基づいて、最大30分のトゥンブリングウィンドウで集計を実行するビジネスロジックおよび分析ロジックを含むAWS Lambda関数を使用します。
- D. Amazon Managed Service for Apache Flink（旧称：Amazon Kinesis Data Analytics）を使用して、最大30分のウィンドウで時間ベースの分析を実行するための複数種類の集計を用いてデータを分析します。
この問題を見る →
Q29. ある企業は、Amazon Elastic Block Store（Amazon EBS）のGeneral Purpose SSDストレージ（gp2）をgp3にアップグレードする計画を立てています。企業は、アップグレード後のストレージへの移行中に、Amazon EC2インスタンスの中断やデータ損失を防ぎたいと考えています。
- A. gp2ボリュームのスナップショットを作成します。スナップショットから新しいgp3ボリュームを作成し、EC2インスタンスに新しいgp3ボリュームをアタッチします。
- B. 新しいgp3ボリュームを作成します。徐々にデータを新しいgp3ボリュームに転送します。転送が完了したら、gp2ボリュームを置き換えるために新しいgp3ボリュームをEC2インスタンスにマウントします。
- C. 既存のgp2ボリュームのボリュームタイプをgp3に変更します。ボリュームサイズ、IOPS、スループットの新しい値を入力します。
- D. AWS DataSyncを使用して新しいgp3ボリュームを作成し、元のgp2ボリュームから新しいgp3ボリュームへデータを転送します。
この問題を見る →
Q30. ある企業は、Microsoft SQL Serverを実行するAmazon EC2インスタンスからAmazon RDS for Microsoft SQL Server DBインスタンスへデータベースサーバーを移行しています。移行が完了するまでの間、分析チームは毎日大規模なデータ要素をエクスポートする必要があります。これらのデータ要素は、複数のテーブルにまたがるSQL結合の結果です。データはApache Parquet形式でなければならず、分析チームはデータをAmazon S3に保存する必要があります。
- A. EC2インスタンス上のSQL Serverデータベースに必要なデータ要素を含むビューを作成します。AWS Glueジョブを作成し、ビューから直接データを選択してParquet形式でS3バケットに転送します。AWS Glueジョブを毎日実行するようスケジュールします。
- B. SQL Server Agentをスケジュールして、EC2インスタンス上のSQL Serverデータベースから必要なデータ要素を選択する日次SQLクエリを実行します。クエリの出力を.csvオブジェクトとしてS3バケットに直接出力するよう設定します。S3イベントを作成し、出力形式を.csvからParquetに変換するAWS Lambda関数を起動します。
- C. EC2インスタンス上のSQL Serverデータベースに必要なデータ要素を含むビューを作成するSQLクエリを使用します。AWS Glueクローラーを作成・実行してビューを読み込みます。AWS Glueジョブを作成し、データを取得してParquet形式でS3バケットに転送します。AWS Glueジョブを毎日実行するようスケジュールします。
- D. Java Database Connectivity（JDBC）を用いてEC2インスタンス上のデータベースをクエリするAWS Lambda関数を作成します。Lambda関数を設定して、必要なデータを取得し、Parquet形式に変換してS3バケットに転送します。Amazon EventBridgeを用いてLambda関数を毎日実行するようスケジュールします。
この問題を見る →
Q31. データエンジニアリングチームは、運用レポート用にAmazon Redshiftデータウェアハウスを使用しています。チームは、長時間実行されるクエリによって引き起こされる可能性のあるパフォーマンス問題を防止したいと考えています。データエンジニアは、クエリオプティマイザがパフォーマンス問題を示唆する条件を検出した際に異常を記録するためのAmazon Redshiftのシステムテーブルを選択する必要があります。この要件を満たすために、データエンジニアが使用すべきテーブルビューはどれですか？
- A. STL_USAGE_CONTROL
- B. STL_ALERT_EVENT_LOG
- C. STL_QUERY_METRICS
- D. STL_PLAN_INFO
この問題を見る →
Q32. データエンジニアは、構造化された.csv形式のデータソースをAmazon S3データレイクに取り込む必要があります。.csvファイルには15列が含まれています。データアナリストは、このデータセットの1〜2列に対してAmazon Athenaクエリを実行する必要があります。データアナリストは、ファイル全体をクエリすることをほとんど行いません。これらの要件を最もコスト効率よく満たすソリューションはどれですか？
- A. AWS Glue PySparkジョブを使用して、ソースデータを.csv形式でデータレイクに取り込みます。
- B. AWS Glueの抽出・変換・ロード（ETL）ジョブを作成し、.csv形式の構造化データソースから読み込みます。このジョブを、データレイクにJSON形式でデータを取り込むように設定します。
- C. AWS Glue PySparkジョブを使用して、ソースデータをApache Avro形式でデータレイクに取り込みます。
- D. AWS Glueの抽出・変換・ロード（ETL）ジョブを作成し、.csv形式の構造化データソースから読み込みます。このジョブを、データレイクにApache Parquet形式でデータを書き込むように設定します。
この問題を見る →
Q33. ある企業が、Amazon EC2インスタンス上で実行されるアプリケーションを開発しています。現在、アプリケーションが生成するデータは一時的なものです。しかし、企業はEC2インスタンスが終了してもデータを永続化する必要があります。データエンジニアは、Amazonマシンイメージ（AMI）から新しいEC2インスタンスを起動し、インスタンスを構成してデータを保持する必要があります。この要件を満たすソリューションはどれですか？
- A. アプリケーションデータを含むEC2インスタンスストアボリュームでバックアップされたAMIを使用して新しいEC2インスタンスを起動します。EC2インスタンスにデフォルト設定を適用します。
- B. アプリケーションデータを含むルートAmazon Elastic Block Store（Amazon EBS）ボリュームでバックアップされたAMIを使用して新しいEC2インスタンスを起動します。EC2インスタンスにデフォルト設定を適用します。
- C. EC2インスタンスストアボリュームでバックアップされたAMIを使用して新しいEC2インスタンスを起動します。アプリケーションデータを格納するためのAmazon Elastic Block Store（Amazon EBS）ボリュームをアタッチします。EC2インスタンスにデフォルト設定を適用します。
- D. Amazon Elastic Block Store（Amazon EBS）ボリュームでバックアップされたAMIを使用して新しいEC2インスタンスを起動します。アプリケーションデータを格納するための追加のEC2インスタンスストアボリュームをアタッチします。EC2インスタンスにデフォルト設定を適用します。
この問題を見る →
Q34. ある企業は、Create Table As Select（CTAS）を使用してAmazon AthenaでSQLクエリを実行し、抽出・変換・ロード（ETL）タスクを行っています。企業は、SQLではなくApache Sparkを使用して分析を生成する必要があります。どのソリューションが、企業にSparkを用いてAthenaにアクセスする機能を提供しますか？
- A. Athenaクエリ設定
- B. Athenaワークグループ
- C. Athenaデータソース
- D. Athenaクエリエディタ
この問題を見る →
Q35. ある企業は、データレイクとして使用しているAmazon S3ストレージをパーティション化する必要があります。パーティション化には、次の形式のS3オブジェクトキーのパスを使用します：s3://bucket/prefix/year=2023/month=01/day=01。データエンジニアは、企業がバケットに新しいパーティションを追加した際に、AWS Glue Data CatalogがS3ストレージと同期されることを保証する必要があります。これらの要件を最も低い遅延で満たすソリューションはどれですか？
- A. AWS Glueクローラーを毎朝実行するようスケジュールする。
- B. AWS Glue CreatePartition APIを1日に2回手動で実行する。
- C. Amazon S3にデータを書き込むコードからBoto3 AWS Glue create_partition API呼び出しを実行する。
- D. AWS GlueコンソールからMSCK REPAIR TABLEコマンドを実行する。
この問題を見る →
Q36. メディア企業は、サードパーティツールを用いたソフトウェア・アズ・ア・サービス（SaaS）アプリケーションを使用してデータを収集しています。企業は、このデータをAmazon S3バケットに保存する必要があります。また、企業はこのデータに基づいてAmazon Redshiftで分析を実行します。これらの要件を最も運用オーバーヘッドが少ないAWSサービスまたは機能はどれですか？
- A. Amazon Managed Streaming for Apache Kafka（Amazon MSK）
- B. Amazon AppFlow
- C. AWS Glue Data Catalog
- D. Amazon Kinesis
この問題を見る →
Q37. データエンジニアは、Amazon S3内の販売データをAmazon Athenaで分析しています。データエンジニアは、sales_dataというテーブルから2023年の販売金額をいくつかの製品について取得するクエリを記述しました。しかし、このクエリはsales_dataテーブル内にあるすべての製品について結果を返していません。データエンジニアは、この問題を解決するためにクエリをトラブルシューティングする必要があります。データエンジニアの元のクエリは以下の通りです： SELECT product_name, sum(sales_amount) FROM sales_data - WHERE year = 2023 - GROUP BY product_name - これらの要件を満たすために、データエンジニアはAthenaクエリをどのように修正すべきですか？
- A. 集計のためにsum(sales_amount)をcount(*)に置き換える。
- B. WHERE year = 2023をWHERE extract(year FROM sales_data) = 2023に変更する。
- C. GROUP BY句の後にHAVING sum(sales_amount) > 0を追加する。
- D. GROUP BY句を削除する。
この問題を見る →
Q38. データエンジニアは、Amazon S3バケット内のApache Parquet形式のオブジェクトからデータを1回だけ読み取るタスクを持っています。データエンジニアは、そのデータの1列のみをクエリする必要があります。これらの要件を最も運用オーバーヘッドが少ないソリューションはどれですか？
- A. AWS Lambda関数を設定して、S3バケットからデータをpandas DataFrameに読み込みます。DataFrameに対してSQL SELECT文を記述して必要な列をクエリします。
- B. S3 Selectを使用して、S3オブジェクトから必要な列を取得するSQL SELECT文を記述します。
- C. AWS Glue DataBrewプロジェクトを準備して、S3オブジェクトを消費し、必要な列をクエリします。
- D. S3オブジェクトに対してAWS Glueクローラーを実行します。Amazon AthenaでSQL SELECT文を使用して必要な列をクエリします。
この問題を見る →
Q39. ある企業は、データウェアハウスとしてAmazon Redshiftを使用しています。企業は、Amazon Redshiftのマテリアライズドビューの更新スケジュールを自動化する必要があります。この要件を最も少ない労力で満たすソリューションはどれですか？
- A. Apache Airflowを使用してマテリアライズドビューを更新する。
- B. Amazon Redshift内でAWS Lambdaユーザ定義関数（UDF）を使用してマテリアライズドビューを更新する。
- C. Amazon Redshiftのクエリエディタv2を使用してマテリアライズドビューを更新する。
- D. AWS Glueワークフローを使用してマテリアライズドビューを更新する。
この問題を見る →
Q40. データエンジニアは、1つのAWS Lambda関数と1つのAWS Glueジョブから構成されるデータパイプラインをオーケストレーションする必要があります。このソリューションはAWSサービスと統合する必要があります。これらの要件を最も少ない管理オーバーヘッドで満たすソリューションはどれですか？
- A. AWS Step Functionsワークフロー（ステートマシンを含む）を使用します。ステートマシンを設定して、Lambda関数を実行した後にAWS Glueジョブを実行するようにします。
- B. Amazon EC2インスタンスにデプロイされたApache Airflowワークフローを使用します。最初のタスクがLambda関数を呼び出し、2番目のタスクがAWS Glueジョブを呼び出す有向非巡回グラフ（DAG）を定義します。
- C. AWS Glueワークフローを使用してLambda関数とAWS Glueジョブを実行します。
- D. Amazon Elastic Kubernetes Service（Amazon EKS）にデプロイされたApache Airflowワークフローを使用します。最初のタスクがLambda関数を呼び出し、2番目のタスクがAWS Glueジョブを呼び出す有向非巡回グラフ（DAG）を定義します。
この問題を見る →
Q41. ある企業は、AWSクラウド上で実行されるデータソースのためのデータカタログおよびメタデータ管理を設定する必要があります。企業は、一連のデータストアに存在するすべてのオブジェクトのメタデータを維持するためにデータカタログを使用します。データストアには、Amazon RDSおよびAmazon Redshiftなどの構造化ソースが含まれます。また、Amazon S3に保存されているJSONファイルおよび.xmlファイルなどの半構造化ソースも含まれます。企業は、定期的にデータカタログを更新するソリューションを必要としています。また、ソースメタデータの変更を検出する必要があります。これらの要件を最も少ない運用オーバーヘッドで満たすソリューションはどれですか？
- A. データカタログとしてAmazon Auroraを使用します。AWS Lambda関数を作成し、データカタログに接続します。Lambda関数を構成して、複数のソースからメタデータ情報を収集し、Auroraデータカタログを更新します。Lambda関数を定期的に実行するようスケジュールします。
- B. AWS Glue Data Catalogを中央メタデータリポジトリとして使用します。AWS Glueクローラーを使用して複数のデータストアに接続し、メタデータ変更をData Catalogに更新します。クローラーを定期的に実行するようスケジュールして、メタデータカタログを更新します。
- C. データカタログとしてAmazon DynamoDBを使用します。AWS Lambda関数を作成し、データカタログに接続します。Lambda関数を構成して、複数のソースからメタデータ情報を収集し、DynamoDBデータカタログを更新します。Lambda関数を定期的に実行するようスケジュールします。
- D. AWS Glue Data Catalogを中央メタデータリポジトリとして使用します。Amazon RDSおよびAmazon Redshiftソースのスキーマを抽出し、Data Catalogを構築します。Amazon S3内のデータに対してAWS Glueクローラーを使用してスキーマを推論し、Data Catalogを自動的に更新します。
この問題を見る →
Q42. ある企業は、プロビジョニングされたキャパシティモードで動作するAmazon DynamoDBテーブルにアプリケーションのデータを保存しています。アプリケーションのワークロードは、定期的なスケジュールで予測可能なスループット負荷を有しています。毎週月曜日の早朝に、活動が即座に増加します。アプリケーションは週末に非常に低い使用率です。企業は、ピーク使用時にアプリケーションが一貫したパフォーマンスを発揮することを保証する必要があります。これらの要件を最もコスト効率の良い方法で満たすソリューションはどれですか？
- A. ピーク負荷時の最大キャパシティまでプロビジョニングされたキャパシティを増加させます。
- B. テーブルを2つのテーブルに分割します。各テーブルに元のテーブルのプロビジョニングされたキャパシティの半分を割り当て、クエリを両方のテーブルに均等に分散させます。
- C. AWS Application Auto Scalingを使用して、ピーク使用時間帯に高いプロビジョニングされたキャパシティをスケジュールし、オフピーク時間帯に低いキャパシティをスケジュールします。
- D. キャパシティモードをプロビジョニングからオンデマンドに変更します。テーブルの負荷に基づいて、テーブルがスケールアップおよびスケールダウンするように構成します。
この問題を見る →
Q43. ある企業は、オンプレミスのApache HadoopクラスターをAmazon EMRに移行する計画を立てています。また、データカタログを永続ストレージソリューションに移行する必要があります。企業は現在、Hadoopクラスター上のオンプレミスのApache Hiveメタストアにデータカタログを保存しています。企業は、サーバーレスソリューションを用いてデータカタログを移行する必要があります。これらの要件を最もコスト効率よく満たすソリューションはどれですか？
- A. AWS Database Migration Service（AWS DMS）を使用してHiveメタストアをAmazon S3に移行します。AWS Glue Data CatalogがAmazon S3をスキャンしてデータカタログを生成するように設定します。
- B. Amazon EMRにHiveメタストアを設定します。既存のオンプレミスHiveメタストアをAmazon EMRに移行します。AWS Glue Data Catalogを外部データカタログとして企業のデータカタログを保存します。
- C. Amazon EMRに外部Hiveメタストアを設定します。既存のオンプレミスHiveメタストアをAmazon EMRに移行します。企業のデータカタログを保存するためにAmazon Aurora MySQLを使用します。
- D. Amazon EMRに新しいHiveメタストアを設定します。既存のオンプレミスHiveメタストアをAmazon EMRに移行します。新しいメタストアを企業のデータカタログとして使用します。
この問題を見る →
Q44. ある企業は、データベースとしてAmazon Redshiftプロビジョニングクラスターを使用しています。Redshiftクラスターは5台の予約済みra3.4xlargeノードで構成されており、キーディストリビューションを使用しています。データエンジニアは、ノードの1台が頻繁にCPU負荷90％を超えており、そのノードで実行されるSQLクエリがキューに並んでいることに気づきました。他の4台のノードは、日常業務中に通常CPU負荷が15％未満です。データエンジニアは、現在のコンピュートノード数を維持したいと考えています。また、5台のコンピュートノード全体に負荷をより均等に分散させたいと考えています。これらの要件を満たすソリューションはどれですか？
- A. ソートキーを、SQL SELECT文のWHERE句で最も頻繁に使用されるデータ列に変更します。
- B. ディストリビューションキーを、最大の次元を持つテーブル列に変更します。
- C. 予約済みノードをra3.4xlargeからra3.16xlargeにアップグレードします。
- D. プライマリキーを、SQL SELECT文のWHERE句で最も頻繁に使用されるデータ列に変更します。
この問題を見る →
Q45. セキュリティ企業は、JSON形式のIoTデータをAmazon S3バケットに保存しています。データ構造は、IoTデバイスのアップグレード時に変更される可能性があります。企業は、IoTデータを含むデータカタログを作成したいと考えています。企業の分析部門は、このデータカタログを使用してデータをインデックス化します。これらの要件を最もコスト効率よく満たすソリューションはどれですか？
- A. AWS Glue Data Catalogを作成します。AWS Glue Schema Registryを設定します。分析部門が使用するデータをAmazon Redshift Serverlessに取り込むための新しいAWS Glueワークロードを作成します。
- B. Amazon Redshiftプロビジョニングクラスターを作成します。分析部門がAmazon S3内のデータを探索できるように、Amazon Redshift Spectrumデータベースを作成します。Amazon RedshiftにデータをロードするためのRedshiftストアドプロシージャを作成します。
- C. Amazon Athenaワークグループを作成します。Apache Sparkを介してAthenaを使用してAmazon S3内のデータを探索します。Athenaワークグループのスキーマおよびテーブルを分析部門に提供します。
- D. AWS Glue Data Catalogを作成します。AWS Glue Schema Registryを設定します。Amazon Redshift Data APIを使用したAWS Lambdaユーザ定義関数（UDF）を作成します。分析部門が使用するデータをAmazon Redshift Serverlessに取り込むためのAWS Step Functionsジョブを作成します。
この問題を見る →
Q46. ある会社は、トランザクションの詳細をAmazon S3バケットに保存しています。この会社は、同じAWSリージョン内の別のS3バケットに、トランザクションS3バケットへのすべての書き込み操作をログ記録したいと考えています。この要件を満たすソリューションのうち、最も少ない運用負荷で実現できるのはどれですか？
- A. トランザクションS3バケットに対するすべてのアクティビティに対してS3イベント通知ルールを設定し、AWS Lambda関数を起動します。Lambda関数をプログラムして、イベントをAmazon Kinesis Data Firehoseに書き込みます。Kinesis Data Firehoseを構成して、イベントをログ用S3バケットに書き込むようにします。
- B. AWS CloudTrailで管理イベントのトレールを作成します。このトレールをトランザクションS3バケットからデータを受け取るように構成します。空のプレフィックスと書き込み専用イベントを指定します。ログ用S3バケットを宛先バケットとして指定します。
- C. トランザクションS3バケットに対するすべてのアクティビティに対してS3イベント通知ルールを設定し、AWS Lambda関数を起動します。Lambda関数をプログラムして、イベントをログ用S3バケットに直接書き込みます。
- D. AWS CloudTrailでデータイベントのトレールを作成します。このトレールをトランザクションS3バケットからデータを受け取るように構成します。空のプレフィックスと書き込み専用イベントを指定します。ログ用S3バケットを宛先バケットとして指定します。
この問題を見る →
Q47. データエンジニアは、Amazon EMRおよびAmazon Athenaクエリを通じてユーザーがアクセスする中央メタデータリポジトリを維持する必要があります。このリポジトリは多数のテーブルのスキーマおよびプロパティを提供する必要があります。一部のメタデータはApache Hiveに格納されています。データエンジニアは、Hiveから中央メタデータリポジトリへメタデータをインポートする必要があります。これらの要件を満たすソリューションのうち、最も少ない開発負荷で実現できるのはどれですか？
- A. Amazon EMRおよびApache Rangerを使用します。
- B. EMRクラスター上にHiveメタストアを使用します。
- C. AWS Glue Data Catalogを使用します。
- D. Amazon RDS for MySQL DBインスタンス上のメタストアを使用します。
この問題を見る →
Q48. ある会社はAWS上でデータレイクを構築する必要があります。この会社は、特定のチームに対して行レベルおよび列レベルのデータアクセスを提供しなければなりません。チームは、Amazon Athena、Amazon Redshift Spectrum、およびAmazon EMRからのApache Hiveを介してデータにアクセスします。これらの要件を満たすソリューションのうち、最も少ない運用オーバーヘッドで実現できるのはどれですか？
- A. データレイクのストレージにAmazon S3を使用します。S3アクセスポリシーを用いて、行および列によるデータアクセスを制限します。Amazon S3を介してデータアクセスを提供します。
- B. データレイクのストレージにAmazon S3を使用します。Amazon EMR経由のApache Rangerを用いて、行および列によるデータアクセスを制限します。Apache Pigを用いてデータアクセスを提供します。
- C. データレイクのストレージにAmazon Redshiftを使用します。Redshiftのセキュリティポリシーを用いて、行および列によるデータアクセスを制限します。Apache SparkおよびAmazon Athenaフェデレーテッドクエリを用いてデータアクセスを提供します。
- D. データレイクのストレージにAmazon S3を使用します。AWS Lake Formationを用いて、行および列によるデータアクセスを制限します。AWS Lake Formationを介してデータアクセスを提供します。
この問題を見る →
Q49. ある会社は、6か月間Ordersという名前のAmazon Redshiftテーブルを使用しています。この会社は、週に1回テーブルを更新および削除しています。このテーブルは、AWSリージョンを含む列にインタリーブソートキーを設定しています。この会社は、ディスク領域を再利用してストレージ不足を回避したいと考えています。また、ソートキー列の分析も行いたいと考えています。これらの要件を満たすAmazon Redshiftコマンドはどれですか？
- A. VACUUM FULL Orders
- B. VACUUM DELETE ONLY Orders
- C. VACUUM REINDEX Orders
- D. VACUUM SORT ONLY Orders
この問題を見る →
Q50. 製造会社はセンサーからデータを収集したいと考えています。データエンジニアは、センサーデータをニアリアルタイムで取り込むソリューションを実装する必要があります。このソリューションは、データを永続的なデータストアに保存する必要があります。データはネストされたJSON形式で保存する必要があります。また、データストアからのクエリ応答遅延は10ミリ秒未満である必要があります。これらの要件を満たすソリューションのうち、最も少ない運用オーバーヘッドで実現できるのはどれですか？
- A. 自己ホスト型のApache Kafkaクラスターを使用してセンサーデータをキャプチャします。クエリ用にデータをAmazon S3に保存します。
- B. AWS Lambdaを使用してセンサーデータを処理します。クエリ用にデータをAmazon S3に保存します。
- C. Amazon Kinesis Data Streamsを使用してセンサーデータをキャプチャします。クエリ用にデータをAmazon DynamoDBに保存します。
- D. Amazon Simple Queue Service (Amazon SQS)を使用して着信センサーデータをバッファリングします。AWS Glueを使用してデータをAmazon RDSに保存し、クエリを実行します。
この問題を見る →
Q51. ある会社は、Amazon S3内のデータレイクにデータを保存しています。このデータレイクに保存されているデータの一部には、個人を特定できる情報（PII）が含まれています。複数のユーザーグループが生データにアクセスする必要があります。この会社は、ユーザーグループが必要なPIIのみにアクセスできるようにする必要があります。これらの要件を満たすソリューションのうち、最も少ない労力で実現できるのはどれですか？
- A. Amazon Athenaを使用してデータをクエリします。AWS Lake Formationをセットアップし、会社のIAMロール向けにデータフィルターを作成してアクセスレベルを確立します。各ユーザーを、そのユーザーのPIIアクセス要件に一致するIAMロールに割り当てます。
- B. Amazon QuickSightを使用してデータにアクセスします。QuickSightの列レベルセキュリティ機能を活用して、Amazon Athena経由でAmazon S3からユーザーが取得できるPIIを制限します。ユーザーのPIIアクセス要件に基づいてQuickSightのアクセスレベルを定義します。
- C. Athenaクエリをバックグラウンドで実行するカスタムクエリビルダーUIを構築します。Amazon Cognitoでユーザーグループを作成し、ユーザーのPIIアクセス要件に基づいてユーザーグループにアクセスレベルを割り当てます。
- D. 異なる粒度のアクセス権限を持つIAMロールを作成します。IAMユーザーグループにこれらのIAMロールを割り当てます。IDベースのポリシーを用いて、ユーザーグループに対して列レベルでアクセスレベルを割り当てます。
この問題を見る →
Q52. 金融会社は、ビジネスインテリジェンス（BI）アプリケーションをサポートするために、ペタバイト規模のデータセットに対してオンデマンドSQLクエリを実行するためにAmazon Athenaを使用したいと考えています。非営業時間帯に実行されるAWS Glueジョブが、毎日1回データセットを更新します。BIアプリケーションは、会社の方針に従って標準的なデータ更新頻度として1時間ごととなっています。データエンジニアは、追加のインフラコストを発生させずに、Amazon Athenaの使用コストを最適化したいと考えています。これらの要件を満たすソリューションのうち、最も少ない運用オーバーヘッドで実現できるのはどれですか？
- A. Amazon S3ライフサイクルポリシーを構成して、1日後にデータをS3 Glacier Deep Archiveストレージクラスに移動します。
- B. Amazon Athenaのクエリ結果再利用機能をSQLクエリに適用します。
- C. BIアプリケーションとAthenaの間にAmazon ElastiCacheクラスターを追加します。
- D. データセット内のファイル形式をApache Parquetに変更します。
この問題を見る →
Q53. ある会社のデータエンジニアは、テーブルSQLクエリのパフォーマンスを最適化する必要があります。この会社は、Amazon Redshiftクラスターにデータを保存しています。予算制約により、クラスターのサイズを拡大することはできません。この会社は、複数のテーブルにデータを保存し、EVEN分散スタイルを使用してデータをロードしています。一部のテーブルは数百ギガバイトのサイズであり、他のテーブルは10MB未満です。これらの要件を満たすソリューションはどれですか？
- A. すべてのテーブルに対してEVEN分散スタイルを継続して使用します。すべてのテーブルに対して主キーおよび外部キーを指定します。
- B. 大規模なテーブルに対してALL分散スタイルを使用します。すべてのテーブルに対して主キーおよび外部キーを指定します。
- C. 更新頻度が低い小規模なテーブルに対してALL分散スタイルを使用します。すべてのテーブルに対して主キーおよび外部キーを指定します。
- D. すべてのテーブルに対して分散キー、ソートキー、パーティションキーの組み合わせを指定します。
この問題を見る →
Q54. ある会社は、住所データを含む.csvファイルを受信します。データは、Door_No、Street_Name、City、Zip_Codeという名前の列にあります。この会社は、以下の形式でこれらの値を格納する単一の列を作成したいと考えています。
- A. AWS Glue DataBrewを使用してファイルを読み込みます。NEST_TO_ARRAY変換を使用して新しい列を作成します。
- B. AWS Glue DataBrewを使用してファイルを読み込みます。NEST_TO_MAP変換を使用して新しい列を作成します。
- C. AWS Glue DataBrewを使用してファイルを読み込みます。PIVOT変換を使用して新しい列を作成します。
- D. PythonでLambda関数を記述してファイルを読み込みます。Pythonの辞書型を使用して新しい列を作成します。
この問題を見る →
Q55. ある会社は、機密な顧客情報を含むAmazon S3オブジェクトとして通話ログを受信します。この会社は、暗号化を用いてS3オブジェクトを保護する必要があります。また、特定の従業員のみがアクセス可能な暗号化キーを使用する必要があります。
- A. 暗号化キーを保存するためにAWS CloudHSMクラスターを使用します。Amazon S3への書き込みプロセスを構成して、CloudHSMを呼び出してオブジェクトの暗号化および復号を行います。CloudHSMクラスターへのアクセスを制限するIAMポリシーを展開します。
- B. 顧客情報を含むオブジェクトの暗号化に、カスタマー提供キーによるサーバーサイド暗号化（SSE-C）を使用します。オブジェクトを暗号化するキーへのアクセスを制限します。
- C. 顧客情報を含むオブジェクトの暗号化に、AWS KMSキーによるサーバーサイド暗号化（SSE-KMS）を使用します。オブジェクトを暗号化するKMSキーへのアクセスを制限するIAMポリシーを構成します。
- D. 顧客情報を含むオブジェクトの暗号化に、Amazon S3管理キーによるサーバーサイド暗号化（SSE-S3）を使用します。オブジェクトを暗号化するAmazon S3管理キーへのアクセスを制限するIAMポリシーを構成します。
この問題を見る →
Q56. ある会社は、数千のAmazon S3バケットにペタバイト規模のデータをS3 Standardストレージクラスで保存しています。このデータは、予測不可能で可変なデータアクセスパターンを持つ分析ワークロードをサポートしています。この会社は、数か月間一部のデータにアクセスしません。ただし、すべてのデータをミリ秒単位で取得できる必要があります。この会社は、S3ストレージコストを最適化する必要があります。
- A. S3 Storage Lens標準メトリクスを使用して、よりコスト最適化されたストレージクラスにオブジェクトを移動するタイミングを判断します。S3バケットに対してS3ライフサイクルポリシーを作成し、オブジェクトをコスト最適化されたストレージクラスに移動します。今後もS3ライフサイクルポリシーを継続的に改善してストレージコストを最適化します。
- B. S3 Storage Lensアクティビティメトリクスを使用して、アクセス頻度が低いS3バケットを特定します。S3ライフサイクルルールを構成して、データの経過期間に基づき、S3 StandardからS3 Standard-Infrequent Access（S3 Standard-IA）およびS3 Glacierストレージクラスにオブジェクトを移動します。
- C. S3 Intelligent-Tieringを使用します。Deep Archive Access tierを有効化します。
- D. S3 Intelligent-Tieringを使用します。デフォルトのアクセスティアを使用します。
この問題を見る →
Q57. データエンジニアは、毎月1回、Amazon Redshiftを使用してリソースを大量に消費する分析プロセスを実行します。毎月、データエンジニアは新しいRedshiftプロビジョニングクラスターを作成し、分析プロセスが完了した後にクラスターを削除します。クラスターを削除する前に、データエンジニアはクラスターからバックアップデータをAmazon S3バケットにアンロードします。データエンジニアは、インフラストラクチャを手動で管理する必要がない、毎月の分析プロセスを実行するソリューションを必要としています。
- A. Amazon Step Functionsを使用して、分析プロセス完了時にRedshiftクラスターを一時停止し、毎月新しいプロセスを実行するためにクラスターを再開します。
- B. Amazon Redshift Serverlessを使用して、分析ワークロードを自動的に処理します。
- C. AWS CLIを使用して、分析ワークロードを自動的に処理します。
- D. AWS CloudFormationテンプレートを使用して、分析ワークロードを自動的に処理します。
この問題を見る →
Q58. ある会社は、.xls形式の顧客データを含む日次ファイルを受信します。このファイルはAmazon S3に保存されています。日次ファイルのサイズは約2GBです。データエンジニアは、ファイル内の顧客の名（first name）を含む列と姓（last name）を含む列を連結します。データエンジニアは、ファイル内の固有の顧客数を決定する必要があります。
- A. AWS GlueノートブックでApache Sparkジョブを作成および実行します。ジョブを構成してS3ファイルを読み込み、固有の顧客数を計算します。
- B. AWS Glueクローラーを作成して、S3ファイルのAWS Glue Data Catalogを作成します。Amazon AthenaからSQLクエリを実行して、固有の顧客数を計算します。
- C. Amazon EMR ServerlessでApache Sparkジョブを作成および実行して、固有の顧客数を計算します。
- D. AWS Glue DataBrewを使用して、COUNT_DISTINCT集計関数を用いるレシピを作成し、固有の顧客数を計算します。
この問題を見る →
Q59. ヘルスケア会社は、ウェアラブルデバイス、病院機器、患者記録からリアルタイムの健康データをストリーミングするためにAmazon Kinesis Data Streamsを使用しています。データエンジニアは、ストリーミングデータを処理するソリューションを見つける必要があります。データエンジニアは、データをAmazon Redshift Serverlessデータウェアハウスに保存する必要があります。このソリューションは、ストリーミングデータおよび前日のデータのニアリアルタイム分析をサポートする必要があります。
- A. データをAmazon Kinesis Data Firehoseにロードします。データをAmazon Redshiftにロードします。
- B. Amazon Redshiftのストリーミングインジェスチョン機能を使用します。
- C. データをAmazon S3にロードします。COPYコマンドを使用してデータをAmazon Redshiftにロードします。
- D. Amazon AuroraのゼロETL統合をAmazon Redshiftと連携させます。
この問題を見る →
Q60. ある会社は、JSON形式および.csv形式のデータセットをAmazon S3バケットに保存しています。この会社は、Amazon RDS for Microsoft SQL Serverデータベース、プロビジョニング容量モードのAmazon DynamoDBテーブル、およびAmazon Redshiftクラスターを所有しています。データエンジニアリングチームは、データサイエンティストがSQLに類似した構文を用いてすべてのデータソースをクエリできるソリューションを開発する必要があります。
- A. AWS Glueを使用してデータソースをクロールします。メタデータをAWS Glue Data Catalogに保存します。Amazon Athenaを使用してデータをクエリします。構造化データソースにはSQLを使用します。JSON形式で保存されたデータにはPartiQLを使用します。
- B. AWS Glueを使用してデータソースをクロールします。メタデータをAWS Glue Data Catalogに保存します。Redshift Spectrumを使用してデータをクエリします。構造化データソースにはSQLを使用します。JSON形式で保存されたデータにはPartiQLを使用します。
- C. AWS Glueを使用してデータソースをクロールします。メタデータをAWS Glue Data Catalogに保存します。AWS Glueジョブを使用してJSON形式のデータをApache Parquetまたは.csv形式に変換します。変換後のデータをS3バケットに保存します。Amazon Athenaを使用して、S3バケット内の元のデータおよび変換済みデータをクエリします。
- D. AWS Lake Formationを使用してデータレイクを作成します。Lake Formationジョブを使用して、すべてのデータソースからデータをApache Parquet形式に変換します。変換後のデータをS3バケットに保存します。Amazon AthenaまたはRedshift Spectrumを使用してデータをクエリします。
この問題を見る →
Q61. データエンジニアが、機械学習（ML）モデルのためのデータ準備にAWS Glueインタラクティブセッションを使用するようAmazon SageMaker Studioを設定しています。データエンジニアがSageMaker Studioを使用してデータを準備しようとしたところ、「アクセスが拒否されました（Access Denied）」というエラーが発生しました。データエンジニアがSageMaker Studioへのアクセスを取得するために行うべき変更はどれですか？
- A. データエンジニアのIAMユーザーにAWSGlueServiceRoleマネージドポリシーを追加します。
- B. データエンジニアのIAMユーザーに、信頼ポリシー内でAWS GlueおよびSageMakerサービスプリンシパルに対してsts:AssumeRoleアクションを許可するポリシーを追加します。
- C. データエンジニアのIAMユーザーにAmazonSageMakerFullAccessマネージドポリシーを追加します。
- D. データエンジニアのIAMユーザーに、信頼ポリシー内でAWS GlueおよびSageMakerサービスプリンシパルに対してsts:AddAssociationアクションを許可するポリシーを追加します。
この問題を見る →
Q62. ある企業は、SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka、Amazon DynamoDBなどのデータソースから、毎日約1 TBのデータを抽出しています。一部のデータソースでは、データスキーマが未定義であるか、または変化する可能性があります。データエンジニアは、これらのデータソースのスキーマを検出できるソリューションを実装する必要があります。このソリューションは、データの抽出、変換、およびAmazon S3バケットへのロード（ETL）も行う必要があります。また、企業はデータ作成後15分以内にS3バケットへデータをロードするというサービスレベル合意（SLA）を遵守する必要があります。これらの要件を満たし、かつ運用オーバーヘッドが最小となるソリューションはどれですか？
- A. Amazon EMRを使用してスキーマを検出し、データを抽出・変換・S3バケットへロードします。Apache Sparkでパイプラインを作成します。
- B. AWS Glueを使用してスキーマを検出し、データを抽出・変換・S3バケットへロードします。Apache Sparkでパイプラインを作成します。
- C. AWS LambdaでPySparkプログラムを作成し、データを抽出・変換・S3バケットへロードします。
- D. Amazon Redshiftでストアドプロシージャを作成し、スキーマを検出し、データを抽出・変換・Redshift Spectrumテーブルへロードします。その後、Amazon S3からそのテーブルにアクセスします。
この問題を見る →
Q63. ある企業は、Amazon S3バケットに格納されたデータセットを複数のアプリケーションで使用しています。企業には、個人を特定可能な情報（PII）を含むデータセットを生成するECサイトアプリケーションがあります。また、内部アナリティクスアプリケーションがあり、これはPIIへのアクセスを必要としません。規制遵守のため、企業はPIIを不必要に共有してはなりません。データエンジニアは、各アプリケーションがデータセットにアクセスする際のニーズに基づき、PIIを動的に編集（レダクション）するソリューションを実装する必要があります。これらの要件を満たし、かつ運用オーバーヘッドが最小となるソリューションはどれですか？
- A. 各アプリケーションのアクセスを制限するS3バケットポリシーを作成します。データセットの複数のコピーを作成し、各コピーにアクセスするアプリケーションのニーズに応じた適切なレベルのPII編集を適用します。
- B. S3 Object Lambdaエンドポイントを作成します。このS3 Object Lambdaエンドポイントを使用してS3バケットからデータを読み取り、各アプリケーションのニーズに応じてPIIを動的に編集するロジックをS3 Object Lambda関数内に実装します。
- C. AWS Glueを使用して各アプリケーション向けにデータを変換します。データセットの複数のコピーを作成し、各コピーにアクセスするアプリケーションのニーズに応じた適切なレベルのPII編集を適用します。
- D. カスタムオーソライザーを備えたAPI Gatewayエンドポイントを作成します。このAPI Gatewayエンドポイントを使用してS3バケットからデータを読み取り、各アプリケーションのニーズに応じてPIIを動的に編集するREST API呼び出しを開始します。
この問題を見る →
Q64. データエンジニアは、抽出・変換・ロード（ETL）ジョブを構築する必要があります。このETLジョブは、ユーザーがAmazon S3バケットにアップロードする日々の入力.csvファイルを処理します。各S3オブジェクトのサイズは100 MB未満です。これらの要件を最も費用対効果よく満たすソリューションはどれですか？
- A. カスタムPythonアプリケーションを作成し、Amazon Elastic Kubernetes Service（Amazon EKS）クラスター上でホストします。
- B. PySpark ETLスクリプトを作成し、Amazon EMRクラスター上でホストします。
- C. AWS Glue PySparkジョブを作成し、Apache Sparkを使用してデータを変換します。
- D. AWS Glue Pythonシェルジョブを作成し、pandasを使用してデータを変換します。
この問題を見る →
Q65. データエンジニアは、Ordersという名前のAWS Glueクローラーを使用してAWS Glue Data Catalogテーブルを作成しました。データエンジニアは、以下の新しいパーティションを追加したいと考えています。 s3://transactions/orders/order_date=2023-01-01 s3://transactions/orders/order_date=2023-01-02 データエンジニアは、テーブルの場所にあるすべてのフォルダーおよびファイルをスキャンすることなく、メタデータを編集してこれらの新しいパーティションをテーブルに含める必要があります。 Amazon Athenaで使用すべきデータ定義言語（DDL）ステートメントはどれですか？
- A. ALTER TABLE Orders ADD PARTITION(order_date='2023-01-01') LOCATION 's3://transactions/orders/order_date=2023-01-01'; ALTER TABLE Orders ADD PARTITION(order_date='2023-01-02') LOCATION 's3://transactions/orders/order_date=2023-01-02';
- B. MSCK REPAIR TABLE Orders;
- C. REPAIR TABLE Orders;
- D. ALTER TABLE Orders MODIFY PARTITION(order_date='2023-01-01') LOCATION 's3://transactions/orders/2023-01-01'; ALTER TABLE Orders MODIFY PARTITION(order_date='2023-01-02') LOCATION 's3://transactions/orders/2023-01-02';
この問題を見る →
Q66. ある企業は、Amazon S3に10～15 TBの圧縮されていない.csvファイルを保存しています。この企業は、Amazon Athenaをワンタイムクエリエンジンとして評価しています。この企業は、クエリ実行時間およびストレージコストを最適化するためにデータを変換したいと考えています。 Athenaクエリに対してこれらの要件を満たすファイル形式および圧縮ソリューションはどれですか？
- A. zipで圧縮されたcsv形式
- B. bzip2で圧縮されたJSON形式
- C. Snappyで圧縮されたApache Parquet形式
- D. LZOで圧縮されたApache Avro形式
この問題を見る →
Q67. ある企業は、オンプレミスのデータパイプラインを調整するためにApache Airflowを使用しています。企業は、パイプラインの一部としてSQLデータ品質チェックタスクを実行しています。企業は、パイプラインをAWSへ移行し、AWSマネージドサービスを利用する計画です。これらの要件を満たし、かつ再構築（リファクタリング）量が最小となるソリューションはどれですか？
- A. 企業がAirflowを使用している場所に最も近いAWSリージョンにAWS Outpostsをセットアップします。サーバーをOutpostsホストのAmazon EC2インスタンスに移行します。パイプラインを更新して、オンプレミスのパイプラインではなくOutpostsホストのEC2インスタンスとやり取りするようにします。
- B. Airflowアプリケーションおよび企業が移行する必要のあるコードを含むカスタムAmazon Machine Image（AMI）を作成します。このカスタムAMIを使用してAmazon EC2インスタンスをデプロイします。ネットワーク接続を更新して、新しくデプロイされたEC2インスタンスとやり取りするようにします。
- C. 既存のAirflowオーケストレーション構成をAmazon Managed Workflows for Apache Airflow（Amazon MWAA）に移行します。Airflow内のSQLタスクを使用して、データ取り込み中にデータ品質を検証するデータ品質チェックを作成します。
- D. パイプラインをAWS Step Functionsワークフローに変換します。SQLで記述されたデータ品質チェックをPythonベースのAWS Lambda関数として再実装します。
この問題を見る →
Q68. ある企業は、複数のソースから来るデータを変換するためにAmazon EMRを抽出・変換・ロード（ETL）パイプラインとして使用しています。データエンジニアは、パフォーマンスを最大化するためにこのパイプラインをオーケストレーションする必要があります。この要件を最も費用対効果よく満たすAWSサービスはどれですか？
- A. Amazon EventBridge
- B. Amazon Managed Workflows for Apache Airflow（Amazon MWAA）
- C. AWS Step Functions
- D. AWS Glue Workflows
この問題を見る →
Q69. オンライン小売企業は、Application Load Balancer（ALB）のアクセスログをAmazon S3バケットに保存しています。企業は、Amazon Athenaを使用してこれらのログをクエリし、トラフィックパターンを分析したいと考えています。データエンジニアは、Athenaで非パーティション化されたテーブルを作成しました。データ量が徐々に増加するにつれ、クエリの応答時間も長くなっています。データエンジニアは、Athenaでのクエリパフォーマンスを向上させたいと考えています。これらの要件を満たし、かつ運用上の労力が最小となるソリューションはどれですか？
- A. すべてのALBアクセスログのスキーマを決定するAWS Glueジョブを作成し、パーティションメタデータをAWS Glue Data Catalogに書き込みます。
- B. すべてのALBアクセスログのスキーマを決定するクラスファイアを含むAWS Glueクローラーを作成し、パーティションメタデータをAWS Glue Data Catalogに書き込みます。
- C. すべてのALBアクセスログを変換するAWS Lambda関数を作成します。結果をApache Parquet形式でAmazon S3に保存し、メタデータをパーティション化します。Athenaで変換後のデータをクエリします。
- D. Apache Hiveを使用してバケット化されたテーブルを作成します。すべてのALBアクセスログを変換するためにAWS Lambda関数を使用します。
この問題を見る →
Q70. ある企業は、AWS上でビジネスインテリジェンスプラットフォームを運用しています。企業は、AWS Storage GatewayのAmazon S3 File Gatewayを使用して、オンプレミス環境からAmazon S3バケットへファイルを転送しています。データエンジニアは、各ファイル転送が正常に完了した際に、一連のAWS Glueジョブを実行するAWS Glueワークフローを自動起動するプロセスを設定する必要があります。これらの要件を満たし、かつ運用オーバーヘッドが最小となるソリューションはどれですか？
- A. 過去の成功したファイル転送に基づき、ファイル転送が通常完了するタイミングを特定します。その時刻にAWS Glueジョブを開始するよう、Amazon EventBridgeの定期イベントを設定します。
- B. S3 File Gatewayの各成功したファイル転送イベント後にAWS Glueワークフローを起動するAmazon EventBridgeイベントを設定します。
- C. データエンジニアが各ファイル転送完了時に手動で起動できるよう、オンデマンドのAWS Glueワークフローを設定します。
- D. AWS Glueワークフローを呼び出すAWS Lambda関数を設定します。S3オブジェクトの作成イベントをLambda関数のトリガーとして設定します。
この問題を見る →
Q71. ある製造企業は、世界中の施設に多数のIoTデバイスを保有しています。企業は、Amazon Kinesis Data Streamsを使用してこれらのデバイスからデータを収集しています。データにはデバイスID、キャプチャ日付、測定タイプ、測定値、および施設IDが含まれます。企業は、パーティションキーとして施設IDを使用しています。企業のオペレーションチームは最近、多数のWriteThroughputExceeded例外を観測しました。オペレーションチームは、一部のシャードが過度に使用されている一方で、他のシャードは一般的にアイドル状態であることを確認しました。オペレーションチームが観測した問題を解決するには、企業はどのようにすべきですか？
- A. パーティションキーを施設IDからランダムに生成されたキーに変更します。
- B. シャードの数を増やします。
- C. プロデューサー側でデータをアーカイブします。
- D. パーティションキーを施設IDからキャプチャ日付に変更します。
この問題を見る →
Q72. データエンジニアは、Amazon Athenaで実行される販売データテーブルに対するSQLクエリのパフォーマンスを向上させたいと考えています。データエンジニアは、特定のSQLステートメントの実行計画を理解したいと考えています。また、SQLクエリ内の各操作の計算コストも確認したいと考えています。これらの要件を満たすためにデータエンジニアが実行する必要があるステートメントはどれですか？
- A. EXPLAIN SELECT * FROM sales;
- B. EXPLAIN ANALYZE FROM sales;
- C. EXPLAIN ANALYZE SELECT * FROM sales;
- D. EXPLAIN FROM sales;
この問題を見る →
Q73. ある企業は、VPC内でログ配信ストリームをプロビジョニングする計画です。企業は、VPCフローログをAmazon CloudWatch Logsに公開するようVPCを設定しました。企業は、フローログをほぼリアルタイムでSplunkに送信し、さらに分析を行う必要があります。これらの要件を満たし、かつ運用オーバーヘッドが最小となるソリューションはどれですか？
- A. Splunkを宛先とするAmazon Kinesis Data Streamsデータストリームを設定します。CloudWatch Logsサブスクリプションフィルターを作成し、ログイベントをデータストリームに送信します。
- B. Splunkを宛先とするAmazon Kinesis Data Firehose配信ストリームを作成します。CloudWatch Logsサブスクリプションフィルターを作成し、ログイベントを配信ストリームに送信します。
- C. Splunkを宛先とするAmazon Kinesis Data Firehose配信ストリームを作成します。CloudWatch Logsからフローログを配信ストリームに送信するAWS Lambda関数を作成します。
- D. Splunkを宛先とするAmazon Kinesis Data Streamsデータストリームを設定します。CloudWatch Logsからフローログをデータストリームに送信するAWS Lambda関数を作成します。
この問題を見る →
Q74. ある企業は、AWS上にデータレイクを保有しています。このデータレイクは、事業部門からのデータソースを取り込みます。企業はクエリのためにAmazon Athenaを使用しており、ストレージ層はAWS Glue Data Catalogをメタデータリポジトリとして使用するAmazon S3です。企業は、データサイエンティストおよびビジネスアナリストにデータを提供したいと考えています。ただし、まずユーザーの役割および責任に基づく、Athena向けの細かい、カラムレベルのデータアクセス管理が必要です。これらの要件を満たすソリューションはどれですか？
- A. AWS Lake Formationをセットアップします。Lake Formation内でIAMロールに基づくユーザーおよびアプリケーションのセキュリティポリシールールを定義します。
- B. AWS Glueテーブル向けにIAMリソースベースポリシーを定義します。同じポリシーをIAMユーザーグループにアタッチします。
- C. AWS Glueテーブル向けにIAM IDベースポリシーを定義します。同じポリシーをIAMロールにアタッチします。IAMロールを、ユーザーを含むIAMグループに関連付けます。
- D. AWS Resource Access Manager（AWS RAM）でリソース共有を作成し、IAMユーザーへのアクセスを許可します。
この問題を見る →
Q75. ある企業は、Amazon S3からデータを検証および変換するための複数のAWS Glue抽出・変換・ロード（ETL）ジョブを開発しました。これらのETLジョブは、データを1日1回バッチ処理でAmazon RDS for MySQLにロードします。ETLジョブはDynamicFrameを使用してS3データを読み込みます。現在、ETLジョブはS3バケット内のすべてのデータを処理しています。しかし、企業はジョブが毎日の増分データのみを処理するようにしたいと考えています。この要件を満たし、かつコーディング作業が最小となるソリューションはどれですか？
- A. S3ファイルのステータスを読み取り、そのステータスをAmazon DynamoDBに記録するETLジョブを作成します。
- B. ETLジョブでジョブブックマークを有効化し、実行後に状態を更新して、以前に処理済みのデータを追跡できるようにします。
- C. ETLジョブでジョブメトリクスを有効化し、Amazon CloudWatchで処理済みオブジェクトを追跡できるようにします。
- D. ETLジョブを設定して、各実行後にAmazon S3から処理済みオブジェクトを削除します。
この問題を見る →
Q76. オンライン小売会社が、VPC内のAmazon EC2インスタンスで実行されるアプリケーションを保有しています。同社は、そのVPCのフローログを収集し、ネットワークトラフィックを分析したいと考えています。これらの要件を最もコスト効率よく満たすソリューションはどれですか？
- A. フローログをAmazon CloudWatch Logsに発行し、Amazon Athenaで分析します。
- B. フローログをAmazon CloudWatch Logsに発行し、Amazon OpenSearch Serviceクラスターで分析します。
- C. フローログをテキスト形式でAmazon S3に発行し、Amazon Athenaで分析します。
- D. フローログをApache Parquet形式でAmazon S3に発行し、Amazon Athenaで分析します。
この問題を見る →
Q77. 小売会社は、4台の予約済みra3.4xlarge Amazon Redshiftクラスターノードに、取引、店舗所在地、顧客情報の3つのテーブルを格納しています。すべてのテーブルはEVENテーブル分散を使用しています。会社は店舗所在地テーブルを数年に1〜2回しか更新しません。データエンジニアは、ほとんどのクエリにおいて、店舗所在地テーブル全体が4台のコンピュートノードすべてにブロードキャストされているため、Redshiftのキューが遅くなっていることに気づきました。データエンジニアは、店舗所在地テーブルのブロードキャストを最小限に抑えることでクエリパフォーマンスを向上させたいと考えています。これらの要件を最もコスト効率よく満たすソリューションはどれですか？
- A. 店舗所在地テーブルの分散スタイルをEVEN分散からALL分散に変更する。
- B. 店舗所在地テーブルの分散スタイルを、次元が最も高い列に基づくKEY分散に変更する。
- C. すべてのテーブルのソートキーに、store_idという名前の結合列を追加する。
- D. Redshiftの予約済みノードを、同じインスタンスファミリー内のより大きなインスタンスサイズにアップグレードする。
この問題を見る →
Q78. ある会社は、Amazon Redshiftに格納されたSalesという名前のテーブルを含むデータウェアハウスを保有しています。このテーブルにはcity_nameという列が含まれています。会社は、city_nameが「San」または「El」で始まるすべての行を検索するクエリを実行したいと考えています。この要件を満たすSQLクエリはどれですか？
- A. Select ∗ from Sales where city_name ~ ‘$(San|El)∗’;
- B. Select ∗ from Sales where city_name ~ ‘^(San|El)∗’;
- C. Select ∗ from Sales where city_name ~’$(San＆El)∗’;
- D. Select ∗ from Sales where city_name ~ ‘^(San＆El)∗’;
この問題を見る →
Q79. ある会社は、オンプレミスのPostgreSQLデータベースから顧客の通話データをAWSに送信し、ほぼリアルタイムのインサイトを生成する必要があります。このソリューションは、PostgreSQLデータベースで実行される運用データストアからの更新をキャプチャして読み込む必要があります。データは継続的に変更されます。データエンジニアは、AWS Database Migration Service（AWS DMS）の継続的レプリケーションタスクを設定しました。このタスクは、各テーブルのPostgreSQLソースデータベースのトランザクションログからほぼリアルタイムで変更を読み取り、その後、データをAmazon Redshiftクラスターに送信して処理します。データエンジニアは、タスクの変更データキャプチャ（CDC）中に遅延の問題を発見しました。データエンジニアは、PostgreSQLソースデータベースが高遅延の原因であると考えています。 PostgreSQLデータベースが高遅延の原因であることを確認するソリューションはどれですか？
- A. Amazon CloudWatchを使用してDMSタスクを監視し、CDCIncomingChangesメトリクスを調べて、ソースデータベースからのCDCにおける遅延を特定する。
- B. ソースデータベースの論理レプリケーションがpostgresql.conf設定ファイルで構成されていることを確認する。
- C. ソースデータベースのDMSエンドポイントに対してAmazon CloudWatch Logsを有効化し、エラーメッセージを確認する。
- D. Amazon CloudWatchを使用してDMSタスクを監視し、CDCLatencySourceメトリクスを調べて、ソースデータベースからのCDCにおける遅延を特定する。
この問題を見る →
Q80. ある研究室では、IoTセンサーを使用してプロジェクトの湿度、温度、圧力を監視しています。センサーは10秒ごとに100 KBのデータを送信します。ダウンストリームプロセスは30秒ごとにAmazon S3バケットからデータを読み取ります。 S3バケットにデータを配信する際に、最も低いレイテンシを実現するソリューションはどれですか？
- A. Amazon Kinesis Data StreamsおよびAmazon Kinesis Data Firehoseを使用してデータをS3バケットに配信し、Kinesis Data Firehoseのデフォルトのバッファ間隔を使用する。
- B. Amazon Kinesis Data Streamsを使用してデータをS3バケットに配信し、ストリームを5つのプロビジョニング済みシャードで構成する。
- C. Amazon Kinesis Data StreamsおよびKinesis Client Libraryを呼び出してデータをS3バケットに配信し、アプリケーションから5秒のバッファ間隔を使用する。
- D. Amazon Managed Service for Apache Flink（旧称：Amazon Kinesis Data Analytics）およびAmazon Kinesis Data Firehoseを使用してデータをS3バケットに配信し、Kinesis Data Firehoseに5秒のバッファ間隔を使用する。
この問題を見る →
Q81. 小売会社は、顧客注文に関する情報を含むデータセットに対して、AWS Glueを用いた抽出・変換・読み込み（ETL）操作を行っています。同社は、データの正確性および一貫性を確保するために特定の検証ルールを実装したいと考えています。これらの要件を満たすソリューションはどれですか？
- A. AWS Glueジョブブックマークを使用して、データの正確性および一貫性を追跡する。
- B. 特定のデータ品質チェックを定義するためのカスタムAWS Glue Data Qualityルールセットを作成する。
- C. 標準的なデータ品質検証のために、組み込みのAWS Glue Data Qualityトランスフォームを使用する。
- D. 集中型のデータスキーマおよびメタデータリポジトリを維持するためにAWS Glue Data Catalogを使用する。
この問題を見る →
Q82. 保険会社は、gzipで圧縮された取引データを保存しています。同社は、時折の監査のために取引データをクエリする必要があります。この要件を最もコスト効率よく満たすソリューションはどれですか？
- A. データをAmazon Glacier Flexible Retrievalに保存し、Amazon S3 Glacier Selectを使用してデータをクエリする。
- B. データをAmazon S3に保存し、Amazon S3 Selectを使用してデータをクエリする。
- C. データをAmazon S3に保存し、Amazon Athenaを使用してデータをクエリする。
- D. データをAmazon Glacier Instant Retrievalに保存し、Amazon Athenaを使用してデータをクエリする。
この問題を見る →
Q83. データエンジニアは、非重要ではないテーブルにデータを処理および挿入するAmazon Redshiftストアドプロシージャのテストを完了しました。エンジニアは、このストアドプロシージャを毎日自動的に実行したいと考えています。この要件を最もコスト効率よく満たすソリューションはどれですか？
- A. AWS Lambda関数を作成し、cronジョブをスケジュールしてストアドプロシージャを実行する。
- B. Amazon EC2 Spot InstanceでAmazon Redshift Data APIを使用して、ストアドプロシージャをスケジュールおよび実行する。
- C. クエリエディタv2を使用して、スケジュールに従ってストアドプロシージャを実行する。
- D. AWS Glue Pythonシェルジョブをスケジュールして、ストアドプロシージャを実行する。
この問題を見る →
Q84. データエンジニアは、データオーケストレーションワークフローを構築しています。エンジニアは、オンプレミスリソースとクラウドリソースのハイブリッドモデルを計画しています。エンジニアは、ポータビリティとオープンソースリソースを重視したいと考えています。エンジニアは、オンプレミス環境およびクラウドベース環境の両方で使用すべきサービスはどれですか？
- A. AWS Data Exchange
- B. Amazon Simple Workflow Service (Amazon SWF)
- C. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)
- D. AWS Glue
この問題を見る →
Q85. ゲーム会社は、顧客情報を格納するNoSQLデータベースを使用しています。同社はAWSへの移行を計画しています。同社は、高いオンライントランザクション処理（OLTP）ワークロードを処理でき、単一桁ミリ秒のパフォーマンスを提供し、世界中で高い可用性を提供する完全マネージド型のAWSソリューションを必要としています。これらの要件を、最も少ない運用オーバーヘッドで満たすソリューションはどれですか？
- A. Amazon Keyspaces (for Apache Cassandra)
- B. Amazon DocumentDB (with MongoDB compatibility)
- C. Amazon DynamoDB
- D. Amazon Timestream
この問題を見る →
Q86. データエンジニアは、Amazon EventBridgeイベントによって呼び出されるAWS Lambda関数を作成しました。データエンジニアがEventBridgeイベントを使用してLambda関数を呼び出そうとしたところ、「AccessDeniedException」メッセージが表示されました。データエンジニアは、この例外をどのように解決すべきですか？
- A. Lambda関数の実行ロールの信頼ポリシーが、EventBridgeが実行ロールを引き受けることを許可していることを確認する。
- B. EventBridgeが使用するIAMロールとLambda関数のリソースベースポリシーの両方に必要な権限があることを確認する。
- C. Lambda関数が展開されているサブネットがプライベートサブネットとして構成されていることを確認する。
- D. EventBridgeのスキーマが有効であり、イベントマッピング構成が正しいことを確認する。
この問題を見る →
Q87. ある会社は、Amazon S3バケットに基づくデータレイクを使用しています。規制遵守のため、同社はS3バケットにアップロードされるファイルに2層のサーバーサイド暗号化を適用する必要があります。同社は、必要な暗号化を適用するためにAWS Lambda関数を使用したいと考えています。これらの要件を満たすソリューションはどれですか？
- A. AWS KMSキーによるサーバーサイド暗号化（SSE-KMS）とAmazon S3暗号化クライアントの両方を使用する。
- B. AWS KMSキーによる二重層サーバーサイド暗号化（DSSE-KMS）を使用する。
- C. ファイルをアップロードする前に、顧客提供のキーによるサーバーサイド暗号化（SSE-C）を使用する。
- D. AWS KMSキーによるサーバーサイド暗号化（SSE-KMS）を使用する。
この問題を見る →
Q88. データエンジニアは、Amazon Athenaクエリが実行される前にキューに保持されていることに気づきました。データエンジニアは、クエリがキューに保持されるのを防ぐにはどうすればよいですか？
- A. クエリ結果の上限を増加させる。
- B. 既存のワーグループに対してプロビジョニング済み容量を構成する。
- C. フェデレーテッドクエリを使用する。
- D. Athenaクエリを実行するユーザーを既存のワーグループに許可する。
この問題を見る →
Q89. データエンジニアは、Amazon S3から読み取り、Amazon Redshiftに書き込むAWS Glueジョブのデバッグを行う必要があります。データエンジニアは、AWS Glueジョブに対してブックマーク機能を有効化しました。データエンジニアは、AWS Glueジョブの最大同時実行数を1に設定しました。 AWS Glueジョブは、Amazon Redshiftへの出力の書き込みに正常に成功しています。しかし、以前のAWS Glueジョブ実行時に読み込まれたAmazon S3ファイルが、後続の実行で再処理されています。 AWS Glueジョブがファイルを再処理している可能性が高い理由は何ですか？
- A. AWS Glueジョブに、ブックマークが正しく機能するために必要なs3:GetObjectAcl権限がありません。
- B. AWS Glueジョブの最大同時実行数が1に設定されています。
- C. データエンジニアが、古いバージョンのAWS GlueをGlueジョブに誤って指定しました。
- D. AWS Glueジョブに必要なコミットステートメントがありません。
この問題を見る →
Q90. ECOMMERCE会社は、オンプレミス環境からAWSクラウドへデータパイプラインを移行したいと考えています。同社は現在、オンプレミス環境でサードパーティツールを使用してデータ取り込みプロセスをオーケストレーションしています。同社は、サーバー管理を必要としない移行ソリューションを希望しています。このソリューションは、PythonおよびBashスクリプトのオーケストレーションが可能で、既存のコードをリファクタリングする必要がないものでなければなりません。これらの要件を、最も少ない運用オーバーヘッドで満たすソリューションはどれですか？
- A. AWS Lambda
- B. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)
- C. AWS Step Functions
- D. AWS Glue
この問題を見る →
Q91. 小売企業は、製品ライフサイクル管理（PLM）アプリケーションのデータをオンプレミスのMySQLデータベースに保存しています。PLMアプリケーションは、トランザクション発生時にデータベースを頻繁に更新します。企業は、PLMアプリケーションからほぼリアルタイムでインサイトを収集したいと考えています。また、これらのインサイトを他のビジネスデータセットと統合し、Amazon Redshiftデータウェアハウスで統合されたデータセットを分析したいと考えています。企業はすでに、オンプレミスインフラストラクチャとAWS間でAWS Direct Connect接続を確立済みです。これらの要件を満たすために、最も少ない開発工数で実現できるソリューションはどれですか？
- A. Java Database Connectivity（JDBC）接続を使用してMySQLデータベースの更新を取得する、スケジュールされたAWS Glueの抽出・変換・ロード（ETL）ジョブを実行します。Amazon RedshiftをETLジョブの宛先として設定します。
- B. AWS Database Migration Service（AWS DMS）でフルロード＋CDCタスクを実行し、MySQLデータベースの変更を継続的にレプリケートします。タスクの宛先としてAmazon Redshiftを設定します。
- C. Amazon AppFlow SDKを使用してMySQLデータベース向けのカスタムコネクタを構築し、データベースの変更を継続的にレプリケートします。コネクタの宛先としてAmazon Redshiftを設定します。
- D. MySQLデータベースからデータを同期するためのスケジュールされたAWS DataSyncタスクを実行します。タスクの宛先としてAmazon Redshiftを設定します。
この問題を見る →
Q92. マーケティング企業は、クリックストリームデータをAmazon S3に保存しています。同社は、別々のバケットに格納されたS3オブジェクトに対してSQL JOIN句を用いて、毎日の終了時にデータをクエリします。同社は、これらのオブジェクトに基づいて主要業績評価指標（KPI）を作成します。同社は、データをパーティション化してクエリできるサーバーレスソリューションを必要としています。また、データの原子性（Atomicity）、一貫性（Consistency）、独立性（Isolation）、耐久性（Durability）（ACID）特性を維持する必要があります。
- A. Amazon S3 Select
- B. Amazon Redshift Spectrum
- C. Amazon Athena
- D. Amazon EMR
この問題を見る →
Q93. ある企業が、Account_Aという名前のAWSアカウントのeu-east-1リージョンにあるAmazon RDS for PostgreSQL DBインスタンスからデータを移行しようとしています。同社は、このデータをAccount_Bという名前のAWSアカウントのeu-west-1リージョンにあるAmazon Redshiftクラスターへ移行します。 2つのデータストア間でデータをレプリケートするために、AWS Database Migration Service（AWS DMS）に必要な機能を提供するソリューションはどれですか？
- A. Account_Bのeu-west-1リージョンにAWS DMSレプリケーションインスタンスをセットアップします。
- B. Account_Bのeu-east-1リージョンにAWS DMSレプリケーションインスタンスをセットアップします。
- C. 新しいAWSアカウントのeu-west-1リージョンにAWS DMSレプリケーションインスタンスをセットアップします。
- D. Account_Aのeu-east-1リージョンにAWS DMSレプリケーションインスタンスをセットアップします。
この問題を見る →
Q94. ある企業は、Amazon S3をデータレイクとして使用しています。同社は、マルチノードのAmazon Redshiftクラスターを用いてデータウェアハウスを構築しています。同社は、各データファイルのデータソースに基づいてデータレイク内のデータファイルを整理しています。同社は、各データファイルの場所ごとに個別のCOPYコマンドを使用して、すべてのデータファイルをRedshiftクラスター内の1つのテーブルにロードしています。この方法では、すべてのデータファイルをテーブルにロードするのに長時間を要します。同社は、データ取り込みの速度を向上させる必要がありますが、プロセスのコスト増加は望んでいません。これらの要件を満たすソリューションはどれですか？
- A. プロビジョニング済みのAmazon EMRクラスターを使用して、すべてのデータファイルを1つのフォルダーにコピーします。COPYコマンドを使用してデータをAmazon Redshiftにロードします。
- B. すべてのデータファイルを並列でAmazon Auroraにロードします。AWS Glueジョブを実行してデータをAmazon Redshiftにロードします。
- C. AWS Giveジョブを使用してすべてのデータファイルを1つのフォルダーにコピーします。COPYコマンドを使用してデータをAmazon Redshiftにロードします。
- D. データファイルの場所を含むマニフェストファイルを作成します。COPYコマンドを使用してデータをAmazon Redshiftにロードします。
この問題を見る →
Q95. ある企業は、Amazon Kinesis Data Firehoseを使用してデータをAmazon S3に保存することを計画しています。ソースデータは2 MBの.csvファイルで構成されています。同社は、.csvファイルをJSON形式に変換する必要があります。また、ファイルをApache Parquet形式で保存する必要があります。これらの要件を満たすために、最も少ない開発工数で実現できるソリューションはどれですか？
- A. Kinesis Data Firehoseを使用して.csvファイルをJSONに変換します。AWS Lambda関数を使用してParquet形式でファイルを保存します。
- B. Kinesis Data Firehoseを使用して.csvファイルをJSONに変換し、Parquet形式でファイルを保存します。
- C. Kinesis Data Firehoseを使用してAWS Lambda関数を呼び出し、.csvファイルをJSONに変換し、Parquet形式でファイルを保存します。
- D. Kinesis Data Firehoseを使用してAWS Lambda関数を呼び出し、.csvファイルをJSONに変換します。Kinesis Data Firehoseを使用してParquet形式でファイルを保存します。
この問題を見る →
Q96. ある企業は、AWS Transfer Familyサーバーを使用して、オンプレミス環境からAWSへデータをマイグレーションしています。企業の方針では、TLS 1.2以上を使用して、転送中のデータを暗号化することが義務付けられています。これらの要件を満たすソリューションはどれですか？
- A. Transfer Familyサーバー用に新しいSSH鍵を生成します。古い鍵と新しい鍵の両方を使用可能にします。
- B. オンプレミスネットワークのセキュリティグループルールを更新し、TLS 1.2以上の接続のみを許可します。
- C. Transfer Familyサーバーのセキュリティポリシーを更新し、最低プロトコルバージョンをTLS 1.2に指定します。
- D. Transfer FamilyサーバーにSSL証明書をインストールし、TLS 1.2を使用してデータ転送を暗号化します。
この問題を見る →
Q97. ある企業は、アプリケーションおよびオンプレミスのApache KafkaサーバーをAWSへマイグレーションすることを計画しています。アプリケーションは、オンプレミスのOracleデータベースからKafkaサーバーへ送信される増分更新を処理します。同社は、リファクタ戦略ではなく、リプラットフォーム戦略を採用したいと考えています。これらの要件を満たすために、最も少ない管理オーバーヘッドで実現できるソリューションはどれですか？
- A. Amazon Kinesis Data Streams
- B. Amazon Managed Streaming for Apache Kafka（Amazon MSK）プロビジョニングクラスター
- C. Amazon Kinesis Data Firehose
- D. Amazon Managed Streaming for Apache Kafka（Amazon MSK）Serverless
この問題を見る →
Q98. データエンジニアが、AWS Glueを用いて自動化された抽出・変換・ロード（ETL）取り込みパイプラインを構築しています。このパイプラインは、Amazon S3バケット内の圧縮ファイルを取り込みます。取り込みパイプラインは、増分データ処理をサポートする必要があります。
- A. ワークフロー
- B. トリガー
- C. ジョブブックマーク
- D. クラスファイア
この問題を見る →
Q99. 銀行会社は、大量のトランザクションデータを収集するアプリケーションを使用しています。同社は、リアルタイム分析のためにAmazon Kinesis Data Streamsを使用しています。同社のアプリケーションは、PutRecordアクションを使用してデータをKinesis Data Streamsに送信します。データエンジニアは、特定の時間帯にネットワーク障害が発生していることを観測しました。データエンジニアは、全体の処理パイプラインにおいて「正確に1回」の配信を構成したいと考えています。この要件を満たすソリューションはどれですか？
- A. アプリケーションを設計し、各レコードにソース側で一意のIDを埋め込むことで、処理中に重複を除去できるようにします。
- B. Amazon Managed Service for Apache Flink（旧称：Amazon Kinesis Data Analytics）のデータ収集アプリケーションのチェックポイント設定を更新し、イベントの重複処理を回避します。
- C. データソースを設計し、イベントがKinesis Data Streamsに複数回取り込まれないようにします。
- D. Kinesis Data Streamsの使用を中止し、代わりにAmazon EMRを使用します。Amazon EMRでApache FlinkおよびApache Spark Streamingを使用します。
この問題を見る →
Q100. ある企業は、ログをAmazon S3バケットに保存しています。データエンジニアが複数のログファイルにアクセスしようと試みたところ、一部のファイルが意図せず削除されていたことが判明しました。データエンジニアは、今後意図しないファイル削除を防止するソリューションを必要としています。
- A. 定期的にS3バケットを手動でバックアップします。
- B. S3バケットに対してS3バージョニングを有効化します。
- C. S3バケットに対してレプリケーションを設定します。
- D. Amazon S3 Glacierストレージクラスを使用して、S3バケット内のデータをアーカイブします。
この問題を見る →

AWS DEA-C01 第1章 練習問題（100問）

AWS DEA-C01 第1章練習問題（100問）