データエンジニアは、Amazon S3バケット内のApache Parquet形式のオブジェクトからデータを1回だけ読み取るタスクを持っています。データエンジニアは、そのデータの1列のみをクエリする必要があります。
これ

Question

データエンジニアは、Amazon S3バケット内のApache Parquet形式のオブジェクトからデータを1回だけ読み取るタスクを持っています。データエンジニアは、そのデータの1列のみをクエリする必要があります。
これらの要件を最も運用オーバーヘッドが少ないソリューションはどれですか？

Accepted Answer

B. S3 Selectを使用して、S3オブジェクトから必要な列を取得するSQL SELECT文を記述します。

Answer

A. AWS Lambda関数を設定して、S3バケットからデータをpandas DataFrameに読み込みます。DataFrameに対してSQL SELECT文を記述して必要な列をクエリします。

Answer

C. AWS Glue DataBrewプロジェクトを準備して、S3オブジェクトを消費し、必要な列をクエリします。

Answer

D. S3オブジェクトに対してAWS Glueクローラーを実行します。Amazon AthenaでSQL SELECT文を使用して必要な列をクエリします。

Q38 — AWS DEA-C01 第1章