Q24 — AWS DEA-C01 第1章
第 24/100 問 | ← 第1章
ある企業がレガシーアプリケーションをAmazon S3ベースのデータレイクに移行しています。データエンジニアがレガシーアプリケーションに関連付けられたデータをレビューしたところ、レガシーデータに重複した情報が含まれていることが判明しました。 データエンジニアは、レガシーアプリケーションのデータから重複情報を特定・削除する必要があります。 これらの要件を最も少ない運用オーバーヘッドで満たすソリューションはどれですか?
- A. Pythonでカスタムの抽出・変換・ロード(ETL)ジョブを作成します。Pandasライブラリをインポートし、DataFrame.drop_duplicates()関数を用いてデータの重複除去を行います。
- B. AWS Glueの抽出・変換・ロード(ETL)ジョブを作成します。FindMatches機械学習(ML)変換を用いてデータの重複除去を行います。 ✓
- C. Pythonでカスタムの抽出・変換・ロード(ETL)ジョブを作成します。Python dedupeライブラリをインポートし、dedupeライブラリを用いてデータの重複除去を行います。
- D. AWS Glueの抽出・変換・ロード(ETL)ジョブを作成します。Python dedupeライブラリをインポートし、dedupeライブラリを用いてデータの重複除去を行います。
正解: B. AWS Glueの抽出・変換・ロード(ETL)ジョブを作成します。FindMatches機械学習(ML)変換を用いてデータの重複除去を行います。
解説
選択肢Bを選択する理由は、AWS GlueがAWS環境向けに設計されたETLサービスであり、組み込みのFindMatches機械学習変換を提供しており、データの重複除去を直接実行できるため、カスタムスクリプトの作成および保守の必要性が減少するからです。FindMatchesは機械学習アルゴリズムに基づき、データ内の重複を効果的に識別・処理でき、運用オーバーヘッドが低いです。一方、Pandasライブラリやdedupeライブラリを用いる方法でも重複除去は可能ですが、特にAWS環境では開発および保守作業が多くなる可能性があります。したがって、Bは要件を満たし、運用オーバーヘッドが最小のソリューションです。