ある企業がレガシーアプリケーションをAmazon S3ベースのデータレイクに移行しています。データエンジニアがレガシーアプリケーションに関連付けられたデータをレビューしたところ、レガシーデータに重複した情報が含まれている

Question

ある企業がレガシーアプリケーションをAmazon S3ベースのデータレイクに移行しています。データエンジニアがレガシーアプリケーションに関連付けられたデータをレビューしたところ、レガシーデータに重複した情報が含まれていることが判明しました。
データエンジニアは、レガシーアプリケーションのデータから重複情報を特定・削除する必要があります。
これらの要件を最も少ない運用オーバーヘッドで満たすソリューションはどれですか？

Accepted Answer

B. AWS Glueの抽出・変換・ロード（ETL）ジョブを作成します。FindMatches機械学習（ML）変換を用いてデータの重複除去を行います。

Answer

A. Pythonでカスタムの抽出・変換・ロード（ETL）ジョブを作成します。Pandasライブラリをインポートし、DataFrame.drop_duplicates()関数を用いてデータの重複除去を行います。

Answer

C. Pythonでカスタムの抽出・変換・ロード（ETL）ジョブを作成します。Python dedupeライブラリをインポートし、dedupeライブラリを用いてデータの重複除去を行います。

Answer

D. AWS Glueの抽出・変換・ロード（ETL）ジョブを作成します。Python dedupeライブラリをインポートし、dedupeライブラリを用いてデータの重複除去を行います。

Q24 — AWS DEA-C01 第1章

正解: B. AWS Glueの抽出・変換・ロード（ETL）ジョブを作成します。FindMatches機械学習（ML）変換を用いてデータの重複除去を行います。

解説