Q17 — AWS DEA-C01 第1章
第 17/100 問 | ← 第1章
データエンジニアは、AWSサービスを用いてデータセットをAmazon S3データレイクに取り込む必要があります。データエンジニアがデータセットを分析したところ、個人を特定可能な情報(PII)が含まれていることがわかりました。データエンジニアは、データセットを分析し、PIIを曖昧化(オブスキュレーション)するソリューションを実装する必要があります。 この要件を満たすために、最も少ない運用作業量で実現できるソリューションはどれですか?
- A. Amazon Kinesis Data Firehose配信ストリームを使用してデータセットを処理します。PIIを識別するAWS Lambda変換関数を作成します。AWS SDKを使用してPIIを曖昧化します。配信ストリームのターゲットとしてS3データレイクを設定します。
- B. AWS Glue StudioのDetect PII変換を使用してPIIを識別します。PIIを曖昧化します。AWS Step Functionsステートマシンを使用して、データをS3データレイクに取り込むデータパイプラインをオーケストレートします。 ✓
- C. AWS Glue StudioのDetect PII変換を使用してPIIを識別します。AWS Glue Data QualityでPIIを曖昧化するルールを作成します。AWS Step Functionsステートマシンを使用して、データをS3データレイクに取り込むデータパイプラインをオーケストレートします。
- D. データセットをAmazon DynamoDBに取り込みます。DynamoDBテーブル内のPIIを識別・曖昧化し、データを変換するAWS Lambda関数を作成します。同じLambda関数を使用して、データをS3データレイクに取り込みます。
正解: B. AWS Glue StudioのDetect PII変換を使用してPIIを識別します。PIIを曖昧化します。AWS Step Functionsステートマシンを使用して、データをS3データレイクに取り込むデータパイプラインをオーケストレートします。
解説
選択肢Bが最適解である理由は、AWS Glue StudioのDetect PII変換がPIIを簡単に識別でき、その後直接曖昧化できる点にあります。さらに、AWS Step Functionsステートマシンを用いてデータパイプラインをオーケストレートし、処理済みデータをS3データレイクに取り込むことで、運用作業量が最小限に抑えられます。一方、選択肢AではLambda変換関数の作成とSDKによる曖昧化が必要で、より複雑です。選択肢CではAWS Glue Data Qualityルールの作成により複雑性が増します。選択肢DではDynamoDBへの一時的な取り込みとLambdaによる二段階処理が必要で、手順が煩雑です。よって、正解はBです。