一家公司使用Amazon S3作为数据湖。该公司使用多节点Amazon Redshift集群构建数据仓库。该公司根据每个数据文件的数据来源组织数据湖中的数据文件。

该公司通过为每个数据文件位置单独执行COPY命令，将所

Question

一家公司使用Amazon S3作为数据湖。该公司使用多节点Amazon Redshift集群构建数据仓库。该公司根据每个数据文件的数据来源组织数据湖中的数据文件。

该公司通过为每个数据文件位置单独执行COPY命令，将所有数据文件加载到Redshift集群中的单个表中。此方法加载所有数据文件耗时过长。该公司必须提升数据摄取速度，且不增加过程成本。

哪种解决方案能满足这些需求？

Accepted Answer

D. 创建一个包含数据文件位置的清单文件（manifest file），使用COPY命令将数据加载到Amazon Redshift。

Answer

A. 使用预置的Amazon EMR集群将所有数据文件复制到一个文件夹中，再使用COPY命令将数据加载到Amazon Redshift。

Answer

B. 将所有数据文件并行加载到Amazon Aurora，再运行AWS Glue作业将数据加载到Amazon Redshift。

Answer

C. 使用AWS Glue作业将所有数据文件复制到一个文件夹中，再使用COPY命令将数据加载到Amazon Redshift。

Q94 — AWS DEA-C01 第1章