Q94 — AWS DEA-C01 第1章
第 94/100 题 | ← 返回第1章
一家公司使用Amazon S3作为数据湖。该公司使用多节点Amazon Redshift集群构建数据仓库。该公司根据每个数据文件的数据来源组织数据湖中的数据文件。 该公司通过为每个数据文件位置单独执行COPY命令,将所有数据文件加载到Redshift集群中的单个表中。此方法加载所有数据文件耗时过长。该公司必须提升数据摄取速度,且不增加过程成本。 哪种解决方案能满足这些需求?
- A. 使用预置的Amazon EMR集群将所有数据文件复制到一个文件夹中,再使用COPY命令将数据加载到Amazon Redshift。
- B. 将所有数据文件并行加载到Amazon Aurora,再运行AWS Glue作业将数据加载到Amazon Redshift。
- C. 使用AWS Glue作业将所有数据文件复制到一个文件夹中,再使用COPY命令将数据加载到Amazon Redshift。
- D. 创建一个包含数据文件位置的清单文件(manifest file),使用COPY命令将数据加载到Amazon Redshift。 ✓
正确答案: D. 创建一个包含数据文件位置的清单文件(manifest file),使用COPY命令将数据加载到Amazon Redshift。
解析
使用清单文件(manifest file)可让单条COPY命令并行加载多个S3路径下的数据文件,显著提升加载速度且无需额外计算资源,成本不变。选项A和C引入EMR或Glue作业增加计算成本;选项B经Aurora中转增加架构复杂度与成本。因此D为最优解。