-
Q1. 一名数据工程师正在配置一个AWS Glue作业,以从Amazon S3存储桶读取数据。该数据工程师已设置必要的AWS Glue连接详细信息和关联的IAM角色。然而,当该数据工程师尝试运行AWS Glue作业时,收到一条错误消息,指出Amazon S3 VPC网关终端节点存在问题。
该数据工程师必须解决此错误,并使AWS Glue作业成功连接到S3存储桶。
以下哪项解决方案可满足此要求?
- A. 更新AWS Glue安全组,以允许来自Amazon S3 VPC网关终端节点的入站流量。
- B. 配置S3存储桶策略,显式授予AWS Glue作业访问S3存储桶的权限。
- C. 检查AWS Glue作业代码,确保AWS Glue连接详细信息中包含完全限定域名。
- D. 验证VPC的路由表是否包含针对Amazon S3 VPC网关终端节点的入站和出站路由。
查看题目 →
-
Q2. 一家媒体公司希望改进其基于用户行为和偏好的媒体内容推荐系统。为提升推荐系统,该公司需要将第三方数据集的洞察整合进其现有分析平台。
该公司希望最小化整合第三方数据集所需的努力和时间。
以下哪项解决方案可在满足这些要求的同时实现最低的运维开销?
- A. 使用API调用从AWS Data Exchange访问并整合第三方数据集。
- B. 使用API调用从AWS DataSync访问并整合第三方数据集。
- C. 使用Amazon Kinesis Data Streams从AWS CodeCommit代码仓库访问并整合第三方数据集。
- D. 使用Amazon Kinesis Data Streams从Amazon Elastic Container Registry(Amazon ECR)访问并整合第三方数据集。
查看题目 →
-
Q3. 一名数据工程师维护若干自定义Python脚本,这些脚本执行许多AWS Lambda函数所共用的数据格式化流程。当该数据工程师需要修改Python脚本时,必须手动更新所有Lambda函数。
该数据工程师需要一种更少人工干预的方式来更新Lambda函数。
以下哪项解决方案可满足此要求?
- A. 在共享的Amazon S3存储桶中,将自定义Python脚本的指针存储在执行上下文对象中。
- B. 将自定义Python脚本打包为Lambda层,并将该Lambda层应用到各Lambda函数。
- C. 在共享的Amazon S3存储桶中,将自定义Python脚本的指针存储在环境变量中。
- D. 为每个Lambda函数分配相同的别名,并通过指定函数别名来调用各Lambda函数。
查看题目 →
-
Q4. 一家公司在AWS Glue中构建了一个提取、转换和加载(ETL)数据管道。一名数据工程师需对Microsoft SQL Server中的表执行爬网操作。该数据工程师需要将爬网结果提取、转换并加载至Amazon S3存储桶,同时还需要对该数据管道进行编排。
以下哪项AWS服务或功能可最经济高效地满足这些要求?
- A. AWS Step Functions
- B. AWS Glue workflows
- C. AWS Glue Studio
- D. Amazon Managed Workflows for Apache Airflow(Amazon MWAA)
查看题目 →
-
Q5. 一家金融服务公司将其金融数据存储在Amazon Redshift中。一名数据工程师希望对金融数据运行实时查询,以支持基于Web的交易应用程序。该数据工程师希望直接从交易应用程序内部运行这些查询。
以下哪项解决方案可在满足这些要求的同时实现最低的运维开销?
- A. 建立WebSocket连接至Amazon Redshift。
- B. 使用Amazon Redshift Data API。
- C. 设置Java数据库连接(JDBC)连接至Amazon Redshift。
- D. 将频繁访问的数据存储在Amazon S3中,并使用Amazon S3 Select运行查询。
查看题目 →
-
Q6. 一家公司使用Amazon Athena对Amazon S3中的数据执行一次性查询。该公司有多个使用场景。该公司必须实施权限控制,以在相同AWS账户内的用户、团队和应用程序之间隔离查询流程及查询历史访问权限。
- A. 为每个使用场景创建一个S3存储桶。为每个S3存储桶创建一个S3存储桶策略,向适当的独立IAM用户授予权限,并将该S3存储桶策略应用于对应S3存储桶。
- B. 为每个使用场景创建一个Athena工作区。为工作区添加标签。创建一个IAM策略,利用这些标签向工作区授予适当的权限。
- C. 为每个使用场景创建一个IAM角色。为每个使用场景的角色分配适当权限,并将该角色与Athena关联。
- D. 为每个使用场景创建一个AWS Glue Data Catalog资源策略,向适当的独立IAM用户授予权限,并将该资源策略应用于Athena所使用的特定表。
查看题目 →
-
Q7. 一名数据工程师需要调度一个每日运行一组AWS Glue作业的工作流。该数据工程师不要求Glue作业在特定时间运行或完成。
- A. 在Glue作业属性中选择FLEX执行类别。
- B. 在Glue作业属性中使用Spot实例类型。
- C. 在Glue作业属性中选择STANDARD执行类别。
- D. 在Glue作业属性的GlueVersion字段中选择最新版本。
查看题目 →
-
Q8. 一名数据工程师需要创建一个AWS Lambda函数,将.csv格式的数据转换为Apache Parquet格式。该Lambda函数仅在用户向Amazon S3存储桶上传.csv文件时才应运行。
- A. 创建一个事件类型为s3:ObjectCreated:*的S3事件通知。使用过滤规则,仅当对象后缀包含.csv时生成通知,并将Lambda函数的ARN设为该事件通知的目标。
- B. 创建一个事件类型为s3:ObjectTagging:*的S3事件通知,仅针对具有.csv标签的对象。将Lambda函数的ARN设为该事件通知的目标。
- C. 创建一个事件类型为s3:*的S3事件通知。使用过滤规则,仅当对象后缀包含.csv时生成通知,并将Lambda函数的ARN设为该事件通知的目标。
- D. 创建一个事件类型为s3:ObjectCreated:*的S3事件通知。使用过滤规则,仅当对象后缀包含.csv时生成通知,并将Amazon Simple Notification Service(Amazon SNS)主题设为该事件通知的目标。再将Lambda函数订阅至该SNS主题。
查看题目 →
-
Q9. 一名数据工程师希望加快Amazon Athena查询的执行速度。该工程师注意到,所有Athena查询所使用的数据文件当前均以未压缩的.csv格式存储。此外,该工程师还注意到,用户执行查询时大多仅选择特定列。
- A. 将数据格式从.csv更改为JSON格式,并应用Snappy压缩。
- B. 使用Snappy压缩对.csv文件进行压缩。
- C. 将数据格式从.csv更改为Apache Parquet,并应用Snappy压缩。
- D. 使用gzip压缩对.csv文件进行压缩。
查看题目 →
-
Q10. 一家制造公司从工厂车间的传感器收集数据,以监控并提升运营效率。该公司使用Amazon Kinesis Data Streams将传感器采集的数据发布到一个数据流中,然后由Amazon Kinesis Data Firehose将数据写入Amazon S3存储桶。
该公司需要在制造设施的大屏幕上实时显示运营效率视图。
哪种解决方案能以最低延迟满足这些需求?
- A. 使用Amazon Managed Service for Apache Flink(此前称为Amazon Kinesis Data Analytics)处理传感器数据。使用Apache Flink连接器将数据写入Amazon Timestream数据库。使用Timestream数据库作为数据源创建Grafana仪表板。
- B. 配置S3存储桶,在创建任何新对象时向AWS Lambda函数发送通知。使用Lambda函数将数据发布到Amazon Aurora。使用Aurora作为数据源创建Amazon QuickSight仪表板。
- C. 使用Amazon Managed Service for Apache Flink(此前称为Amazon Kinesis Data Analytics)处理传感器数据。创建一个新的Data Firehose交付流,直接将数据发布到Amazon Timestream数据库。使用Timestream数据库作为数据源创建Amazon QuickSight仪表板。
- D. 使用AWS Glue书签从S3存储桶实时读取传感器数据。将数据发布到Amazon Timestream数据库。使用Timestream数据库作为数据源创建Grafana仪表板。
查看题目 →
-
Q11. 一家公司将投资组合每日财务表现记录以.csv格式存储在Amazon S3存储桶中。一名数据工程师使用AWS Glue爬虫对S3中的数据进行爬取。
该数据工程师必须确保S3数据每日均可在AWS Glue Data Catalog中被访问。
- A. 创建一个包含AmazonS3FullAccess策略的IAM角色。将该角色与爬虫关联。将源数据的S3存储桶路径指定为爬虫的数据存储位置。创建每日运行爬虫的计划。将输出目标配置为现有S3存储桶中的新路径。
- B. 创建一个包含AWSGlueServiceRole策略的IAM角色。将该角色与爬虫关联。将源数据的S3存储桶路径指定为爬虫的数据存储位置。创建每日运行爬虫的计划。为输出指定数据库名称。
- C. 创建一个包含AmazonS3FullAccess策略的IAM角色。将该角色与爬虫关联。将源数据的S3存储桶路径指定为爬虫的数据存储位置。分配数据处理单元(DPUs)以每日运行爬虫。为输出指定数据库名称。
- D. 创建一个包含AWSGlueServiceRole策略的IAM角色。将该角色与爬虫关联。将源数据的S3存储桶路径指定为爬虫的数据存储位置。分配数据处理单元(DPUs)以每日运行爬虫。将输出目标配置为现有S3存储桶中的新路径。
查看题目 →
-
Q12. 一家公司每天结束时将交易数据加载到Amazon Redshift表中。该公司希望具备跟踪哪些表已加载、哪些表仍需加载的能力。
一名数据工程师希望将Redshift表的加载状态存储在Amazon DynamoDB表中。该数据工程师创建了一个AWS Lambda函数,用于将加载状态详情发布到DynamoDB。
数据工程师应如何调用该Lambda函数,以将加载状态写入DynamoDB表?
- A. 使用第二个Lambda函数,基于Amazon CloudWatch事件调用第一个Lambda函数。
- B. 使用Amazon Redshift Data API向Amazon EventBridge发布事件。配置EventBridge规则以调用Lambda函数。
- C. 使用Amazon Redshift Data API向Amazon Simple Queue Service(Amazon SQS)队列发布消息。配置SQS队列以调用Lambda函数。
- D. 使用第二个Lambda函数,基于AWS CloudTrail事件调用第一个Lambda函数。
查看题目 →
-
Q13. 一名数据工程师需要将5 TB数据从本地数据中心安全传输至Amazon S3存储桶。约5%的数据每天发生变化,且数据更新需定期同步至S3存储桶。数据包含多种格式的文件。该数据工程师需要自动化传输过程,并须安排该过程周期性运行。
- A. AWS DataSync
- B. AWS Glue
- C. AWS Direct Connect
- D. Amazon S3 Transfer Acceleration
查看题目 →
-
Q14. 一家公司使用本地部署的Microsoft SQL Server数据库存储金融交易数据。该公司每月末将交易数据从本地数据库迁移到AWS。该公司注意到,将数据从本地数据库迁移到Amazon RDS for SQL Server数据库的成本近期有所上升。
该公司需要一种成本效益高且能最大限度减少应用程序停机时间的数据迁移方案。
- A. AWS Lambda
- B. AWS Database Migration Service (AWS DMS)
- C. AWS Direct Connect
- D. AWS DataSync
查看题目 →
-
Q15. 一家公司使用运行在RA3节点上的Amazon Redshift集群。该公司希望扩展读写容量以满足需求。一名数据工程师需要确定一种启用并发扩展(concurrency scaling)的解决方案。
- A. 在Redshift Serverless工作组的工作负载管理(WLM)中启用并发扩展。
- B. 在Redshift集群的工作负载管理(WLM)队列级别启用并发扩展。
- C. 在创建任何新的Redshift集群时的设置中启用并发扩展。
- D. 为Redshift集群的日常使用配额启用并发扩展。
查看题目 →
-
Q16. 一家公司正在将其本地工作负载迁移到AWS。该公司希望降低整体运维开销,并探索无服务器选项。
该公司当前工作负载使用Apache Pig、Apache Oozie、Apache Spark、Apache HBase和Apache Flink。本地工作负载可在数秒内处理PB级数据。该公司必须在迁移到AWS后维持类似或更优的性能。
- A. AWS Glue
- B. Amazon EMR
- C. AWS Lambda
- D. Amazon Redshift
查看题目 →
-
Q17. 数据工程师必须使用AWS服务将数据集摄取到Amazon S3数据湖中。该数据工程师对数据集进行剖析后发现,该数据集中包含个人身份信息(PII)。该数据工程师必须实施一种解决方案,以剖析数据集并模糊化PII。
哪种解决方案能以最少的运维工作量满足此要求?
- A. 使用Amazon Kinesis Data Firehose交付流处理数据集。创建一个AWS Lambda转换函数来识别PII。使用AWS SDK模糊化PII。将S3数据湖设置为交付流的目标。
- B. 在AWS Glue Studio中使用Detect PII转换来识别PII。模糊化PII。使用AWS Step Functions状态机编排数据管道,将数据摄取到S3数据湖中。
- C. 在AWS Glue Studio中使用Detect PII转换来识别PII。在AWS Glue Data Quality中创建规则以模糊化PII。使用AWS Step Functions状态机编排数据管道,将数据摄取到S3数据湖中。
- D. 将数据集摄取到Amazon DynamoDB中。创建一个AWS Lambda函数,在DynamoDB表中识别并模糊化PII,并转换数据。使用同一Lambda函数将数据摄取到S3数据湖中。
查看题目 →
-
Q18. 某公司维护多个提取、转换和加载(ETL)工作流,这些工作流从公司的运营数据库中将数据摄取到基于Amazon S3的数据湖中。ETL工作流使用AWS Glue和Amazon EMR处理数据。
该公司希望改进现有架构,以提供自动编排能力,并尽可能减少人工干预。
哪种解决方案能以最少的运维开销满足这些要求?
- A. AWS Glue工作流
- B. AWS Step Functions任务
- C. AWS Lambda函数
- D. Amazon托管Apache Airflow工作流(Amazon MWAA)
查看题目 →
-
Q19. 某公司目前将所有数据存储在Amazon S3中,全部采用S3 Standard存储类别。
数据工程师分析了数据访问模式以识别趋势:前6个月内,大多数数据文件每天被访问数次;6个月至2年间,大多数数据文件每月被访问一至两次;2年后,数据文件每年仅被访问一至两次。
数据工程师需使用S3生命周期策略制定新的数据存储规则。新存储方案必须持续提供高可用性。
哪种解决方案能以最具成本效益的方式满足这些要求?
- A. 6个月后将对象转换为S3 One Zone-Infrequent Access(S3 One Zone-IA);2年后将对象转换为S3 Glacier Flexible Retrieval。
- B. 6个月后将对象转换为S3 Standard-Infrequent Access(S3 Standard-IA);2年后将对象转换为S3 Glacier Flexible Retrieval。
- C. 6个月后将对象转换为S3 Standard-Infrequent Access(S3 Standard-IA);2年后将对象转换为S3 Glacier Deep Archive。
- D. 6个月后将对象转换为S3 One Zone-Infrequent Access(S3 One Zone-IA);2年后将对象转换为S3 Glacier Deep Archive。
查看题目 →
-
Q20. 某公司维护一个Amazon Redshift预置集群,用于执行提取、转换和加载(ETL)操作,以支持关键分析任务。公司内部销售团队维护一个Redshift集群,用于商业智能(BI)任务。
销售团队最近请求访问ETL Redshift集群中的数据,以便执行每周汇总分析任务。销售团队需要将ETL集群中的数据与其BI集群中的数据进行关联查询。
公司需要一种解决方案,在不中断关键分析任务的前提下向销售团队共享ETL集群数据,且必须最小化ETL集群计算资源的占用。
哪种解决方案能满足这些要求?
- A. 通过Redshift数据共享功能,将销售团队BI集群配置为ETL集群的数据消费者。
- B. 根据销售团队需求创建物化视图,并授予销售团队对ETL集群的直接访问权限。
- C. 根据销售团队需求创建数据库视图,并授予销售团队对ETL集群的直接访问权限。
- D. 每周将ETL集群中的数据卸载(UNLOAD)至Amazon S3存储桶,并基于该S3内容创建Amazon Redshift Spectrum表。
查看题目 →
-
Q21. 数据工程师需要关联来自多个数据源的数据以执行一次性分析任务。这些数据分别存储在Amazon DynamoDB、Amazon RDS、Amazon Redshift和Amazon S3中。
- A. 使用Amazon EMR预置集群读取所有数据源,使用Apache Spark关联数据并执行分析。
- B. 将DynamoDB、Amazon RDS和Amazon Redshift中的数据复制到Amazon S3,然后直接在S3文件上运行Amazon Athena查询。
- C. 使用Amazon Athena联邦查询(Federated Query)关联所有数据源的数据。
- D. 使用Redshift Spectrum直接从Redshift查询DynamoDB、Amazon RDS和Amazon S3中的数据。
查看题目 →
-
Q22. 某公司希望实现实时分析能力。该公司希望使用Amazon Kinesis Data Streams和Amazon Redshift以每秒数GB的速度摄取和处理流式数据,并希望通过现有商业智能(BI)和分析工具获取近实时洞察。
哪种解决方案能以最少的运维开销满足这些要求?
- A. 使用Kinesis Data Streams将数据暂存至Amazon S3,再通过COPY命令将S3中的数据直接加载至Amazon Redshift,使数据立即可用于实时分析。
- B. 直接通过SQL查询访问Kinesis Data Streams中的数据,在流上创建物化视图,并定期刷新以查询最新流数据。
- C. 在Amazon Redshift中创建外部模式,将Kinesis Data Streams数据映射为Redshift对象,并创建物化视图读取流数据,设置物化视图自动刷新。
- D. 将Kinesis Data Streams连接至Amazon Kinesis Data Firehose,使用Firehose将数据暂存至Amazon S3,再通过COPY命令将S3数据加载至Amazon Redshift表中。
查看题目 →
-
Q23. 数据工程师需使用AWS Step Functions设计编排工作流。该工作流必须并行处理大量数据文件,并对每个文件应用特定转换。
数据工程师应使用哪种Step Functions状态来满足这些要求?
- A. Parallel状态
- B. Parallel状态
- C. Choice状态
- D. Map状态
- E. Wait状态
查看题目 →
-
Q24. 某公司正将遗留应用程序迁移至基于Amazon S3的数据湖。数据工程师审查了与该遗留应用程序相关的数据,发现其中包含重复信息。
数据工程师必须识别并移除遗留应用程序数据中的重复信息。
哪种解决方案能以最少的运维开销满足这些要求?
- A. 用Python编写自定义提取、转换和加载(ETL)作业,导入Pandas库并使用DataFrame.drop_duplicates()函数执行数据去重。
- B. 编写AWS Glue ETL作业,使用FindMatches机器学习(ML)转换执行数据去重。
- C. 用Python编写自定义ETL作业,导入Python dedupe库并使用该库执行数据去重。
- D. 编写AWS Glue ETL作业,导入Python dedupe库并使用该库执行数据去重。
查看题目 →
-
Q25. 一家公司拥有一个前端ReactJS网站,该网站使用Amazon API Gateway调用REST API。这些API实现网站的功能。一名数据工程师需要编写一个Python脚本,该脚本可偶尔通过API Gateway调用,并将结果返回给API Gateway。
以下哪种解决方案能以最低的运维开销满足这些要求?
- A. 在Amazon Elastic Container Service(Amazon ECS)集群上部署自定义Python脚本。
- B. 创建一个具有预置并发的AWS Lambda Python函数。
- C. 在Amazon Elastic Kubernetes Service(Amazon EKS)上部署可与API Gateway集成的自定义Python脚本。
- D. 创建一个AWS Lambda函数,并通过配置Amazon EventBridge规则每5分钟使用模拟事件调用该Lambda函数,以确保函数保持预热状态。
查看题目 →
-
Q26. 一家公司在生产AWS账户中运行其业务负载。该公司安全团队创建了一个独立的安全AWS账户,用于存储和分析来自生产AWS账户的安全日志。生产AWS账户中的安全日志存储在Amazon CloudWatch Logs中。
该公司需要使用Amazon Kinesis Data Streams将安全日志传输至安全AWS账户。
以下哪种解决方案能满足这些要求?
- A. 在生产AWS账户中创建目标数据流。在安全AWS账户中创建一个IAM角色,该角色具有跨账户权限以访问生产AWS账户中的Kinesis Data Streams。
- B. 在安全AWS账户中创建目标数据流。创建一个IAM角色及信任策略,授予CloudWatch Logs向该数据流写入数据的权限。在生产AWS账户中创建订阅过滤器。
- C. 在生产AWS账户中创建目标数据流。在生产AWS账户中创建一个IAM角色,该角色具有跨账户权限以访问安全AWS账户中的Kinesis Data Streams。
查看题目 →
-
Q27. 一家公司使用Amazon S3在事务型数据湖中存储半结构化数据。部分数据文件较小,而其他数据文件则达数十TB。
一名数据工程师必须执行变更数据捕获(CDC)操作,以识别数据源中的已变更数据。数据源每天发送一个完整快照JSON文件,并将变更数据注入数据湖。
以下哪种解决方案能以最高成本效益捕获变更数据?
- A. 创建一个AWS Lambda函数,用于识别前一版本数据与当前版本数据之间的差异。配置该Lambda函数将变更数据注入数据湖。
- B. 将数据注入Amazon RDS for MySQL。使用AWS Database Migration Service(AWS DMS)将变更数据写入数据湖。
- C. 使用开源数据湖格式将数据源与S3数据湖合并,以插入新数据并更新现有数据。
- D. 将数据注入运行Aurora Serverless的Amazon Aurora MySQL DB实例。使用AWS Database Migration Service(AWS DMS)将变更数据写入数据湖。
查看题目 →
-
Q28. 一名数据工程师必须管理实时流式数据向AWS的摄取。该工程师希望对传入的流式数据执行实时分析,包括最多30分钟时间窗口内的基于时间的聚合运算。该工程师需要一个高容错性的解决方案。
以下哪种解决方案能以最低运维开销满足这些要求?
- A. 使用一个AWS Lambda函数,该函数包含业务逻辑和分析逻辑,对Amazon Kinesis Data Streams中的数据执行最多30分钟时间窗口的基于时间的聚合。
- B. 使用Amazon Managed Service for Apache Flink(此前称为Amazon Kinesis Data Analytics)分析可能偶尔包含重复项的数据,支持多种聚合类型。
- C. 使用一个AWS Lambda函数,该函数包含业务逻辑和分析逻辑,基于事件时间戳对最多30分钟翻滚窗口(tumbling window)执行聚合。
- D. 使用Amazon Managed Service for Apache Flink(此前称为Amazon Kinesis Data Analytics)分析数据,支持多种聚合类型,以在最多30分钟的时间窗口内执行基于时间的分析。
查看题目 →
-
Q29. 一家公司计划将其Amazon Elastic Block Store(Amazon EBS)通用型SSD存储从gp2升级为gp3。该公司希望防止在迁移到升级后的存储过程中,其Amazon EC2实例发生任何中断,从而避免数据丢失。
以下哪种解决方案能以最低运维开销满足这些要求?
- A. 为gp2卷创建快照。基于快照创建新的gp3卷。将新gp3卷挂载至EC2实例。
- B. 创建新的gp3卷。逐步将数据迁移至新gp3卷。迁移完成后,将新gp3卷挂载至EC2实例以替换gp2卷。
- C. 将现有gp2卷的卷类型更改为gp3。输入新的卷大小、IOPS和吞吐量值。
- D. 使用AWS DataSync创建新的gp3卷。将原始gp2卷的数据迁移至新gp3卷。
查看题目 →
-
Q30. 一家公司正将其数据库服务器从运行Microsoft SQL Server的Amazon EC2实例迁移至Amazon RDS for Microsoft SQL Server数据库实例。在迁移完成前,该公司分析团队需每日导出大量数据元素。这些数据元素源自跨多个表的SQL连接查询结果,且必须以Apache Parquet格式存储于Amazon S3中。
以下哪种解决方案能以最高运维效率满足这些要求?
- A. 在基于EC2的SQL Server数据库中创建视图,包含所需数据元素。创建一个AWS Glue作业,直接从该视图读取数据,并以Parquet格式传输至S3存储桶。按日调度该AWS Glue作业。
- B. 配置SQL Server Agent每日运行SQL查询,从基于EC2的SQL Server数据库中提取所需数据元素,并将输出.csv文件定向至S3存储桶。创建S3事件触发AWS Lambda函数,将.csv格式转换为Parquet格式。
- C. 使用SQL查询在基于EC2的SQL Server数据库中创建视图,包含所需数据元素。创建并运行AWS Glue爬网程序读取该视图。创建AWS Glue作业检索数据,并以Parquet格式传输至S3存储桶。按日调度该AWS Glue作业。
- D. 创建一个AWS Lambda函数,通过Java Database Connectivity(JDBC)查询基于EC2的数据库。配置该Lambda函数检索所需数据、转换为Parquet格式并传输至S3存储桶。使用Amazon EventBridge按日调度该Lambda函数。
查看题目 →
-
Q31. 一个数据工程团队使用Amazon Redshift数据仓库进行运营报表分析。该团队希望防止因长时间运行查询导致的性能问题。一名数据工程师需选择Amazon Redshift中的系统表,用于在查询优化器识别出可能指示性能问题的条件时记录异常事件。
该数据工程师应使用以下哪种系统表视图来满足此要求?
- A. STL_USAGE_CONTROL
- B. STL_ALERT_EVENT_LOG
- C. STL_QUERY_METRICS
- D. STL_PLAN_INFO
查看题目 →
-
Q32. 一名数据工程师需将结构化CSV格式的源数据摄取至Amazon S3数据湖。CSV文件包含15列。数据分析师需对数据集的一列或两列运行Amazon Athena查询,极少查询整个文件。
- A. 使用AWS Glue PySpark作业将源数据以CSV格式摄取至数据湖。
- B. 创建一个AWS Glue提取、转换和加载(ETL)作业,从CSV结构化数据源读取数据。配置该作业以JSON格式将数据摄取至数据湖。
- C. 使用AWS Glue PySpark作业将源数据以Apache Avro格式摄取至数据湖。
- D. 创建一个AWS Glue提取、转换和加载(ETL)作业,从CSV结构化数据源读取数据。配置该作业以Apache Parquet格式将数据写入数据湖。
查看题目 →
-
Q33. 一家公司正在开发一个运行在 Amazon EC2 实例上的应用程序。目前,该应用程序生成的数据是临时性的。但该公司需要持久化这些数据,即使 EC2 实例被终止。
- A. 使用一个由包含应用程序数据的 EC2 实例存储卷支持的 Amazon 机器镜像(AMI)启动新的 EC2 实例,并对 EC2 实例应用默认设置。
- B. 使用一个由包含应用程序数据的根 Amazon Elastic Block Store(Amazon EBS)卷支持的 AMI 启动新的 EC2 实例,并对 EC2 实例应用默认设置。
- C. 使用一个由 EC2 实例存储卷支持的 AMI 启动新的 EC2 实例,并附加一个 Amazon Elastic Block Store(Amazon EBS)卷来存储应用程序数据,然后对 EC2 实例应用默认设置。
- D. 使用一个由 Amazon Elastic Block Store(Amazon EBS)卷支持的 AMI 启动新的 EC2 实例,并附加一个额外的 EC2 实例存储卷来存储应用程序数据,然后对 EC2 实例应用默认设置。
查看题目 →
-
Q34. 一家公司使用 Amazon Athena 运行 SQL 查询以执行提取、转换和加载(ETL)任务,采用 Create Table As Select(CTAS)方式。该公司必须改用 Apache Spark 而非 SQL 来生成分析结果。
- A. Athena 查询设置
- B. Athena 工作组
- C. Athena 数据源
- D. Athena 查询编辑器
查看题目 →
-
Q35. 一家公司需要对其用于数据湖的 Amazon S3 存储进行分区,分区路径格式如下:s3://bucket/prefix/year=2023/month=01/day=01。数据工程师必须确保当公司在存储桶中新增分区时,AWS Glue Data Catalog 能与 S3 存储同步。
- A. 每天早晨调度一次 AWS Glue 爬网程序。
- B. 每天手动两次调用 AWS Glue CreatePartition API。
- C. 在向 Amazon S3 写入数据的代码中调用 Boto3 AWS Glue create_partition API。
- D. 从 AWS Glue 控制台运行 MSCK REPAIR TABLE 命令。
查看题目 →
-
Q36. 一家媒体公司使用软件即服务(SaaS)应用程序并通过第三方工具收集数据。该公司需将数据存储在 Amazon S3 存储桶中,并使用 Amazon Redshift 对该数据执行分析。
- A. Amazon Managed Streaming for Apache Kafka(Amazon MSK)
- B. Amazon AppFlow
- C. AWS Glue Data Catalog
- D. Amazon Kinesis
查看题目 →
-
Q37. 一名数据工程师正使用 Amazon Athena 分析存储在 Amazon S3 中的销售数据。该工程师编写了一个查询,从名为 sales_data 的表中检索 2023 年若干产品的销售额。但该查询未返回 sales_data 表中所有产品的结果。数据工程师需排查此查询以解决问题。
原始查询如下:
SELECT product_name, sum(sales_amount)
FROM sales_data
WHERE year = 2023
GROUP BY product_name
- A. 将 sum(sales_amount) 替换为 count(*) 进行聚合。
- B. 将 WHERE year = 2023 改为 WHERE extract(year FROM sales_data) = 2023。
- C. 在 GROUP BY 子句后添加 HAVING sum(sales_amount) > 0。
- D. 移除 GROUP BY 子句。
查看题目 →
-
Q38. 一名数据工程师有一项一次性任务:读取 Amazon S3 存储桶中 Apache Parquet 格式对象的数据,且仅需查询其中一列。
- A. 配置一个 AWS Lambda 函数,从 S3 存储桶加载数据到 pandas DataFrame,再在该 DataFrame 上编写 SQL SELECT 语句查询所需列。
- B. 使用 S3 Select 编写 SQL SELECT 语句,直接从 S3 对象中检索所需列。
- C. 准备一个 AWS Glue DataBrew 项目来消费 S3 对象并查询所需列。
- D. 对 S3 对象运行 AWS Glue 爬网程序,然后在 Amazon Athena 中使用 SQL SELECT 语句查询所需列。
查看题目 →
-
Q39. 一家公司使用 Amazon Redshift 作为其数据仓库。该公司必须自动化 Amazon Redshift 物化视图的刷新调度。
- A. 使用 Apache Airflow 刷新物化视图。
- B. 在 Amazon Redshift 中使用 AWS Lambda 用户定义函数(UDF)刷新物化视图。
- C. 使用 Amazon Redshift 中的查询编辑器 v2 刷新物化视图。
- D. 使用 AWS Glue 工作流刷新物化视图。
查看题目 →
-
Q40. 一名数据工程师需编排一条包含一个 AWS Lambda 函数和一个 AWS Glue 作业的数据管道。该方案必须与 AWS 服务集成。
- A. 使用包含状态机的 AWS Step Functions 工作流。配置该状态机依次运行 Lambda 函数和 AWS Glue 作业。
- B. 在 Amazon EC2 实例上部署 Apache Airflow 工作流。定义一个有向无环图(DAG),其中第一个任务调用 Lambda 函数,第二个任务调用 AWS Glue 作业。
- C. 使用 AWS Glue 工作流运行 Lambda 函数和 AWS Glue 作业。
- D. 在 Amazon Elastic Kubernetes Service(Amazon EKS)上部署 Apache Airflow 工作流。定义一个有向无环图(DAG),其中第一个任务调用 Lambda 函数,第二个任务调用 AWS Glue 作业。
查看题目 →
-
Q41. 一家公司需要为其在AWS云中运行的数据源设置数据目录和元数据管理。该公司将使用该数据目录来维护一组数据存储中所有对象的元数据。这些数据存储包括结构化数据源(例如Amazon RDS和Amazon Redshift),也包括半结构化数据源(例如存储在Amazon S3中的JSON文件和.xml文件)。该公司需要一种能够定期更新数据目录的解决方案,该方案还必须能够检测源元数据的变化。哪种解决方案能以最少的运维开销满足这些要求?
- A. 使用Amazon Aurora作为数据目录。创建AWS Lambda函数连接到该数据目录。配置Lambda函数从多个数据源收集元数据信息,并更新Aurora数据目录。按计划定期运行Lambda函数。
- B. 使用AWS Glue Data Catalog作为中心元数据存储库。使用AWS Glue爬虫连接到多个数据存储,并使用元数据变更更新Data Catalog。按计划定期运行爬虫以更新元数据目录。
- C. 使用Amazon DynamoDB作为数据目录。创建AWS Lambda函数连接到该数据目录。配置Lambda函数从多个数据源收集元数据信息,并更新DynamoDB数据目录。按计划定期运行Lambda函数。
- D. 使用AWS Glue Data Catalog作为中心元数据存储库。为Amazon RDS和Amazon Redshift数据源提取模式,并构建Data Catalog。对存储在Amazon S3中的数据使用AWS Glue爬虫推断模式并自动更新Data Catalog。
查看题目 →
-
Q42. 一家公司将应用程序数据存储在采用预置容量模式的Amazon DynamoDB表中。该应用程序的工作负载具有可预测的周期性吞吐量负载。每周一清晨会出现活动量的即时激增。该应用程序在周末的使用量极低。该公司必须确保应用程序在峰值使用时段保持一致的性能。哪种解决方案能以最具成本效益的方式满足这些要求?
- A. 将预置容量提升至当前峰值负载期间所需的最高容量。
- B. 将该表拆分为两个表。为每个表预置原表一半的预置容量。将查询平均分配到两个表上。
- C. 使用AWS Application Auto Scaling,在峰值使用时段安排更高的预置容量;在非峰值时段安排更低的容量。
- D. 将容量模式从预置更改为按需。根据表上的负载情况配置表自动扩容和缩容。
查看题目 →
-
Q43. 一家公司计划将其本地Apache Hadoop集群迁移到Amazon EMR。该公司还需要将数据目录迁移到持久化存储解决方案中。该公司目前将数据目录存储在Hadoop集群上的本地Apache Hive元存储中。该公司需要一种无服务器解决方案来迁移该数据目录。哪种解决方案能以最具成本效益的方式满足这些要求?
- A. 使用AWS Database Migration Service(AWS DMS)将Hive元存储迁移到Amazon S3。配置AWS Glue Data Catalog扫描Amazon S3以生成数据目录。
- B. 在Amazon EMR中配置Hive元存储。将现有的本地Hive元存储迁移到Amazon EMR。使用AWS Glue Data Catalog将公司的数据目录作为外部数据目录进行存储。
- C. 在Amazon EMR中配置外部Hive元存储。将现有的本地Hive元存储迁移到Amazon EMR。使用Amazon Aurora MySQL存储公司的数据目录。
- D. 在Amazon EMR中配置新的Hive元存储。将现有的本地Hive元存储迁移到Amazon EMR。将新元存储用作公司的数据目录。
查看题目 →
-
Q44. 一家公司使用Amazon Redshift预置集群作为其数据库。该Redshift集群包含五个预留的ra3.4xlarge节点,并采用键分布(key distribution)。一名数据工程师注意到其中一个节点的CPU负载经常超过90%,运行在该节点上的SQL查询被排队。其余四个节点在日常运行期间CPU负载通常低于15%。该数据工程师希望维持当前计算节点数量,同时希望更均匀地平衡所有五个计算节点上的负载。哪种解决方案能满足这些要求?
- A. 将排序键(sort key)更改为SQL SELECT语句WHERE子句中最常使用的数据列。
- B. 将分布键(distribution key)更改为具有最大维度的表列。
- C. 将预留节点从ra3.4xlarge升级为ra3.16xlarge。
- D. 将主键(primary key)更改为SQL SELECT语句WHERE子句中最常使用的数据列。
查看题目 →
-
Q45. 一家安全公司将其IoT设备产生的JSON格式数据存储在Amazon S3存储桶中。当公司升级IoT设备时,数据结构可能会发生变化。该公司希望创建一个包含该IoT数据的数据目录,其分析部门将使用该数据目录对数据建立索引。哪种解决方案能以最具成本效益的方式满足这些要求?
- A. 创建AWS Glue Data Catalog。配置AWS Glue Schema Registry。创建一个新的AWS Glue工作负载,协调分析部门将使用的数据摄入到Amazon Redshift Serverless中。
- B. 创建Amazon Redshift预置集群。为分析部门创建Amazon Redshift Spectrum数据库,以探索Amazon S3中的数据。创建Redshift存储过程将数据加载到Amazon Redshift中。
- C. 创建Amazon Athena工作组。通过Athena使用Apache Spark探索Amazon S3中的数据。向分析部门提供Athena工作组的模式和表。
- D. 创建AWS Glue Data Catalog。配置AWS Glue Schema Registry。使用Amazon Redshift Data API创建AWS Lambda用户定义函数(UDF)。创建AWS Step Functions作业,协调分析部门将使用的数据摄入到Amazon Redshift Serverless中。
查看题目 →
-
Q46. 一家公司将交易详情存储在Amazon S3存储桶中。该公司希望将对该交易S3存储桶的所有写入操作日志记录到同一AWS区域内的另一个S3存储桶中。哪种解决方案能以最少的运维工作量满足此要求?
- A. 为交易S3存储桶上的所有活动配置S3事件通知规则,以触发AWS Lambda函数。编写Lambda函数将事件写入Amazon Kinesis Data Firehose。配置Kinesis Data Firehose将事件写入日志S3存储桶。
- B. 在AWS CloudTrail中创建管理事件跟踪。配置该跟踪以接收来自交易S3存储桶的数据。指定空前缀和仅写入事件。将日志S3存储桶指定为目标存储桶。
- C. 为交易S3存储桶上的所有活动配置S3事件通知规则,以触发AWS Lambda函数。编写Lambda函数将事件写入日志S3存储桶。
- D. 在AWS CloudTrail中创建数据事件跟踪。配置该跟踪以接收来自交易S3存储桶的数据。指定空前缀和仅写入事件。将日志S3存储桶指定为目标存储桶。
查看题目 →
-
Q47. 一名数据工程师需要维护一个中央元数据存储库,用户可通过Amazon EMR和Amazon Athena查询访问该存储库。该存储库需提供大量表的模式和属性。部分元数据存储在Apache Hive中。该数据工程师需要将Hive中的元数据导入中央元数据存储库。哪种解决方案能以最少的开发工作量满足这些要求?
- A. 使用Amazon EMR和Apache Ranger。
- B. 在EMR集群上使用Hive元存储。
- C. 使用AWS Glue Data Catalog。
- D. 在Amazon RDS for MySQL数据库实例上使用元存储。
查看题目 →
-
Q48. 一家公司需要在AWS中构建数据湖。该公司必须向特定团队提供行级数据访问和列级数据访问。这些团队将通过Amazon Athena、Amazon Redshift Spectrum以及来自Amazon EMR的Apache Hive访问数据。哪种解决方案能以最少的运维开销满足这些要求?
- A. 使用Amazon S3作为数据湖存储。使用S3访问策略按行和列限制数据访问。通过Amazon S3提供数据访问。
- B. 使用Amazon S3作为数据湖存储。通过Amazon EMR使用Apache Ranger按行和列限制数据访问。使用Apache Pig提供数据访问。
- C. 使用Amazon Redshift作为数据湖存储。使用Redshift安全策略按行和列限制数据访问。使用Apache Spark和Amazon Athena联合查询提供数据访问。
- D. 使用Amazon S3作为数据湖存储。使用AWS Lake Formation按行和列限制数据访问。通过AWS Lake Formation提供数据访问。
查看题目 →
-
Q49. 一家公司已使用名为 Orders 的 Amazon Redshift 表达六个月。该公司每周对表执行更新和删除操作。该表在包含 AWS 区域的列上具有交错排序键。
公司希望回收磁盘空间,以避免耗尽存储空间。公司还希望分析排序键列。
以下哪个 Amazon Redshift 命令可满足这些要求?
- A. VACUUM FULL Orders
- B. VACUUM DELETE ONLY Orders
- C. VACUUM REINDEX Orders
- D. VACUUM SORT ONLY Orders
查看题目 →
-
Q50. 一家制造公司希望收集传感器数据。数据工程师需要实施一种解决方案,以近实时方式摄取传感器数据。
该解决方案必须将数据存储到持久性数据存储中。该解决方案必须以嵌套 JSON 格式存储数据。公司必须具备从数据存储中查询数据的能力,且延迟低于 10 毫秒。
- A. 使用自托管的 Apache Kafka 集群捕获传感器数据。将数据存储在 Amazon S3 中以供查询。
- B. 使用 AWS Lambda 处理传感器数据。将数据存储在 Amazon S3 中以供查询。
- C. 使用 Amazon Kinesis Data Streams 捕获传感器数据。将数据存储在 Amazon DynamoDB 中以供查询。
- D. 使用 Amazon Simple Queue Service(Amazon SQS)缓冲传入的传感器数据。使用 AWS Glue 将数据存储在 Amazon RDS 中以供查询。
查看题目 →
-
Q51. 一家公司在 Amazon S3 中的数据湖中存储数据。该公司在数据湖中存储的部分数据包含个人身份信息(PII)。多个用户组需要访问原始数据。公司必须确保各用户组只能访问其所需的 PII。
- A. 使用 Amazon Athena 查询数据。设置 AWS Lake Formation 并创建数据筛选器,为公司的 IAM 角色建立访问级别。将每个用户分配给与其 PII 访问要求匹配的 IAM 角色。
- B. 使用 Amazon QuickSight 访问数据。利用 QuickSight 中的列级安全功能,限制用户通过 Amazon Athena 从 Amazon S3 检索的 PII。根据用户的 PII 访问要求定义 QuickSight 访问级别。
- C. 构建一个自定义查询构建器 UI,后台运行 Athena 查询以访问数据。在 Amazon Cognito 中创建用户组。根据用户的 PII 访问要求为用户组分配访问级别。
- D. 创建具有不同粒度访问级别的 IAM 角色。将 IAM 角色分配给 IAM 用户组。使用基于身份的策略,在列级别为用户组分配访问级别。
查看题目 →
-
Q52. 一家金融公司希望使用 Amazon Athena 对 PB 级数据集运行按需 SQL 查询,以支持业务智能(BI)应用。一个 AWS Glue 作业在非营业时间每天更新一次该数据集。该 BI 应用的标准数据刷新频率为 1 小时,以符合公司政策。
一位数据工程师希望在不增加任何额外基础设施成本的情况下,优化公司对 Amazon Athena 的使用成本。
以下哪种解决方案可在满足这些要求的同时,实现最低的运营开销?
- A. 配置 Amazon S3 生命周期策略,在 1 天后将数据移至 S3 Glacier Deep Archive 存储类别。
- B. 对 SQL 查询使用 Amazon Athena 的查询结果重用功能。
- C. 在 BI 应用与 Athena 之间添加 Amazon ElastiCache 集群。
- D. 将数据集中文件的格式更改为 Apache Parquet。
查看题目 →
-
Q53. 一家公司的数据工程师需要优化表 SQL 查询的性能。该公司在 Amazon Redshift 集群中存储数据。
由于预算限制,数据工程师无法扩大集群规模。
该公司将数据存储在多个表中,并使用 EVEN 分布样式加载数据。某些表大小达数百 GB。其他表则小于 10 MB。
- A. 对所有表继续使用 EVEN 分布样式。为所有表指定主键和外键。
- B. 对大表使用 ALL 分布样式。为所有表指定主键和外键。
- C. 对很少更新的小表使用 ALL 分布样式。为所有表指定主键和外键。
- D. 为所有表指定分布、排序和分区键的组合。
查看题目 →
-
Q54. 一家公司接收包含物理地址数据的 .csv 文件。数据位于以下列名的列中:Door_No、Street_Name、City 和 Zip_Code。该公司希望创建一个新列,以如下格式存储这些值:
- A. 使用 AWS Glue DataBrew 读取文件。使用 NEST_TO_ARRAY 转换来创建新列。
- B. 使用 AWS Glue DataBrew 读取文件。使用 NEST_TO_MAP 转换来创建新列。
- C. 使用 AWS Glue DataBrew 读取文件。使用 PIVOT 转换来创建新列。
- D. 编写一个 Python Lambda 函数读取文件。使用 Python 字典类型创建新列。
查看题目 →
-
Q55. 一家公司以 Amazon S3 对象形式接收呼叫日志,其中包含敏感客户信息。公司必须使用加密来保护这些 S3 对象。公司还必须使用仅特定员工可访问的加密密钥。
- A. 使用 AWS CloudHSM 集群存储加密密钥。配置写入 Amazon S3 的流程,调用 CloudHSM 加密和解密对象。部署限制访问 CloudHSM 集群的 IAM 策略。
- B. 使用客户提供的密钥进行服务器端加密(SSE-C)来加密包含客户信息的对象。限制访问加密对象所用密钥的权限。
- C. 使用 AWS KMS 密钥进行服务器端加密(SSE-KMS)来加密包含客户信息的对象。配置限制访问加密对象所用 KMS 密钥的 IAM 策略。
- D. 使用 Amazon S3 托管密钥进行服务器端加密(SSE-S3)来加密包含客户信息的对象。配置限制访问 Amazon S3 托管密钥的 IAM 策略。
查看题目 →
-
Q56. 一家公司在数千个 Amazon S3 存储桶中以 S3 Standard 存储类别存储 PB 级数据。这些数据支持具有不可预测且多变的数据访问模式的分析工作负载。
公司数月不访问部分数据。然而,公司必须能在毫秒内检索所有数据。公司需要优化 S3 存储成本。
- A. 使用 S3 Storage Lens 标准指标确定何时将对象移至更具成本效益的存储类别。为 S3 存储桶创建 S3 生命周期策略,将对象移至更具成本效益的存储类别。未来持续优化 S3 生命周期策略以优化存储成本。
- B. 使用 S3 Storage Lens 活动指标识别公司访问频率较低的 S3 存储桶。根据数据的存龄,配置 S3 生命周期规则,将对象从 S3 Standard 移至 S3 Standard-Infrequent Access(S3 Standard-IA)和 S3 Glacier 存储类别。
- C. 使用 S3 Intelligent-Tiering。启用 Deep Archive 访问层级。
- D. 使用 S3 Intelligent-Tiering。使用默认访问层级。
查看题目 →
-
Q57. 一名数据工程师使用 Amazon Redshift 每月运行一次资源密集型分析流程。每月,该数据工程师都会创建一个新的 Redshift 预置集群,并在分析流程完成后删除该集群。在每月删除集群前,该数据工程师会将备份数据从集群卸载到 Amazon S3 存储桶中。
该数据工程师需要一种解决方案来运行每月分析流程,且无需手动管理基础设施。
哪种解决方案能以最少的运维开销满足这些要求?
- A. 使用 Amazon Step Functions 在分析流程完成后暂停 Redshift 集群,并在每月运行新流程时恢复集群。
- B. 使用 Amazon Redshift Serverless 自动处理分析工作负载。
- C. 使用 AWS CLI 自动处理分析工作负载。
- D. 使用 AWS CloudFormation 模板自动处理分析工作负载。
查看题目 →
-
Q58. 一家公司每天接收一个包含客户数据的 .xls 格式文件,并将该文件存储在 Amazon S3 中。该每日文件大小约为 2 GB。
一名数据工程师需将文件中包含客户名字的列与包含客户姓氏的列进行拼接。该数据工程师需要确定该文件中不同客户的数量。
哪种解决方案能以最少的操作努力满足此要求?
- A. 在 AWS Glue 笔记本中创建并运行 Apache Spark 作业。配置该作业以读取 S3 文件并计算不同客户的数量。
- B. 创建 AWS Glue 爬网程序,为 S3 文件创建 AWS Glue 数据目录。从 Amazon Athena 运行 SQL 查询以计算不同客户的数量。
- C. 在 Amazon EMR Serverless 中创建并运行 Apache Spark 作业以计算不同客户的数量。
- D. 使用 AWS Glue DataBrew 创建一个配方(recipe),利用 COUNT_DISTINCT 聚合函数计算不同客户的数量。
查看题目 →
-
Q59. 一家医疗保健公司使用 Amazon Kinesis Data Streams 实时流式传输来自可穿戴设备、医院设备和患者记录的健康数据。
一名数据工程师需要找到一种方案来处理流式数据,并将数据存储到 Amazon Redshift Serverless 数仓中。该方案必须支持对流式数据及前一天数据的近实时分析。
哪种解决方案能以最少的运维开销满足这些要求?
- A. 将数据加载到 Amazon Kinesis Data Firehose,再将数据加载到 Amazon Redshift。
- B. 使用 Amazon Redshift 的流式摄取(streaming ingestion)功能。
- C. 将数据加载到 Amazon S3,再使用 COPY 命令将数据加载到 Amazon Redshift。
- D. 使用 Amazon Aurora 零 ETL 集成与 Amazon Redshift。
查看题目 →
-
Q60. 一家公司将数据集以 JSON 和 .csv 格式存储在 Amazon S3 存储桶中。该公司拥有 Amazon RDS for Microsoft SQL Server 数据库、采用预置容量模式的 Amazon DynamoDB 表以及一个 Amazon Redshift 集群。一个数据工程团队必须开发一种解决方案,使数据科学家能够使用类似 SQL 的语法查询所有数据源。
- A. 使用 AWS Glue 爬取数据源,将元数据存储在 AWS Glue 数据目录中。使用 Amazon Athena 查询数据:对结构化数据源使用 SQL;对 JSON 格式存储的数据使用 PartiQL。
- B. 使用 AWS Glue 爬取数据源,将元数据存储在 AWS Glue 数据目录中。使用 Redshift Spectrum 查询数据:对结构化数据源使用 SQL;对 JSON 格式存储的数据使用 PartiQL。
- C. 使用 AWS Glue 爬取数据源,将元数据存储在 AWS Glue 数据目录中。使用 AWS Glue 作业将 JSON 格式的数据转换为 Apache Parquet 或 .csv 格式,并将转换后的数据存储在 S3 存储桶中。使用 Amazon Athena 查询原始数据和 S3 存储桶中的转换后数据。
- D. 使用 AWS Lake Formation 构建数据湖。使用 Lake Formation 作业将所有数据源的数据转换为 Apache Parquet 格式,并将转换后的数据存储在 S3 存储桶中。使用 Amazon Athena 或 Redshift Spectrum 查询数据。
查看题目 →
-
Q61. 一名数据工程师正在配置 Amazon SageMaker Studio,以使用 AWS Glue 交互式会话为机器学习(ML)模型准备数据。
当该数据工程师尝试使用 SageMaker Studio 准备数据时,收到“访问被拒绝”错误。
该工程师应做出哪项更改才能获得对 SageMaker Studio 的访问权限?
- A. 将 AWSGlueServiceRole 托管策略添加到该数据工程师的 IAM 用户。
- B. 向该数据工程师的 IAM 用户添加一项策略,该策略在信任策略中包含针对 AWS Glue 和 SageMaker 服务主体的 sts:AssumeRole 操作。
- C. 将 AmazonSageMakerFullAccess 托管策略添加到该数据工程师的 IAM 用户。
- D. 向该数据工程师的 IAM 用户添加一项策略,该策略在信任策略中允许针对 AWS Glue 和 SageMaker 服务主体的 sts:AddAssociation 操作。
查看题目 →
-
Q62. 一家公司每天从 SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka 和 Amazon DynamoDB 等数据源提取约 1 TB 的数据。部分数据源具有未定义的数据模式或会变化的数据模式。
一名数据工程师必须实施一种解决方案,以检测这些数据源的模式。该解决方案必须将数据提取、转换并加载(ETL)到 Amazon S3 存储桶中。该公司有服务级别协议(SLA),要求在数据生成后 15 分钟内将数据加载到 S3 存储桶中。
- A. 使用 Amazon EMR 检测模式并将数据提取、转换和加载到 S3 存储桶中。在 Apache Spark 中创建管道。
- B. 使用 AWS Glue 检测模式并将数据提取、转换和加载到 S3 存储桶中。在 Apache Spark 中创建管道。
- C. 在 AWS Lambda 中创建 PySpark 程序,将数据提取、转换并加载到 S3 存储桶中。
- D. 在 Amazon Redshift 中创建存储过程,以检测模式并将数据提取、转换和加载到 Redshift Spectrum 表中。从 Amazon S3 访问该表。
查看题目 →
-
Q63. 一家公司拥有多个应用程序,这些应用程序使用存储在 Amazon S3 存储桶中的数据集。该公司有一个电子商务应用程序,生成的数据集包含个人身份信息(PII)。该公司还有一个内部分析应用程序,不需要访问 PII。
为符合监管要求,该公司不得不必要地共享 PII。一名数据工程师需要实施一种解决方案,以便根据每个访问该数据集的应用程序的需求动态编辑(redact)PII。
- A. 创建一个 S3 存储桶策略,限制每个应用程序的访问权限。创建数据集的多个副本。为每个副本提供适当级别的编辑,以满足访问该副本的应用程序的需求。
- B. 创建一个 S3 Object Lambda 终端节点。使用 S3 Object Lambda 终端节点从 S3 存储桶读取数据。在 S3 Object Lambda 函数中实现编辑逻辑,以根据每个访问数据的应用程序的需求动态编辑 PII。
- C. 使用 AWS Glue 为每个应用程序转换数据。创建数据集的多个副本。为每个副本提供适当级别的编辑,以满足访问该副本的应用程序的需求。
- D. 创建一个带有自定义授权器的 API Gateway 终端节点。使用 API Gateway 终端节点从 S3 存储桶读取数据。发起 REST API 调用,以根据每个访问数据的应用程序的需求动态编辑 PII。
查看题目 →
-
Q64. 一名数据工程师需要构建一个提取、转换和加载(ETL)作业。该 ETL 作业将处理用户上传至 Amazon S3 存储桶的每日传入 .csv 文件。每个 S3 对象的大小小于 100 MB。
- A. 编写自定义 Python 应用程序,并将其托管在 Amazon Elastic Kubernetes Service(Amazon EKS)集群上。
- B. 编写 PySpark ETL 脚本,并将其托管在 Amazon EMR 集群上。
- C. 编写 AWS Glue PySpark 作业,使用 Apache Spark 转换数据。
- D. 编写 AWS Glue Python Shell 作业,使用 pandas 转换数据。
查看题目 →
-
Q65. 一名数据工程师使用名为 Orders 的 AWS Glue 爬网程序创建了一个 AWS Glue Data Catalog 表。该数据工程师希望添加以下新分区:
s3://transactions/orders/order_date=2023-01-01
s3://transactions/orders/order_date=2023-01-02
该数据工程师必须编辑元数据,将新分区包含在表中,且无需扫描表所在位置的所有文件夹和文件。
该数据工程师应在 Amazon Athena 中使用哪条数据定义语言(DDL)语句?
- A. ALTER TABLE Orders ADD PARTITION(order_date='2023-01-01') LOCATION 's3://transactions/orders/order_date=2023-01-01'; ALTER TABLE Orders ADD PARTITION(order_date='2023-01-02') LOCATION 's3://transactions/orders/order_date=2023-01-02';
- B. MSCK REPAIR TABLE Orders;
- C. REPAIR TABLE Orders;
- D. ALTER TABLE Orders MODIFY PARTITION(order_date='2023-01-01') LOCATION 's3://transactions/orders/2023-01-01'; ALTER TABLE Orders MODIFY PARTITION(order_date='2023-01-02') LOCATION 's3://transactions/orders/2023-01-02';
查看题目 →
-
Q66. 某公司将在 Amazon S3 中存储10至15 TB未压缩的.csv文件。该公司正在评估将 Amazon Athena 作为一次性查询引擎。
该公司希望转换数据以优化查询运行时间和存储成本。
哪种文件格式与压缩方案可满足 Athena 查询的上述要求?
- A. csv格式,使用zip压缩
- B. JSON格式,使用bzip2压缩
- C. Apache Parquet格式,使用Snappy压缩
- D. Apache Avro格式,使用LZO压缩
查看题目 →
-
Q67. 某公司使用 Apache Airflow 编排其当前本地部署的数据管道。该公司在管道中运行SQL数据质量检查任务。该公司希望将管道迁移至AWS,并使用AWS托管服务。
哪种解决方案可在重构量最少的前提下满足这些要求?
- A. 在距离该公司Airflow部署位置最近的AWS区域中设置AWS Outposts。将服务器迁移到Outposts托管的Amazon EC2实例。更新管道以与Outposts托管的EC2实例交互,而非本地管道。
- B. 创建一个包含Airflow应用程序及所需迁移代码的自定义Amazon Machine Image(AMI)。使用该自定义AMI部署Amazon EC2实例。更新网络连接以与新部署的EC2实例交互。
- C. 将现有Airflow编排配置迁移到Amazon Managed Workflows for Apache Airflow(Amazon MWAA)。在数据摄入过程中创建数据质量检查,使用Airflow中的SQL任务验证数据质量。
- D. 将管道转换为AWS Step Functions工作流。将SQL数据质量检查重写为基于Python的AWS Lambda函数。
查看题目 →
-
Q68. 某公司使用 Amazon EMR 构建提取、转换和加载(ETL)管道,以处理来自多个数据源的数据。一名数据工程师必须编排该管道以实现最高性能。
哪种AWS服务能以最具成本效益的方式满足此要求?
- A. Amazon EventBridge
- B. Amazon Managed Workflows for Apache Airflow(Amazon MWAA)
- C. AWS Step Functions
- D. AWS Glue Workflows
查看题目 →
-
Q69. 一家在线零售公司将其应用负载均衡器(ALB)访问日志存储在Amazon S3存储桶中。该公司希望使用Amazon Athena查询日志以分析流量模式。
一名数据工程师在Athena中创建了一个未分区表。随着数据量逐渐增加,查询响应时间也随之延长。该数据工程师希望提升Athena中的查询性能。
哪种解决方案可在运营工作量最少的前提下满足这些要求?
- A. 创建一个AWS Glue作业,自动推断所有ALB访问日志的模式,并将分区元数据写入AWS Glue Data Catalog。
- B. 创建一个AWS Glue爬网程序,配置分类器以自动推断所有ALB访问日志的模式,并将分区元数据写入AWS Glue Data Catalog。
- C. 创建一个AWS Lambda函数转换所有ALB访问日志,将结果以Apache Parquet格式保存至Amazon S3,并对元数据进行分区,然后使用Athena查询转换后的数据。
- D. 使用Apache Hive创建分桶表,并使用AWS Lambda函数转换所有ALB访问日志。
查看题目 →
-
Q70. 某公司在AWS上运行商业智能平台。该公司使用AWS Storage Gateway的Amazon S3文件网关,将文件从本地环境传输至Amazon S3存储桶。
一名数据工程师需要构建一个流程,在每次文件传输成功完成后,自动启动AWS Glue工作流以运行一系列AWS Glue作业。
哪种解决方案可在运营开销最低的前提下满足这些要求?
- A. 根据以往成功的文件传输时间确定传输完成时段,并设置Amazon EventBridge定时事件,在该时段触发AWS Glue作业。
- B. 设置Amazon EventBridge事件,在每次成功的S3文件网关文件传输事件后触发AWS Glue工作流。
- C. 设置一个按需启动的AWS Glue工作流,由数据工程师在每次文件传输完成后手动启动。
- D. 设置一个AWS Lambda函数调用AWS Glue工作流,并将S3对象创建事件配置为该Lambda函数的触发器。
查看题目 →
-
Q71. 一家制造公司在全球各地的工厂部署了大量物联网(IoT)设备。该公司使用Amazon Kinesis Data Streams收集设备数据。数据包括设备ID、采集日期、测量类型、测量值和工厂ID。该公司使用工厂ID作为分区键。
该公司运维团队近期观察到大量WriteThroughputExceeded异常。团队发现部分分片负载极高,而其他分片基本空闲。
该公司应如何解决运维团队观察到的问题?
- A. 将分区键从工厂ID更改为随机生成的键。
- B. 增加分片数量。
- C. 在生产者端归档数据。
- D. 将分区键从工厂ID更改为采集日期。
查看题目 →
-
Q72. 一名数据工程师希望提升针对销售数据表在Amazon Athena中运行的SQL查询性能。
该数据工程师希望了解特定SQL语句的执行计划,并查看SQL查询中每个操作的计算成本。
该数据工程师需运行哪条语句以满足这些要求?
- A. EXPLAIN SELECT * FROM sales;
- B. EXPLAIN ANALYZE FROM sales;
- C. EXPLAIN ANALYZE SELECT * FROM sales;
- D. EXPLAIN FROM sales;
查看题目 →
-
Q73. 一家公司计划在VPC内配置日志交付流。该公司已将VPC流日志配置为发布到Amazon CloudWatch Logs。该公司需要将近实时地将流日志发送到Splunk以进行进一步分析。
哪种解决方案能以最少的运维开销满足这些要求?
- A. 配置一个Amazon Kinesis Data Streams数据流,以Splunk作为目标。创建一个CloudWatch Logs订阅过滤器,将日志事件发送到该数据流。
- B. 创建一个Amazon Kinesis Data Firehose交付流,以Splunk作为目标。创建一个CloudWatch Logs订阅过滤器,将日志事件发送到该交付流。
- C. 创建一个Amazon Kinesis Data Firehose交付流,以Splunk作为目标。创建一个AWS Lambda函数,将流日志从CloudWatch Logs发送到该交付流。
- D. 配置一个Amazon Kinesis Data Streams数据流,以Splunk作为目标。创建一个AWS Lambda函数,将流日志从CloudWatch Logs发送到该数据流。
查看题目 →
-
Q74. 一家公司在AWS上构建了一个数据湖。该数据湖从各业务部门摄取数据源。该公司使用Amazon Athena进行查询。存储层为Amazon S3,并使用AWS Glue Data Catalog作为元数据存储库。
该公司希望将数据提供给数据科学家和业务分析师使用。但首先,该公司需要基于用户角色和职责,对Athena实施细粒度的列级数据访问控制。
哪种解决方案能满足这些要求?
- A. 设置AWS Lake Formation。在Lake Formation中,按IAM角色为用户和应用程序定义基于安全策略的规则。
- B. 为AWS Glue表定义基于资源的IAM策略。将相同策略附加到IAM用户组。
- C. 为AWS Glue表定义基于身份的IAM策略。将相同策略附加到IAM角色。将包含用户的IAM角色关联至IAM组。
- D. 在AWS Resource Access Manager(AWS RAM)中创建资源共享,以向IAM用户授予权限。
查看题目 →
-
Q75. 一家公司开发了多个AWS Glue提取、转换和加载(ETL)作业,用于验证和转换来自Amazon S3的数据。这些ETL作业每天批量一次将数据加载到Amazon RDS for MySQL中。ETL作业使用DynamicFrame从S3读取数据。
当前,ETL作业处理S3存储桶中的全部数据。但该公司希望作业仅处理每日增量数据。
哪种解决方案能以最少的编码工作量满足此要求?
- A. 创建一个ETL作业,读取S3文件状态并将状态记录在Amazon DynamoDB中。
- B. 为ETL作业启用作业书签(job bookmarks),以便在每次运行后更新状态,跟踪先前已处理的数据。
- C. 为ETL作业启用作业指标(job metrics),以帮助在Amazon CloudWatch中跟踪已处理的对象。
- D. 配置ETL作业在每次运行后从Amazon S3删除已处理的对象。
查看题目 →
-
Q76. 一家在线零售公司拥有一个运行在Amazon EC2实例上的应用程序,这些实例位于VPC中。该公司希望收集该VPC的流日志并分析网络流量。
哪种解决方案能以最具成本效益的方式满足这些要求?
- A. 将流日志发布到Amazon CloudWatch Logs。使用Amazon Athena进行分析。
- B. 将流日志发布到Amazon CloudWatch Logs。使用Amazon OpenSearch Service集群进行分析。
- C. 将流日志以文本格式发布到Amazon S3。使用Amazon Athena进行分析。
- D. 将流日志以Apache Parquet格式发布到Amazon S3。使用Amazon Athena进行分析。
查看题目 →
-
Q77. 一家零售公司将其交易、门店位置和客户信息三张表存储在由四个预留ra3.4xlarge节点组成的Amazon Redshift集群中。所有三张表均采用EVEN(均匀)分布方式。
该公司仅每隔几年更新一次门店位置表一两次。
一名数据工程师注意到,Redshift队列正在变慢,因为大多数查询都会持续将整个门店位置表广播到全部四个计算节点。该数据工程师希望最小化门店位置表的广播,以提升查询性能。
哪种解决方案能以最具成本效益的方式满足这些要求?
- A. 将门店位置表的分布方式从EVEN分布更改为ALL分布。
- B. 将门店位置表的分布方式更改为KEY分布,依据维度最高的列。
- C. 为所有表的排序键添加一个名为store_id的连接列。
- D. 将Redshift预留节点升级为同一系列中更大的实例规格。
查看题目 →
-
Q78. 一家公司的数据仓库中包含一张名为Sales的表,该表存储在Amazon Redshift中。该表包含一个名为city_name的列。该公司希望查询该表,找出所有city_name以"San"或"El"开头的行。
以下哪条SQL查询能满足该要求?
- A. Select ∗ from Sales where city_name ~ ‘$(San|El)∗’;
- B. Select ∗ from Sales where city_name ~ ‘^(San|El)∗’;
- C. Select ∗ from Sales where city_name ~’$(San&El)∗’;
- D. Select ∗ from Sales where city_name ~ ‘^(San&El)∗’;
查看题目 →
-
Q79. 一家公司需要将其本地PostgreSQL数据库中的客户通话数据发送到AWS,以生成近实时洞察。该解决方案必须捕获并加载运行在PostgreSQL数据库中的运营数据存储的更新。数据持续发生变化。
一名数据工程师配置了一个AWS Database Migration Service(AWS DMS)持续复制任务。该任务从PostgreSQL源数据库每个表的事务日志中近实时读取变更,然后将数据发送到Amazon Redshift集群进行处理。
该数据工程师在变更数据捕获(CDC)过程中发现了延迟问题。该数据工程师认为PostgreSQL源数据库是高延迟的原因。
哪种解决方案可以确认PostgreSQL数据库确实是高延迟的来源?
- A. 使用Amazon CloudWatch监控DMS任务。检查CDCIncomingChanges指标,以识别源数据库CDC过程中的延迟。
- B. 验证postgresql.conf配置文件中是否已为源数据库配置逻辑复制。
- C. 为源数据库的DMS终端节点启用Amazon CloudWatch Logs。检查是否存在错误消息。
- D. 使用Amazon CloudWatch监控DMS任务。检查CDCLatencySource指标,以识别源数据库CDC过程中的延迟。
查看题目 →
-
Q80. 某实验室使用IoT传感器监控某项目的湿度、温度和压力。传感器每10秒发送100 KB数据。下游进程每30秒从Amazon S3存储桶中读取数据。
哪种解决方案能以最低延迟将数据交付至S3存储桶?
- A. 使用Amazon Kinesis Data Streams和Amazon Kinesis Data Firehose将数据交付至S3存储桶。对Kinesis Data Firehose使用默认缓冲间隔。
- B. 使用Amazon Kinesis Data Streams将数据交付至S3存储桶。将流配置为使用5个预置分片。
- C. 使用Amazon Kinesis Data Streams,并调用Kinesis客户端库(KCL)将数据交付至S3存储桶。在应用程序中使用5秒缓冲间隔。
- D. 使用Amazon Managed Service for Apache Flink(原Amazon Kinesis Data Analytics)和Amazon Kinesis Data Firehose将数据交付至S3存储桶。对Kinesis Data Firehose使用5秒缓冲间隔。
查看题目 →
-
Q81. 一家零售公司使用 AWS Glue 对包含客户订单信息的数据集执行提取、转换和加载(ETL)操作。该公司希望实施特定的验证规则,以确保数据的准确性和一致性。
以下哪种解决方案能够满足这些要求?
- A. 使用 AWS Glue 作业书签来跟踪数据以确保准确性和一致性。
- B. 创建自定义的 AWS Glue 数据质量规则集,以定义特定的数据质量检查。
- C. 使用内置的 AWS Glue 数据质量转换进行标准数据质量验证。
- D. 使用 AWS Glue Data Catalog 维护集中式数据模式和元数据存储库
查看题目 →
-
Q82. 一家保险公司将其交易数据使用 gzip 压缩后进行存储。
该公司需要为偶尔的审计工作查询该交易数据。
以下哪种解决方案能以最低成本满足此需求?
- A. 将数据存储在 Amazon Glacier 灵活检索(Flexible Retrieval)中,并使用 Amazon S3 Glacier Select 查询数据。
- B. 将数据存储在 Amazon S3 中,并使用 Amazon S3 Select 查询数据。
- C. 将数据存储在 Amazon S3 中,并使用 Amazon Athena 查询数据。
- D. 将数据存储在 Amazon Glacier 即时检索(Instant Retrieval)中,并使用 Amazon Athena 查询数据。
查看题目 →
-
Q83. 一名数据工程师已完成对一个 Amazon Redshift 存储过程的测试,该存储过程用于处理并插入非关键任务表中的数据。该工程师希望每天自动运行该存储过程。
以下哪种解决方案能以最低成本满足此需求?
- A. 创建一个 AWS Lambda 函数,通过计划 cron 作业来运行该存储过程。
- B. 在 Amazon EC2 Spot 实例中使用 Amazon Redshift Data API 来计划并运行该存储过程。
- C. 使用查询编辑器 v2 按计划运行该存储过程。
- D. 计划一个 AWS Glue Python Shell 作业来运行该存储过程。
查看题目 →
-
Q84. 一名数据工程师正在构建一个数据编排工作流。该工程师计划采用混合模型,其中部分资源位于本地,部分资源位于云中。该工程师希望优先考虑可移植性和开源资源。
该数据工程师应在本地环境和基于云的环境中使用哪种服务?
- A. AWS Data Exchange
- B. Amazon Simple Workflow Service (Amazon SWF)
- C. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)
- D. AWS Glue
查看题目 →
-
Q85. 一家游戏公司使用 NoSQL 数据库存储客户信息。该公司正计划迁移到 AWS。
该公司需要一种完全托管的 AWS 解决方案,以支持高并发在线事务处理(OLTP)工作负载,提供个位数毫秒级性能,并在全球范围内提供高可用性。
以下哪种解决方案能在运营开销最少的情况下满足这些要求?
- A. Amazon Keyspaces (for Apache Cassandra)
- B. Amazon DocumentDB (with MongoDB compatibility)
- C. Amazon DynamoDB
- D. Amazon Timestream
查看题目 →
-
Q86. 一名数据工程师创建了一个由 Amazon EventBridge 事件调用的 AWS Lambda 函数。当该数据工程师尝试使用 EventBridge 事件调用该 Lambda 函数时,出现 AccessDeniedException 错误消息。
该数据工程师应如何解决此异常?
- A. 确保 Lambda 函数执行角色的信任策略允许 EventBridge 承担该执行角色。
- B. 确保 EventBridge 所使用的 IAM 角色以及 Lambda 函数的基于资源的策略均具备必要权限。
- C. 确保部署 Lambda 函数的子网被配置为私有子网。
- D. 确保 EventBridge 模式有效且事件映射配置正确。
查看题目 →
-
Q87. 一家公司使用基于 Amazon S3 存储桶的数据湖。为满足合规性要求,该公司必须对上传至该 S3 存储桶的文件应用两层服务器端加密。该公司希望使用 AWS Lambda 函数来应用必要的加密。
以下哪种解决方案能满足这些要求?
- A. 同时使用 AWS KMS 密钥的服务器端加密(SSE-KMS)和 Amazon S3 加密客户端。
- B. 使用带有 AWS KMS 密钥的双层服务器端加密(DSSE-KMS)。
- C. 在文件上传前使用客户提供的密钥进行服务器端加密(SSE-C)。
- D. 使用 AWS KMS 密钥的服务器端加密(SSE-KMS)。
查看题目 →
-
Q88. 一名数据工程师注意到 Amazon Athena 查询在运行前被保留在队列中。
该数据工程师如何防止查询排队?
- A. 增加查询结果限制。
- B. 为现有工作组配置预留容量。
- C. 使用联合查询。
- D. 允许用户运行 Athena 查询到现有工作组。
查看题目 →
-
Q89. 一名数据工程师需要调试一个从Amazon S3读取数据并写入Amazon Redshift的AWS Glue作业。该数据工程师已为该AWS Glue作业启用了书签(bookmark)功能。
该数据工程师已将AWS Glue作业的最大并发数设置为1。
该AWS Glue作业已成功将输出写入Amazon Redshift。然而,之前运行中已加载的Amazon S3文件在后续运行中被重复处理。
AWS Glue作业重复处理文件的可能原因是什么?
- A. 该AWS Glue作业缺少书签正常工作所必需的s3:GetObjectAcl权限。
- B. 该AWS Glue作业的最大并发数设置为1。
- C. 该数据工程师为Glue作业错误指定了较旧版本的AWS Glue。
- D. 该AWS Glue作业缺少必需的提交(commit)语句
查看题目 →
-
Q90. 一家电商公司希望使用AWS将其数据管道从本地环境迁移到AWS云中。该公司目前在本地环境中使用第三方工具编排数据摄取流程。
该公司希望采用一种无需自行管理服务器的迁移方案。该方案必须能够编排Python和Bash脚本,且无需重构任何现有代码。
- A. AWS Lambda
- B. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)
- C. AWS Step Functions
- D. AWS Glue
查看题目 →
-
Q91. 一家零售公司将其产品生命周期管理(PLM)应用的数据存储在本地MySQL数据库中。PLM应用在发生事务时频繁更新该数据库。
该公司希望近实时获取PLM应用的数据洞察,并将这些洞察与其他业务数据集集成,然后使用Amazon Redshift数据仓库分析整合后的数据集。
该公司已在本地基础设施与AWS之间建立了AWS Direct Connect连接。
哪种方案能以最少的开发工作量满足这些需求?
- A. 运行一个定时的AWS Glue提取、转换和加载(ETL)作业,通过Java数据库连接(JDBC)连接获取MySQL数据库更新,并将Amazon Redshift设为ETL作业的目标。
- B. 在AWS Database Migration Service(AWS DMS)中运行全量加载加变更数据捕获(CDC)任务,持续复制MySQL数据库变更,并将Amazon Redshift设为该任务的目标。
- C. 使用Amazon AppFlow SDK构建针对MySQL数据库的自定义连接器,以持续复制数据库变更,并将Amazon Redshift设为该连接器的目标。
- D. 运行定时的AWS DataSync任务以同步MySQL数据库中的数据,并将Amazon Redshift设为任务的目标。
查看题目 →
-
Q92. 一家营销公司使用Amazon S3存储点击流数据。该公司每天结束时使用SQL JOIN子句查询分别存储在不同S3存储桶中的S3对象。
该公司基于这些对象创建关键绩效指标(KPI)。该公司需要一种无服务器解决方案,使用户能够按数据分区进行查询,且该解决方案必须保持数据的原子性、一致性、隔离性和持久性(ACID)特性。
哪种解决方案能最经济高效地满足这些需求?
- A. Amazon S3 Select
- B. Amazon Redshift Spectrum
- C. Amazon Athena
- D. Amazon EMR
查看题目 →
-
Q93. 一家公司希望将数据从名为Account_A的AWS账户中eu-east-1区域的Amazon RDS for PostgreSQL数据库实例迁移到名为Account_B的AWS账户中eu-west-1区域的Amazon Redshift集群。
哪种方案能使AWS Database Migration Service(AWS DMS)具备在两个数据存储之间复制数据的能力?
- A. 在Account_B的eu-west-1区域中设置AWS DMS复制实例。
- B. 在Account_B的eu-east-1区域中设置AWS DMS复制实例。
- C. 在一个新的AWS账户的eu-west-1区域中设置AWS DMS复制实例。
- D. 在Account_A的eu-east-1区域中设置AWS DMS复制实例。
查看题目 →
-
Q94. 一家公司使用Amazon S3作为数据湖。该公司使用多节点Amazon Redshift集群构建数据仓库。该公司根据每个数据文件的数据来源组织数据湖中的数据文件。
该公司通过为每个数据文件位置单独执行COPY命令,将所有数据文件加载到Redshift集群中的单个表中。此方法加载所有数据文件耗时过长。该公司必须提升数据摄取速度,且不增加过程成本。
哪种解决方案能满足这些需求?
- A. 使用预置的Amazon EMR集群将所有数据文件复制到一个文件夹中,再使用COPY命令将数据加载到Amazon Redshift。
- B. 将所有数据文件并行加载到Amazon Aurora,再运行AWS Glue作业将数据加载到Amazon Redshift。
- C. 使用AWS Glue作业将所有数据文件复制到一个文件夹中,再使用COPY命令将数据加载到Amazon Redshift。
- D. 创建一个包含数据文件位置的清单文件(manifest file),使用COPY命令将数据加载到Amazon Redshift。
查看题目 →
-
Q95. 一家公司计划使用Amazon Kinesis Data Firehose将数据存储到Amazon S3。源数据为2 MB的.csv文件。该公司必须将.csv文件转换为JSON格式,并以Apache Parquet格式存储。
- A. 使用Kinesis Data Firehose将.csv文件转换为JSON,再使用AWS Lambda函数将文件存储为Parquet格式。
- B. 使用Kinesis Data Firehose将.csv文件转换为JSON并以Parquet格式存储。
- C. 使用Kinesis Data Firehose调用AWS Lambda函数,将.csv文件转换为JSON并存储为Parquet格式。
- D. 使用Kinesis Data Firehose调用AWS Lambda函数将.csv文件转换为JSON,再使用Kinesis Data Firehose将文件存储为Parquet格式。
查看题目 →
-
Q96. 一家公司正使用AWS Transfer Family服务器将数据从本地环境迁移到AWS。公司策略要求使用TLS 1.2或更高版本加密传输中的数据。
- A. 为Transfer Family服务器生成新的SSH密钥,并同时提供旧密钥和新密钥供使用。
- B. 更新本地网络的安全组规则,仅允许使用TLS 1.2或更高版本的连接。
- C. 更新Transfer Family服务器的安全策略,指定最低协议版本为TLS 1.2。
- D. 在Transfer Family服务器上安装SSL证书,以使用TLS 1.2加密数据传输。
查看题目 →
-
Q97. 一家公司希望将一个应用程序和本地部署的Apache Kafka服务器迁移到AWS。该应用程序处理来自本地Oracle数据库发送到Kafka服务器的增量更新。该公司希望采用replatform(重新平台化)迁移策略,而非refactor(重构)策略。
哪项解决方案能在满足这些要求的同时,带来最少的管理开销?
- A. Amazon Kinesis Data Streams
- B. Amazon Managed Streaming for Apache Kafka (Amazon MSK) provisioned cluster
- C. Amazon Kinesis Data Firehose
- D. Amazon Managed Streaming for Apache Kafka (Amazon MSK) Serverless
查看题目 →
-
Q98. 一名数据工程师正使用AWS Glue构建自动化的提取、转换和加载(ETL)摄取管道。该管道从Amazon S3存储桶中摄取压缩文件。该摄取管道必须支持增量数据处理。
为满足此要求,数据工程师应使用AWS Glue的哪项功能?
- A. Workflows
- B. Triggers
- C. Job bookmarks
- D. Classifiers
查看题目 →
-
Q99. 一家银行公司使用一个应用程序收集大量交易数据。该公司使用Amazon Kinesis Data Streams进行实时分析。该公司的应用程序使用PutRecord操作将数据发送至Kinesis Data Streams。
一名数据工程师观察到每天特定时段出现网络中断。该数据工程师希望为整个处理管道配置恰好一次(exactly-once)交付。
哪项解决方案能满足此要求?
- A. 设计应用程序,使其在处理过程中通过在每条记录源端嵌入唯一ID来移除重复项。
- B. 更新Amazon Managed Service for Apache Flink(此前称为Amazon Kinesis Data Analytics)数据采集应用程序的检查点(checkpoint)配置,以避免事件的重复处理。
- C. 设计数据源,确保事件不会被多次摄取到Kinesis Data Streams中。
- D. 停止使用Kinesis Data Streams,改用Amazon EMR。在Amazon EMR中使用Apache Flink和Apache Spark Streaming。
查看题目 →
-
Q100. 一家公司在Amazon S3存储桶中存储日志。当一名数据工程师尝试访问多个日志文件时,发现部分文件已被意外删除。
该数据工程师需要一种方案,以防止未来发生意外的文件删除。
哪项解决方案能在满足此要求的同时,带来最少的运维开销?
- A. 定期手动备份S3存储桶。
- B. 为S3存储桶启用S3 Versioning。
- C. 为S3存储桶配置复制。
- D. 使用Amazon S3 Glacier存储类归档S3存储桶中的数据。
查看题目 →