Q76 — AWS AIF-C01 第2章

曾种ML类型涉及训肯模型营最击化基开从熟境接收的反馈的累积奖励?

A. 监督学习
B. 无监督学习
C. 半监督学习
D. 强化学习 ✓

正确答案: D. 强化学习

解析

解析如下: A. 监督学习是使用标记的训练数据(输入-输出对)来训练模型预测或分类新数据的技术,不涉及从环境获取反馈和累积奖励。 B. 无监督学习是从未标记的数据中发现内在模式或结构的技术,也不涉及从环境获取反馈和奖励。 C. 半监督学习结合了少量标记数据和大量未标记数据进行训练,但同样不涉及从环境获取反馈和奖励。 D. 强化学习是一种基于这样的思想:通过与环境交互并根据收到的反馈(奖励或惩罚)来训练智能体(agent),使其能够学习采取最佳行动策略以最大化长期累积奖励。在强化学习中,智能体与环境交互,在当前状态下采取行动,环境根据这个行动转移到新状态并返回奖励。智能体的目标是学习一个策略,通过在各个状态下采取最佳行动来最大化未来预期的累积奖励。因此,强化学习正是涉及训练模型(智能体)以最大化基于从环境接收的反馈(奖励或惩罚)的累积奖励的一种机器学习方法。