Q76 — AWS AIF-C01 第2章

第 76/100 問 | ← 第2章

どの種類のMLが、環境からのフィードバック（報酬）に基づく累積報酬の最大化を目指してモデルをトレーニングしますか？

A. 教師あり学習
B. 教師なし学習
C. 半教師あり学習
D. 強化学習 ✓

正解: D. 強化学習

解説

解説如下: A. 教師あり学習は、ラベル付きのトレーニングデータ（入力−出力対）を用いて、新しいデータの予測または分類を行うモデルをトレーニングする技術であり、環境からのフィードバックや累積報酬の獲得を含みません。 B. 教師なし学習は、ラベルなしのデータから内在するパターンや構造を発見する技術であり、これも環境からのフィードバックや報酬を含みません。 C. 半教師あり学習は、少量のラベル付きデータと大量のラベルなしデータを組み合わせてトレーニングする手法ですが、これも環境からのフィードバックや報酬を含みません。 D. 強化学習は、エージェントが環境と相互作用し、受け取ったフィードバック（報酬またはペナルティ）に基づいて最適な行動戦略を学習し、長期的な累積報酬を最大化することを目指す思想に基づく技術です。強化学習では、エージェントが現在の状態で行動を取り、環境がその行動に基づいて新しい状態へ遷移し、報酬を返します。エージェントの目標は、各状態で最適な行動を取ることによって将来の期待累積報酬を最大化する方策（ポリシー）を学習することです。したがって、環境からのフィードバック（報酬またはペナルティ）に基づく累積報酬の最大化を目指してモデル（エージェント）をトレーニングする機械学習手法は、まさに強化学習です。