Q64 — AWS AIF-C01 第2章

第 64/100 問 | ← 第2章

マーケティング企業が大規模言語モデル(LLM)を活用しています。同社は、質問応答タスクにおいて入力にわずかな変更を加えた場合のLLM応答品質の変化を評価したいと考えています。同社が採用すべき指標はどれですか?

正解: D. 意味的ロバスト性(Semantic Robustness)

解説

質問応答タスクにおけるLLM応答品質の変化を評価するには、最も適した指標はD. 意味的ロバスト性です。 解説: A. 二乗平均平方根誤差(RMSE)は回帰問題の予測精度評価に用いられ、生成型質問応答タスクの評価には適用できません。 B. ROC曲线下方積(AUC)は二値分類問題の性能評価に用いられ、生成型質問応答タスクには不適です。 C. F1スコアは分類タスクにおける適合率と再現率の調和平均であり、生成型質問応答タスクの評価にはあまり適していません。 D. 意味的ロバスト性とは、入力に微小な摂動を加えた際に、モデルの出力が意味的に安定かつ一貫して維持される度合いを示す指標です。質問応答タスクにおいて入力の微調整に対するLLM応答品質の変化を評価するには、意味的ロバスト性が最も適した指標です。これは、モデルの入力摂動に対するロバスト性および、意味レベルでの応答の安定性・品質を測定します。 したがって、当該マーケティング企業のユースケースにおいて、LLM応答品質の変化を評価するための最適な指標は意味的ロバスト性です。