マーケティング企業が大規模言語モデル（LLM）を活用しています。同社は、質問応答タスクにおいて入力にわずかな変更を加えた場合のLLM応答品質の変化を評価したいと考えています。同社が採用すべき指標はどれですか？

Question

Accepted Answer

D. 意味的ロバスト性（Semantic Robustness）

Answer

A. 二乗平均平方根誤差（RMSE）

Answer

B. ROC曲线下方積（AUC）

Answer

C. F1スコア

Q64 — AWS AIF-C01 第2章