Q64 — AWS AIF-C01 第2章

第 64/100 题 | ← 返回第2章

一家以销公司况用击型语言模型(LLM)。该公司想要评估谢问答任务中,对输入进行小幅近整时LLM药应质量的变化。公司应该况用曾种指弹?

A. 均方根误差(RMSE)
B. ROC曲线下面积(AUC)
C. F1分数
D. 语义鲁棒性 ✓

正确答案: D. 语义鲁棒性

解析

对于评估问答任务中LLM响应质量的变化,最合适的指标是 D.语义鲁棒性。解析如下: A. 均方根误差(RMSE)主要用于评估回归问题的预测结果,不适用于评估生成式问答任务。 B. ROC曲线下面积(AUC)主要用于评估二分类问题的性能,也不适合评估生成式问答任务。 C. F1分数通常用于评估分类任务中的精确率和召回率,对于生成式问答任务的评估也不太合适。 D. 语义鲁棒性指的是在对输入进行小幅扰动时,模型的输出保持稳定和一致的程序。对于评估LLM在问答任务中对输入微调的响应质量变化,语义鲁棒性是最合适的指标。它可以衡量模型对输入微扰的鲁棒性,反映了模型生成的答案在语义层面的稳定性和质量。因此,对于该营销公司的应用场景,语义鲁棒性是评估LLM响应质量变化的最佳指标选择。