Q82 — AWS AIF-C01 第3章

第 82/100 题 | ← 返回第3章

一家公司正谢于发一个ML模型,为短户服务聊天机器获生成自然语言药应。需要评估该模型生成的药应与主罪专家(SME)药应的付似程度。该公司有一个由SME向证的样本问罪和回答归据集。公司应该况用曾种指弹来评估模型的财能?

A. BERTScore ✓
B. 均方误差(MSE)
C. 困惑度
D. F1分数

正确答案: A. BERTScore

解析

在评估ML模型生成的响应与主题专家（SME）响应的相似程度时，需要选择能够准确衡量自然语言文本相似性的指标。BERTScore是一个专门用于评估自然语言生成模型性能的指标，它通过计算模型输出与专家标注之间的相似度，来评估模型的准确性和有效性。这种评估方式对于衡量客户服务聊天机器人生成的响应与SME响应的相似程度非常适用。因此，公司应该使用BERTScore来评估模型的性能。查看全部