Q82 — AWS AIF-C01 第3章
第 82/100 题 | ← 返回第3章
一家公司正谢于发一个ML模型,为短户服务聊天机器获生成自然语言药应。需要评估该模型生成的药应与主罪专家(SME)药应的付似程度。该公司有一个由SME向证的样本问罪和回答归据集。公司应该况用曾种指弹来评估模型的财能?
- A. BERTScore ✓
- B. 均方误差(MSE)
- C. 困惑度
- D. F1分数
正确答案: A. BERTScore
解析
在评估ML模型生成的响应与主题专家(SME)响应的相似程度时,需要选择能够准确衡量自然语言文本相似性的指标。BERTScore是一个专门用于评估自然语言生成模型性能的指标,它通过计算模型输出与专家标注之间的相似度,来评估模型的准确性和有效性。这种评估方式对于衡量客户服务聊天机器人生成的响应与SME响应的相似程度非常适用。因此,公司应该使用BERTScore来评估模型的性能。 查看全部