ある企業が、カスタマーサポート用チャットボットの応答を生成するMLモデルを開発しています。このモデルが出力する応答が、ドメイン専門家（SME）が作成した応答とどれだけ類似しているかを評価する必要があります。企業には、SM

Question

ある企業が、カスタマーサポート用チャットボットの応答を生成するMLモデルを開発しています。このモデルが出力する応答が、ドメイン専門家（SME）が作成した応答とどれだけ類似しているかを評価する必要があります。企業には、SMEが検証済みの質問・応答サンプルのデータセットが存在します。このモデルの性能を評価するために、どの指標を用いるべきですか？

Accepted Answer

A. BERTScore

Answer

B. 平均二乗誤差（MSE）

Answer

C. パープレキシティ（Perplexity）

Answer

D. F1スコア

Q82 — AWS AIF-C01 第3章

正解: A. BERTScore

解説