Q82 — AWS AIF-C01 第3章

第 82/100 問 | ← 第3章

ある企業が、カスタマーサポート用チャットボットの応答を生成するMLモデルを開発しています。このモデルが出力する応答が、ドメイン専門家(SME)が作成した応答とどれだけ類似しているかを評価する必要があります。企業には、SMEが検証済みの質問・応答サンプルのデータセットが存在します。このモデルの性能を評価するために、どの指標を用いるべきですか?

正解: A. BERTScore

解説

自然言語応答の品質を、専門家(SME)による参照応答と比較して評価するには、テキスト間の意味的類似度を正確に測定できる指標が必要です。BERTScoreは、BERTなどの事前学習済み言語モデルを用いて、生成応答と参照応答のトークンレベルでの意味的類似度を計算する指標であり、文の構造や言い換えを考慮した高精度な評価が可能です。一方、MSEは数値予測タスク向けであり、テキストには適用できません。パープレキシティは言語モデルの予測難易度を示すもので、参照との類似度評価には不適です。F1スコアは分類・抽出タスク向けであり、自由形式の応答の意味的整合性を評価できません。したがって、BERTScoreが最も適切な評価指標です。