Q81 — AWS AIF-C01 第1章

第 81/100 問 | ← 第1章

ある企業は生成AIを活用してソリューションを構築しています。このソリューションでは、大規模言語モデル(LLM)を用いてトレーニングマニュアルを英語からその他の言語に翻訳します。企業は、生成されたマニュアルのテキストを検査することで、このソリューションの正確性を評価したいと考えています。どのモデル評価戦略がこれらの要件を満たしますか?

正解: A. 双語評価代替指標(BLEU)

解説

生成AIによる翻訳ソリューションの正確性を評価する際には、翻訳出力と参照訳との類似度を測定できる指標が必要です。双語評価代替指標(BLEU)は、機械翻訳品質評価の標準的な指標であり、候補訳と参照訳間のn-gram一致度を計算することで翻訳の正確性を評価します。二乗平均平方根誤差(RMSE)は回帰問題の評価に用いられ、翻訳品質評価には適用されません。再現率指向の代替評価法(ROUGE)は主にテキスト要約の評価に使用され、翻訳評価には不適です。F1スコアは分類問題の評価に用いられ、翻訳の正確性評価には直接適用できません。したがって、翻訳ソリューションの正確性評価にはBLEUが最も適しており、正解はAです。