Q79 — AWS AIF-C01 第1章

第 79/100 問 | ← 第1章

ある企業は生成AIを活用してソリューションを構築しています。このソリューションでは、大規模言語モデル(LLM)を用いてトレーニングマニュアルを英語からその他の言語に翻訳します。企業は、生成されたマニュアルのテキストを検査することで、このソリューションの正確性を評価したいと考えています。どのモデル評価戦略がこれらの要件を満たしますか?

正解: A. 双語評価代替指標(BLEU)

解説

生成AIによる翻訳ソリューションの正確性を評価する際、翻訳結果の品質と原文との一致度を測定することが重要です。双語評価代替指標(BLEU)は、機械翻訳の品質評価に特化した指標であり、参考翻訳(通常は人手による翻訳)と機械翻訳出力を比較して類似度または正確度を算出します。これは、ある言語から別の言語への翻訳品質を評価するのに特に適しています。一方、二乗平均平方根誤差(RMSE)は回帰問題の評価に用いられ、翻訳品質評価には適用されません。再現率指向の代替評価法(ROUGE)は主にテキスト要約の評価に使用され、翻訳評価には不適です。F1スコアは分類問題の評価に用いられ、翻訳の正確性評価には直接適用できません。したがって、正解はAです。