Q68 — AWS AIF-C01 第1章

第 68/100 問 | ← 第1章

ある企業が、生成AIを活用してソリューションを構築しました。このソリューションでは、大規模言語モデル(LLM)を用いてトレーニングマニュアルを英語からその他の言語へ翻訳します。同社は、生成されたマニュアルのテキストを検証することで、ソリューションの正確性を評価したいと考えています。このような要件を満たすモデル評価戦略はどれですか?

正解: A. バイリンガル評価研究(BLEU)

解説

本問は、モデル評価戦略の適用場面を問うものです。自然言語処理において、BLEUは機械翻訳の品質評価に広く用いられ、英語から他言語への翻訳テキストの正確性評価に適しています。RMSEは連続値の誤差評価に用いられます。ROUGEは主に要約生成の評価に使用されます。F1スコアは分類タスクで用いられます。したがって、翻訳テキストの正確性評価には、選択肢Aのバイリンガル評価研究(BLEU)が最も適しています。