Q68 — AWS AIF-C01 第1章
第 68/100 問 | ← 第1章
ある企業が、生成AIを活用してソリューションを構築しました。このソリューションでは、大規模言語モデル(LLM)を用いてトレーニングマニュアルを英語からその他の言語へ翻訳します。同社は、生成されたマニュアルのテキストを検証することで、ソリューションの正確性を評価したいと考えています。このような要件を満たすモデル評価戦略はどれですか?
- A. バイリンガル評価研究(BLEU) ✓
- B. 二乗平均平方根誤差(RMSE)
- C. 再現率重視のGisting評価研究(ROUGE)
- D. F1スコア
正解: A. バイリンガル評価研究(BLEU)
解説
本問は、モデル評価戦略の適用場面を問うものです。自然言語処理において、BLEUは機械翻訳の品質評価に広く用いられ、英語から他言語への翻訳テキストの正確性評価に適しています。RMSEは連続値の誤差評価に用いられます。ROUGEは主に要約生成の評価に使用されます。F1スコアは分類タスクで用いられます。したがって、翻訳テキストの正確性評価には、選択肢Aのバイリンガル評価研究(BLEU)が最も適しています。