Q81 — AWS AIF-C01 第3章
第 81/100 問 | ← 第3章
ある企業が、大規模言語モデル(LLM)を活用して自社の業務領域に特化した言語を学習させたいと考えています。同社は、その領域特有の言語を含む大量の未ラベル化データを保有しています。このような要件を最小限の運用負荷で満たすソリューションはどれですか?
- A. 自社のデータを用いてLLMをファインチューニングすること
- B. 自社のデータを用いてLLMを継続的前訓練(continued pre-training)すること ✓
- C. 自社のデータを用いて新しいLLMをトレーニングすること
- D. LLMのプロンプト内で自社のデータをコンテキストとして提供すること
正解: B. 自社のデータを用いてLLMを継続的前訓練(continued pre-training)すること
解説
企業が自社領域特化の言語をLLMに学習させ、かつ大量の未ラベル化データを活用したい場合、継続的前訓練(continued pre-training)は、運用負荷が最小で、かつ効果的なアプローチです。これは、既存の汎用LLMを、自社のドメイン固有の大量テキストでさらに前訓練することで、語彙・構文・文脈の理解を深め、領域に最適化された表現を獲得させる手法です。ファインチューニングはタスク指向の微調整に適していますが、ドメイン言語の根本的理解には不十分であり、新規モデルのトレーニングは極めて高コストです。一方、プロンプト内にデータを埋め込む方法(D)は、コンテキスト長の制限やリアルタイム性の課題があり、大量データの活用には向いていません。したがって、Bが最も適切な選択肢です。