Q71 — AWS AIF-C01 第2章
第 71/100 問 | ← 第2章
あるデータサイエンティストが、テキスト分類モデルのためのMLパイプラインを構築しようとしています。このデータサイエンティストはすでにトレーニングに使用するデータを収集済みです。MLライフサイクルのどの段階のコンポーネントを最初に実装する必要がありますか?
- A. モデルのトレーニング
- B. 特徴量エンジニアリング ✓
- C. モデルの検証
- D. モデルのモニタリング
正解: B. 特徴量エンジニアリング
解説
解説如下: A. モデルのトレーニングは、特徴量エンジニアリングの後に実行されるステップであり、処理済みのデータを用いて機械学習モデルをトレーニングします。 B. 特徴量エンジニアリングは、生のデータをMLアルゴリズムのトレーニングに適した特徴ベクトルに変換するプロセスです。テキスト分類タスクでは、生のテキストデータから「バッグ・オブ・ワーズ(bag-of-words)」や「TF-IDF(単語頻度-逆文書頻度)」などの意味のある特徴を抽出し、モデルの入力として使用します。これはMLパイプラインにおいて最も重要な初期ステップの1つです。 C. モデルの検証は、モデルのトレーニング後に実行されるステップであり、テストデータ上でのモデルのパフォーマンス指標を評価するために用いられます。 D. モデルのモニタリングは、モデルのデプロイ後に実行されるステップであり、モデルのパフォーマンスを継続的に追跡し、概念ドリフトなどの異常を検出するために用いられます。 したがって、トレーニングデータがすでに収集済みである状況では、テキスト分類MLパイプラインの最初のステップは、生のテキストデータに対して特徴量エンジニアリングを行い、アルゴリズムが処理可能な特徴ベクトル表現に変換することです。これにより、その後のモデルトレーニングなどのステップが可能になります。よって、正しい選択肢はB. 特徴量エンジニアリングです。