知識がなくても始められる、AIと共にある豊かな毎日。
AIコーディング

MLA-C01 Domain 4 完全攻略 — 監視・保守・セキュリティで 24% を取る

ゲンキ

MLA-C01 Domain 4 完全攻略 — 監視・保守・セキュリティで 24% を取る

MLA-C01 の最終ドメイン「ML Solution Monitoring, Maintenance, and Security」は配点 24% で、データ準備に次ぐ第 2 位の重みを持つ。デプロイして終わりではなく、モデルの劣化を検出し、インフラとコストを最適化し、システム全体を守り続ける。Domain 4 は MLA-C01 が「Machine Learning Engineer」の名を冠する理由が最も色濃く出る領域だ。本記事は公式試験ガイドの Task 4.1〜4.3 に準拠し、監視・コスト・セキュリティの 3 本柱を体系化する。

試験全体の構造は AWS MLA-C01 完全攻略入門(2026-06-15 公開)、前段のデプロイは MLA-C01 Domain 3 完全攻略(2026-06-18 公開)を参照してほしい。

忍者AdMax

Domain 4 の全体像 — 運用の総仕上げ 24%

公式試験ガイドの 3 タスク構成から押さえる。

タスクテーマ問われる能力
Task 4.1モデル推論の監視ドリフト検出、Model Monitor、A/B テスト
Task 4.2インフラとコストの監視・最適化可観測性ツール、ライトサイジング、購入オプション
Task 4.3AWS リソースのセキュリティIAM 最小権限、ネットワーク分離、監査

Domain 4 の特徴は、ML 固有の監視(Task 4.1)と汎用 AWS 運用(Task 4.2〜4.3)が半々で構成される点だ。後半は SAA-C03 や CLF-C02 の既習領域と大きく重なるため、AWS 認定の学習歴がある読者にとっては最も「流用が利く」ドメインでもある。逆に言えば、ここで差がつくのは前半——モデルドリフトという ML 固有の敵への理解だ。

ドリフトという敵 — モデルはなぜ静かに劣化するか

学習済みモデルは劣化しないコードとは違う。コードは書いたとおりに動き続けるが、モデルの精度は世界の変化とともに静かに落ちていく。試験ガイドが Task 4.1 の知識項目の筆頭に「ML モデルにおけるドリフト」を置くのは、この非対称性こそが ML 運用の出発点だからだ。

ドリフトは大きく 2 つの顔を持つ。1 つは入力データの分布が学習時から変わるデータドリフト。新しい顧客層の流入、季節変動、上流システムの仕様変更などで起きる。もう 1 つは、入力と正解の関係そのものが変わる概念ドリフト。たとえば不正検知では、攻撃者がモデルの傾向を学んで手口を変えるため、「昨日まで不正の特徴だったもの」が今日はそうでなくなる。

重要なのは、どちらのドリフトもエラーを出さないことだ。エンドポイントは正常に応答し続け、レイテンシも正常、しかし予測の中身だけが劣化していく。だからこそ、インフラ監視とは別建ての「モデル品質の監視」が必要になる。この問題意識が Domain 4 前半のすべての出題の前提になっている。

ドリフトへの対処も、検出とセットで問われる。基本の処方は再学習だが、その起動方法には設計の幅がある。定期的に無条件で再学習するスケジュール方式は単純で確実な一方、変化がない期間の学習コストが無駄になる。ドリフト検出をトリガーにする方式はコスト効率がよい代わりに、検出のしきい値設計が新たな調整対象になる。「コストを抑えつつ劣化に追従したい」という要件文なら検出トリガー方式、という対応で読む。いずれの方式でも、再学習の実行基盤は Domain 3 で構築したパイプラインであり、Domain 4 はその起動条件を設計する立場になる。

Model Monitor の 4 つの監視タイプ

ドリフト検出の実装役が SageMaker Model Monitor だ。公式ドキュメントが定義する監視タイプは 4 つある。

監視タイプ見るもの仕組み
データ品質入力データの統計的性質のドリフト学習時データのベースラインと本番入力を比較
モデル品質予測精度の劣化モデルの予測と実際の正解ラベルを突き合わせ
バイアスドリフト本番予測に現れるバイアスの変化SageMaker Clarify の指標で定期監視
特徴量アトリビューションドリフト各特徴量の寄与度の変化Clarify の特徴量寄与分析を定期実行

4 タイプに共通する動作原理がベースラインだ。学習時のデータやモデルの挙動から「正常」の統計的な基準を作っておき、本番の入力・出力を定期ジョブでその基準と比較して、逸脱を検出する。つまり Model Monitor の品質は、ベースラインの品質で決まる。学習データが既に偏っていればベースラインも偏り、その偏りからの逸脱しか検出できない。Domain 1 で扱った学習前バイアス検査が、ここで監視の信頼性の土台として効いてくる——という工程間のつながりは、統合問題の典型的な題材だ。

使い分けの鍵は「正解ラベルがいつ手に入るか」だ。モデル品質監視は予測と正解の突き合わせを必要とするため、正解の判明に時間がかかる業務——ローンの貸し倒れは数か月後にしか分からない——では即時に機能しない。その間の早期警報として働くのがデータ品質監視で、入力分布の変化という「正解不要のシグナル」を捉える。この 2 つの関係を説明できれば、Task 4.1 の中核は押さえたことになる。

検出したドリフトは CloudWatch のアラートに接続でき、そこから先は Domain 3 で扱った再学習パイプラインの起動につながる。「Model Monitor が検出 → CloudWatch アラーム → EventBridge → SageMaker Pipelines で再学習」という一連の流れは、ドメイン横断の統合問題として最も出題されやすい構図だ。

Clarify との分業と A/B テスト

Task 4.1 のスキル項目には、Model Monitor による本番監視と並んで、SageMaker Clarify によるデータ分布変化の検出、そして A/B テストによる本番でのモデル性能監視が明記されている。

Clarify はここまでのドメインで 3 回目の登場になる。Domain 1 では学習前データのバイアス指標(CI、DPL)、Domain 2 では学習後モデルの解釈とバイアス分析、そして Domain 4 では本番運用中のバイアスドリフトと特徴量アトリビューションの監視。同じサービスが ML ライフサイクルの各段階で役割を変えて現れる——この縦串を一本通しておくと、Clarify がらみの出題はどの文脈でも迷わない。

A/B テストは、Domain 3 のカナリアデプロイやシャドーテストと同じ「安全に比べる」系譜の手法だ。トラフィックを分割して新旧モデルに流し、実際のビジネス指標で優劣を判定する。シャドー(ユーザーに返さない)→ カナリア(一部に返す)→ A/B(比較計測しながら返す)という検証深度のグラデーションとして整理すれば、matching 形式で並べられても混同しない。ワークフロー全体の異常・エラー検出も Task 4.1 のスキル項目であり、推論だけでなくデータ処理工程の監視も射程に入る。

Task 4.2 — 可観測性ツールの役割分担: CloudWatch / X-Ray / CloudTrail

インフラ監視の語彙は「何を見たいか」で 3 系統に分かれる。

メトリクスとログの中心が Amazon CloudWatch。アラーム、ダッシュボード、そしてログを対話的に検索する CloudWatch Logs Insights、Lambda の実行内訳を見る Lambda Insights が試験ガイドに名指しされている。分散システムのリクエストを追跡し、レイテンシのボトルネックがどのコンポーネントにあるかを特定するのが AWS X-Ray。そして「誰がいつ何の API を呼んだか」という操作の記録が AWS CloudTrail だ。

CloudTrail には ML 文脈ならではの用法が記されている点に注意したい。試験ガイドは「CloudTrail を使って再学習アクティビティをログ・監視・起動する」という知識項目を挙げる。証跡(トレイル)の作成はスキル項目でもあり、監査対応だけでなく、特定の操作イベントを起点にワークフローを動かす自動化の文脈でも CloudTrail が登場する。「性能の問題は X-Ray、操作の記録は CloudTrail、数値の監視は CloudWatch」という一言の役割分担をまず固定し、そこに Insights 系の細目をぶら下げる覚え方が効率的だ。

ログの設計も Task 4.2 のスキル項目(CloudWatch Logs とアラームの構成)に含まれる。ML システムのログには、インフラのログに加えて推論のログ——いつ、どんな入力に、どんな予測を返したか——という固有の層がある。この推論ログが、後から精度劣化の原因を調査するときの一次資料であり、Model Monitor の分析対象でもある。「障害が起きてからログを仕込む」のでは遅く、デプロイ時点でログとアラームを構成しておくのが Domain 4 の流儀だ。レイテンシと性能の問題を Logs Insights のクエリで掘る、という対話的なトラブルシューティングの流れも押さえておきたい。

ダッシュボード構築のスキル項目では CloudWatch ダッシュボードと Amazon QuickSight が挙げられている。運用チーム向けのリアルタイム監視は CloudWatch、ビジネス層向けの分析・可視化は QuickSight という棲み分けで読む。EventBridge のイベントでインフラを監視する項目もあり、Domain 3 から続く「イベント駆動」の設計思想がここでも貫かれている。

ライトサイジングと購入オプション — 性能とコストの最適点

Task 4.2 の後半はコスト最適化だ。道具立ては 2 段階で整理する。

第 1 段階はサイズの最適化。インスタンスタイプの分類——メモリ最適化、コンピュート最適化、汎用、推論最適化——が性能に与える影響を理解した上で、SageMaker AI Inference Recommender と AWS Compute Optimizer で実測に基づくライトサイジングを行う。推論エンドポイントの負荷テストと推奨インスタンスの提示という Inference Recommender の役割は、「勘でインスタンスを選ばない」という Domain 4 の思想を象徴している。

第 2 段階は買い方の最適化。Spot インスタンス、オンデマンド、リザーブドインスタンス、そして SageMaker AI Savings Plans が試験ガイドの名指しメンバーだ。中断を許容できる学習ジョブには Spot、定常稼働する推論エンドポイントにはコミットメント型の割引、という対応は AWS SAA-C03 コスト最適化 完全攻略(2026-06-05 公開)で扱った購入オプションの判断軸がそのまま使える。ML 固有なのは SageMaker 専用の Savings Plans が存在するという事実で、EC2 向けプランとの混同を誘う選択肢に注意したい。

容量起因のトラブルシューティング——プロビジョンド同時実行数、サービスクォータ、オートスケーリング——もスキル項目に含まれる。「スケールしたいのにできない」原因がクォータ上限にある、という構図は実務でも試験でも定番だ。

コスト管理ツール — Cost Explorer / Budgets / Trusted Advisor

コストの可視化と統制のツール群は、役割の対応付けを正確に。コストの分析と可視化が AWS Cost Explorer、しきい値を決めた予算管理とアラートが AWS Budgets、コスト・性能・セキュリティ等の改善推奨が AWS Trusted Advisor、請求の基盤が AWS Billing and Cost Management だ。

ML 文脈で重要なのがタグ戦略になる。学習ジョブ、エンドポイント、ストレージにプロジェクトや環境のタグを一貫して付与し、コスト配分タグとして有効化することで、「どのモデルにいくらかかっているか」を答えられる状態を作る。試験ガイドは「コスト監視のためのインフラ準備としてのタグ付け戦略」を明示的なスキル項目に挙げており、タグなしの環境でコスト分析に挑む構成は誤答側の典型になる。

コスト構造の理解も判断の土台になる。学習のコストはジョブ実行中だけ発生するスパイク型で、Spot の中断許容や時間帯の工夫が効く。一方、推論のコストはエンドポイントが立っている限り続くベースロード型で、ライトサイジングとオートスケーリング、そしてトラフィックが断続的ならサーバーレス推論への切り替えが効く。同じ「コスト削減」という要件でも、学習と推論では処方が違う——この区別を要件文から読み取らせる構図は、Domain 3 のエンドポイント選択と Domain 4 の購入オプションをまたいだ複合問題になりやすい。

実務感覚としても、ML のコストは静かに膨らむ。実験用ノートブックの消し忘れ、使われないエンドポイントの放置、チューニングジョブの走らせすぎ。Budgets のアラートを先に張り、Cost Explorer で定期レビューする運用を「最初に」仕込むのが、Domain 4 が教える順序だ。

Task 4.3 — IAM 最小権限と SageMaker Role Manager

セキュリティの第一柱はアイデンティティ管理だ。IAM のロール・ポリシー・グループでアクセスを制御し、ML アーティファクト——学習データ、モデル、エンドポイント——への最小権限アクセスを構成する。S3 のバケットポリシーも、データレイクを扱う ML では IAM と並ぶ防御線になる。

ML 固有の道具として試験ガイドが名指しするのが SageMaker Role Manager だ。データサイエンティスト、MLOps エンジニアといったペルソナに応じた IAM ロールを、ゼロから書かずに構成するためのツールであり、「ML チーム向けの最小権限ロールを素早く整備したい」という要件文への解になる。

最小権限の具体像も持っておきたい。学習ジョブのロールには学習データの読み取りとモデル出力先への書き込みだけを許可し、エンドポイントのロールにはモデルアーティファクトの読み取りだけを許可する。人間のデータサイエンティストには実験環境の操作を許しても、本番エンドポイントの削除権限は渡さない。「全員に管理者権限」が誤答側の極であるのは当然として、「アプリケーションとユーザーでロールを分ける」という中間の設計判断まで踏み込んで問われるのが Associate 級だ。

監査・ログによる継続的なコンプライアンス確認、セキュリティ問題のトラブルシューティングもスキル項目だ。CloudTrail の証跡、CloudWatch のログ、そして IAM のポリシー評価。Domain 4 の前半で学んだ可観測性ツールが、ここではセキュリティの文脈で再利用される。同じ道具が監視とセキュリティの両方に仕えるという構造を理解しておくと、暗記量は見かけより少なくて済む。

ネットワーク分離 — VPC・サブネット・セキュリティグループ

セキュリティの第二柱はネットワークだ。試験ガイドは「ML システムを安全に隔離する VPC・サブネット・セキュリティグループの構築」をスキル項目として明記する。学習ジョブとエンドポイントを VPC 内に配置し、インターネットに出さずにデータへ到達させる構成は、Domain 3 で触れた VPC 内エンドポイント構成の続きであり、規制業種のシナリオで必ず登場する。

CI/CD パイプラインのセキュリティベストプラクティスも Task 4.3 の知識項目に含まれる。デプロイの自動化が進むほど、パイプライン自体が攻撃面になる。パイプラインの実行ロールにも最小権限を適用し、シークレットをコードに埋め込まず、成果物の出所を検証する。Domain 3 で構築した自動化を Domain 4 の目で守り直す、という往復が出題の構図だ。

ML システムならではの守るべき資産の広がりにも目を向けたい。守る対象はアプリケーションコードだけでなく、学習データ(漏えいすれば個人情報事故)、モデルそのもの(流出すれば知的財産の損失)、そして推論エンドポイント(不正利用されればコストと出力の悪用)に及ぶ。資産の種類ごとに「誰がアクセスでき、どの経路で届き、操作が記録されるか」を問い直す習慣が、Task 4.3 全体を貫く思考法になる。

SageMaker AI 自体のセキュリティ・コンプライアンス機能への理解も求められる。暗号化、ネットワーク隔離、そして監査可能性。個別機能の暗記よりも、「データ・モデル・エンドポイント・パイプラインのそれぞれに、アイデンティティとネットワークの二重の防御を張る」という設計原則で束ねて覚えるのが Domain 4 流だ。

頻出論点チェックリスト — 本番想定の自己診断

以下に根拠付きで即答できるかを確認してほしい。

  • 正解ラベルなしで劣化の早期警報を出す監視は(→ データ品質監視)
  • 予測と正解ラベルを突き合わせる監視は(→ モデル品質監視)
  • 本番予測のバイアス変化・特徴量寄与の変化を監視する仕組みは(→ Clarify 連携のバイアスドリフト / 特徴量アトリビューションドリフト監視)
  • 分散システムのレイテンシボトルネック特定は(→ AWS X-Ray)
  • API 操作の記録と監査は(→ AWS CloudTrail)
  • 推論エンドポイントの最適インスタンスを実測ベースで推奨するのは(→ SageMaker AI Inference Recommender)
  • 中断許容の学習ジョブに適した購入オプションは(→ Spot インスタンス)
  • ML ペルソナ別の IAM ロール整備を簡略化するのは(→ SageMaker Role Manager)

8 問中 6 問以上なら Domain 4 は得点圏だ。前半の ML 固有監視で詰まるなら Model Monitor の 4 タイプへ、後半の汎用運用で詰まるなら SAA-C03 系の復習へ戻るのが近道になる。

まとめ — 「動き続ける ML」を証明する最後のピース

Domain 4 の 24% は、ドリフトの理解と Model Monitor の 4 監視タイプ、可観測性 3 兄弟(CloudWatch / X-Ray / CloudTrail)、ライトサイジングと購入オプション、そして IAM とネットワークの二重防御に集約される。デプロイまでが Domain 3、動かし続けるのが Domain 4。この対で「本番で ML を運用できるエンジニア」という MLA-C01 の認定意図が完成する。

これで 4 ドメインの深掘りが出揃った。次は知識を解答力に変える番だ。配点比例の模擬問題で弱点ドメインを特定し、仕上げに入ってほしい。全体の学習設計は AWS MLA-C01 完全攻略入門(2026-06-15 公開)の 8 週間ロードマップを参照のこと。

参照

ブラウザだけでできる本格的なAI画像生成【ConoHa AI Canvas】
ABOUT ME
swiftwand
swiftwand
AIを使って、毎日の生活をもっと快適にするアイデアや将来像を発信しています。 初心者にもわかりやすく、すぐに取り入れられる実践的な情報をお届けします。 Sharing ideas and visions for a better daily life with AI. Practical tips that anyone can start using right away.
記事URLをコピーしました