4 分で読めます

9軸評価×LLM-as-judgeでエージェントを自動採点する

AIエージェントを本番運用し始めると、「今日の出力は良かったか」という問いに答えられないことに気づく。判断の正しさは定量化できず、品質劣化に気づくのが遅れる。ルーブリックベースの自動採点基盤を最初から設計しておくことが、エージェント運用を持続させる鍵だ。

なぜエージェント品質の自動採点が必要か

エージェントは同じ入力でも異なる出力を返す非決定論的な性質があり、正解照合だけでは品質を継続計測できない。

従来のシステムなら「エラーレート」や「応答速度」を計測すれば健全性を把握できた。AIエージェントはそれに加え、判断の質を継続評価しなければならない。

問題は、エージェントの出力が非決定論的である点だ。同じタスクでも呼び出しのたびに表現が変わる。exact matchによる正解照合では品質を測れない。また、エージェントが1日100件のタスクを処理する場合、人間がすべての出力を確認するのは現実的でなく、スケールに耐える自動採点基盤が必要になる。

品質計測なしにエージェントを運用し続けると、静かに発生する劣化——モデルバージョンアップ、ツールAPIの仕様変更、プロンプトの蓄積的なズレ——が見逃される。AI投資の費用対効果を経営会議で示せなくなる前に、採点基盤を整えることが重要だ。

Kuuの9軸評価フレームワーク

9軸評価は正確性・安全性・速度など9観点で各1〜5点をスコアリングするKuu固有の評価フレームワークだ。

Kuuが設計した9軸評価フレームワークは、エージェントを「動かしっぱなし」にしないための継続評価指標だ。各軸を1〜5点でスコアリングし、月次ダッシュボードで推移を可視化する。

計測内容
正確性ハルシネーション・事実誤認の発生率
安全性情報漏洩・PII露出・有害出力リスク
速度応答時間・スループット
コストAPIトークン消費 + 人的監視工数
可観測性ログ・トレースの整備度
保守性プロンプト・仕様の引き継ぎやすさ
スケーラビリティ負荷耐性・水平展開可能性
ユーザ受容性利用率・現場の満足度
規制適合性EU AI Act・ISO 42001等への対応度

中小規模チームが最初に注力すべきは正確性・安全性・コストの3軸だ。この3軸で計測を安定させてから、残りの軸を順次追加するアプローチが現実的な入り口になる。

LLM-as-judgeで9軸を自動採点する実装

LLM-as-judgeはルーブリックをプロンプトで定義し、評価モデルがスコアと理由を返すシンプルな構成だ。

LLM-as-judgeは採点基準(ルーブリック)をプロンプトとして記述し、評価モデルに「この出力を1〜5点で採点せよ」と指示する手法だ。Anthropicの評価設計ガイドによれば、人間評価者との一致率80〜85%を達成でき、評価コストを大幅に削減しながら品質計測をスケールさせられる。

正確性軸のルーブリック例:

```
以下のエージェント出力を「正確性」の観点で1〜5点で採点し、
採点理由を1文で述べてください。

採点基準:
5点: 事実誤認・ハルシネーションなし。情報源と完全に一致
4点: 軽微な不正確さがあるが、本質的な事実は正しい
3点: 一部に不確かな表現があるが、誤誘導するレベルではない
2点: 明確な事実誤認が含まれる
1点: 事実誤認が多数あり、回答として信頼できない

エージェント出力:
{output}

参照情報:
{reference}
```

実装上の3つの注意点:

  1. 同族モデルの回避:Claude系モデルが出力した結果をClaudeで評価すると自己強化バイアスが出る可能性がある。本番モデルと評価モデルのファミリーを分けることを推奨する
  2. キャリブレーション:月に1回、LLMジャッジのスコアと人間のスコアを20件程度突き合わせ、ズレが±0.5点以内に収まっているか確認する
  3. 採点頻度の設計:9軸すべてを毎回採点するとコストが膨らむ。正確性・安全性は毎回、スケーラビリティ・規制適合性は月次など、軸ごとに頻度を変える

SMBチームの段階的導入ステップ

SMBチームはまず20〜50件を人間で週次採点し、3ヶ月でLLMジャッジへ段階移行する2フェーズが現実的な入り口だ。

大規模な評価インフラをゼロから構築しなくても、段階的に始めることができる。

フェーズ1(1〜2ヶ月目):手動採点でルーブリックを固める

週次でエージェントの出力を20〜50件サンプリングし、チームメンバーが優先3軸(正確性・安全性・コスト)を手作業で採点する。ツールはスプレッドシートで十分だ。この段階の目的は「採点基準を人間が合意できる状態にする」ことだ。ルーブリックが曖昧なままLLMジャッジに委ねると、スコアが安定しない。

フェーズ2(3ヶ月目以降):LLM-as-judgeで採点を自動化する

フェーズ1で固めたルーブリックをそのまま採点プロンプトに変換し、LLMジャッジによる自動採点に移行する。月に1回、20件程度の人間採点と照合してキャリブレーションを維持する。この2フェーズの移行により、追加のインフラ構築なしに自動採点基盤の基礎を作れる。

本番の失敗トレースはゴールデンデータセットに自動追加する設計と組み合わせると、評価基盤が継続的に強化される。

エージェント評価基盤の設計から運用支援までKuuのai-ops(/services/ai-ops/)でサポートしている。

参考

まとめ

エージェントの品質を継続計測するには、9軸評価フレームワークでスコアリング指標を定め、LLM-as-judgeで自動採点基盤を段階的に構築するアプローチが有効だ。まず手動採点でルーブリックを固め、3ヶ月で自動化に移行することで、採点精度を確保しながらスケールできる。

エージェント評価基盤の設計・運用に関するご相談はKuu株式会社のai-opsまで。

関連記事

AIエージェントのKPI設計と評価方法——導入効果を数値で証明する5軸フレームワークマルチステップ評価設計——ターン単位とエンドツーエンドの使い分けゴールデンデータセットで始めるエージェント回帰テスト設計LLM-as-a-judgeでエージェント品質を自動採点する評価基盤設計