マルチステップ評価設計——ターン単位とエンドツーエンドの使い分け

マルチステップエージェントを単一ターン評価と同じ設計で測定しようとすると、重大な見落としが起きる。ステップ2で誤ったツールを選択したエージェントが処理を継続してステップ9で最終出力を生成した場合、エンドツーエンドのタスク完了評価では「失敗」と記録されるが、どのステップが根本原因かは分からない。エージェントガバナンスの観点からも、マルチステップ評価にはターン単位・軌跡（トレジェクトリ）単位・エンドツーエンドの3層構成が不可欠だ。

マルチステップ評価は単一ターン評価とどこが違うのか

マルチステップ評価では各ツール呼び出しが独立した評価面となり、複雑度は単一ターンの軌跡長（k）倍に増加します。

単一ターンのLLM評価はテストケース数 n に対して O(n) のスケールで計算コストが増える。マルチステップエージェントはこれが O(n × k) になる（k は平均軌跡長）。10ステップのエージェントは単一ターン評価の10倍の評価面を持つ。エラーは複利的に波及するため、ステップ2の誤りがステップ9の最終出力に影響することが起きやすい。

エージェントが失敗する経路は主に3類型に分類される:

ツールの選択ミス: 適切なツールでなく近似のツールを選んだ
情報の欠落・誤り: ツール引数に誤った値や幻覚された値を渡した
実行順序の誤り: 正しいツールを正しい引数で、しかし誤った順序で呼び出した

これら3類型を捕捉するには、最終出力だけを評価するのでは不十分だ。ターン単位のメトリクス設計が起点になる。

ターン単位の評価指標はどう設計するか

ターン評価はツール選択精度・引数F1・順序整合性（Kendall's τ）の3指標で設計します。

ターン（= 1回のツール呼び出し）を評価する指標は以下の3軸に分解する。

① ツール選択精度（Tool Selection Accuracy）

期待されるツール呼び出しと実際のツール呼び出しのバイナリ一致率。エラーの有無を最速で特定する起点になる。

② 引数精度（Argument F1 Score）

再現率（Recall）: 必須引数が全て渡されているか
適合率（Precision）: 幻覚された引数（モデルが捏造したパラメータ）が含まれていないか

F1 スコアはこの2軸の調和平均だ。引数の幻覚は実行エラーやサイレントな誤動作に直結するため、適合率の確認が特に重要になる。LLM-as-a-judgeと組み合わせると、数値指標では捕捉しにくい意味的な引数誤りも検出できる。

③ 実行順序整合性（Kendall's τ）

複数ステップに依存関係がある場合（例: データ取得→加工→保存）、ステップの実行順序が意図と一致しているかを Kendall's τ 係数で計測する。厳密な依存関係のある業務フローでは τ ≥ 0.85 を合格基準として設定することが多い。

また、出力グラウンディング（Output Grounding）として、エージェントが「ツールを呼び出した結果」と「実際の実行ログ」を突き合わせて改ざん・捏造がないかを確認する。適切な実装で92.7%の検出精度が報告されている。

軌跡（トレジェクトリ）評価で推論経路をスコアリングするには

軌跡評価はターン指標を集約して、エージェントが正しい経路で目標に到達したかを採点し、経路の非効率さも減点します。

軌跡評価は最終結果（タスク完了/失敗）ではなく、そこに至る決定の連鎖を採点する。ステップが増えるほど「偶然正解した」ケースを排除するのに有効だ。

多次元採点フレームワーク（AdaRubric）では、各ステップを以下の4次元で採点し信頼度の重みをかけて集約する:

正確性: ツール呼び出しと引数の正確さ
効率性: 不要なツール呼び出し（ステップ冗長）がないか
安全性: 権限外リソースへのアクセスを試みていないか
推論品質: ツール呼び出し前後の思考連鎖が整合しているか

さらに反事実クレジット割り当て（Counterfactual Credit Assignment）では、各ステップが最終結果の必要条件だったかを逆向き分析で確認する。マルチエージェント構成では特定サブエージェントの介入が成功に不可欠だったかを測定でき、サブエージェントのオーケストレーション設計の改善に直接つながる。

軌跡評価はトレース計装と組み合わせることで有効性が増す。OpenTelemetry スパン設計でステップごとのメタデータを記録しておけば、軌跡スコアとトレースデータを紐付けてデバッグできる。

エンドツーエンドのタスク完了評価とパーシャルクレジット

タスク完了評価はバイナリだけでなく、ステップ進捗率によるパーシャルクレジットを加えると改善粒度が細かくなります。

業務エージェントの本番評価では、10ステップ中7ステップ正解したエージェントと0ステップのエージェントを「どちらも失敗」と同等に扱うのは改善サイクルを鈍化させる。パーシャルクレジット設計が必要だ。

非終端ターンのクレジット計算:

``Advantage = ターン報酬 + (λ × 最終結果報酬)``

λ（関連度係数）は文献上のデフォルト値が 0.2 で、軌跡の長さや業務の性質に応じて調整する。非終端ターンはこの割引率でクレジットを受け取り、終端ターンは最終結果報酬のみを受け取る設計だ。これによって各ステップが最終成功への寄与度に応じて評価される。

評価セットの構成は 60/40 ルール（ハッピーパス vs 異常ケース）を採用する。ゴールデンデータセットは最低30ケース、許容誤差 ±3% を基準とし、回帰テストパイプラインと同じ基盤に載せる。本番で検出された失敗ケースは自動でゴールデンデータセットへ追加し、オフライン評価の分布を本番に追いつかせるフィードバックループを構成する。

エンタープライズ環境での3層評価基盤統合

複数チームが並行開発する環境では、3層評価をCIと本番監視に統合してチーム横断でスコアを共有する体制が必要です。

CIへの統合: デプロイ前ゲートとして、ターン単位のツール精度・軌跡スコア・タスク完了率を自動評価し、合格基準（例: ツール選択精度 ≥ 95%・τ ≥ 0.85・タスク完了率 ≥ 80%）を下回ったらデプロイをブロックする。

本番監視との連動: CIで定義した評価ルーブリックをオンライン評価（本番サンプリング）でも同一指標として使う。評価次元を揃えることで、ステージングと本番の品質比較が直接可能になる。

ジャッジキャリブレーション: 自動評価が安定するまで、Krippendorff's α ≥ 0.80（評価者間一致率）を達成するまで人間アノテーターとの対照評価を繰り返す。74%の組織が引き続き人間評価を主要手段としており、自動スコアとの定期的な突き合わせが品質維持に不可欠だ。

コスト・モデル別・ルート別でスコアをスライスする体制はAI FinOps の計装設計と組み合わせると効果が高い。品質コストの双方を同一の可観測性スタックで追跡できるようになる。

エンタープライズ規模でのマルチステップ評価基盤の設計・実装は、KuuのRDEサービス（/services/rde/）にご相談ください。評価設計から本番モニタリングの体制整備まで一貫して支援しています。

参考

まとめ

マルチステップエージェントの品質保証には、ターン単位（ツール選択精度・引数F1・実行順序τ）、軌跡単位（多次元採点・反事実クレジット）、エンドツーエンド（タスク完了率・パーシャルクレジット）の3層が必要だ。単一の最終出力だけを評価する設計では、複利的なエラー伝播と「偶然の正解」を判別できない。

複数チームが多様なエージェントを並行運用するエンタープライズ環境では、3層評価をCIと本番監視に統合して継続的にスコアを追跡する体制が差別化につながる。設計の詳細は、Kuuの RDE サービスへご相談ください。