「エージェント評価」に関する記事一覧。Kuu株式会社のブログでは、AIエージェントガバナンスとDXの観点から エージェント評価 に関連するノウハウを 2 件発信しています。
AIエージェントの回帰テストをゴールデンデータセットで自動化する手法を解説。Anthropicが推奨する50〜200件のテストセット構築、pass@k指標、CIパイプライン統合まで解説します。
LLM-as-a-judgeを用いてAIエージェントの品質を自動採点する方法を解説。採点ルーブリック・ゴールデンデータセット・回帰テストパイプラインの設計まで、大規模運用を前提としたエンタープライズ向け評価基盤の実装パターンを示します。