「評価設計」に関する記事一覧。Kuu株式会社のブログでは、AIエージェントガバナンスとDXの観点から 評価設計 に関連するノウハウを 1 件発信しています。
LLMを使った合成評価データセット生成でAIエージェントのテストを自動化する。ペルソナシミュレーター・ツール呼び出し・マルチターン会話・敵対的ケースの4パターンとAnthropicが推奨する品質設計を解説します。