BlogPage 2 / 12
9軸評価×LLM-as-judgeでエージェントを自動採点する
ルーブリックベースの9軸評価とLLM-as-judgeで、中小規模チームがエージェント品質を週次自動計測する実装パターンを解説。
LLM推論コスト削減——バッチ・キャッシュ・ルーティングの設計
バッチAPIで50%・プロンプトキャッシュ読み取りで90%のコスト削減を実現するLLM推論コスト最適化の設計パターン。タスク分類によるモデルルーティングと組み合わせると最大95%のコスト削減が可能です。
Function callingのツール定義——JSON Schemaと構造化出力の設計要点
ClaudeのFunction callingはname/description/input_schemaの3要素でツールを定義する。JSON Schema設計・strict mode・構造化出力との使い分けを実装指針として整理する。
Computer Use APIの実装設計——サンドボックスとIAMの構築パターン
Claude Computer Use APIをエンタープライズ本番環境に乗せる際のサンドボックス分離・IAM・プロンプトインジェクション対策・監査ログ設計を実装パターンで解説します。
RAGとツール使用の使い分け——エージェント設計の情報取得戦略
AIエージェントの情報取得設計でRAGとツール使用のどちらを選ぶかは、予測可能性・コスト・タスク複雑性の3軸で決まります。Anthropicが示す設計判断の基準とAgentic RAGの実装パターンを解説します。
ゴールデンデータセットで始めるエージェント回帰テスト設計
AIエージェントの回帰テストをゴールデンデータセットで自動化する手法を解説。Anthropicが推奨する50〜200件のテストセット構築、pass@k指標、CIパイプライン統合まで解説します。
MCPサーバーのOAuth 2.1認可フロー——スコープ設計指針
MCPはOAuth 2.1とResource Indicators(RFC 8707)を2026年仕様で必須化した。スコープ段階付与・トークン束縛・PKCEフローの設計をMCP仕様原文に基づいて解説する。
監査ログのスキーマと改ざん防止——HMAC・WORM・署名の実装
AIエージェント基盤の監査ログをどうスキーマ設計し、改ざん防止するか。HMACハッシュチェーン・WORM・KMS署名を組み合わせた多層防御の実装指針をエンタープライズ向けに解説。
エージェントIAM設計——スコープ付き短命認証情報で過剰権限を防ぐ
エージェントへの長命認証情報付与はExcessive Agencyの温床。タスクスコープのエフェメラルトークンとIAM Permissions Boundaryで制御する多層IAM設計パターンを解説する。
コンテキストエンジニアリング——エージェントのトークン予算設計
Anthropicが定義するコンテキストエンジニアリングの核心を解説。Attentionスカシティ・Lost in the Middle問題・4段階メモリ階層・3つの長時間タスク戦略をエンタープライズ実装視点で整理する。