BlogPage 2 / 12

9軸評価×LLM-as-judgeでエージェントを自動採点する

ルーブリックベースの9軸評価とLLM-as-judgeで、中小規模チームがエージェント品質を週次自動計測する実装パターンを解説。

9軸評価LLM評価エージェント品質管理AIエージェント

LLM推論コスト削減——バッチ・キャッシュ・ルーティングの設計

バッチAPIで50%・プロンプトキャッシュ読み取りで90%のコスト削減を実現するLLM推論コスト最適化の設計パターン。タスク分類によるモデルルーティングと組み合わせると最大95%のコスト削減が可能です。

プロンプトキャッシュバッチ推論モデルルーティング推論コスト最適化

Function callingのツール定義——JSON Schemaと構造化出力の設計要点

ClaudeのFunction callingはname/description/input_schemaの3要素でツールを定義する。JSON Schema設計・strict mode・構造化出力との使い分けを実装指針として整理する。

Function callingJSON Schemaツール定義構造化出力

Computer Use APIの実装設計——サンドボックスとIAMの構築パターン

Claude Computer Use APIをエンタープライズ本番環境に乗せる際のサンドボックス分離・IAM・プロンプトインジェクション対策・監査ログ設計を実装パターンで解説します。

Computer Useエージェント設計サンドボックスセキュリティ

RAGとツール使用の使い分け——エージェント設計の情報取得戦略

AIエージェントの情報取得設計でRAGとツール使用のどちらを選ぶかは、予測可能性・コスト・タスク複雑性の3軸で決まります。Anthropicが示す設計判断の基準とAgentic RAGの実装パターンを解説します。

RAGツール使用エージェントアーキテクチャ情報取得設計

ゴールデンデータセットで始めるエージェント回帰テスト設計

AIエージェントの回帰テストをゴールデンデータセットで自動化する手法を解説。Anthropicが推奨する50〜200件のテストセット構築、pass@k指標、CIパイプライン統合まで解説します。

回帰テストエージェント評価ゴールデンデータセットエージェントガバナンス

MCPサーバーのOAuth 2.1認可フロー——スコープ設計指針

MCPはOAuth 2.1とResource Indicators(RFC 8707)を2026年仕様で必須化した。スコープ段階付与・トークン束縛・PKCEフローの設計をMCP仕様原文に基づいて解説する。

MCPOAuth 2.1認可設計プロトコル

監査ログのスキーマと改ざん防止——HMAC・WORM・署名の実装

AIエージェント基盤の監査ログをどうスキーマ設計し、改ざん防止するか。HMACハッシュチェーン・WORM・KMS署名を組み合わせた多層防御の実装指針をエンタープライズ向けに解説。

監査ログAIエージェント改ざん防止エージェントガバナンス

エージェントIAM設計——スコープ付き短命認証情報で過剰権限を防ぐ

エージェントへの長命認証情報付与はExcessive Agencyの温床。タスクスコープのエフェメラルトークンとIAM Permissions Boundaryで制御する多層IAM設計パターンを解説する。

IAM認証情報管理エージェントセキュリティエンタープライズ

コンテキストエンジニアリング——エージェントのトークン予算設計

Anthropicが定義するコンテキストエンジニアリングの核心を解説。Attentionスカシティ・Lost in the Middle問題・4段階メモリ階層・3つの長時間タスク戦略をエンタープライズ実装視点で整理する。

コンテキストエンジニアリングエージェントアーキテクチャトークン設計エンタープライズ