Kuu株式会社エンジニアリング

Kuu株式会社エージェントエンジニアリング

Kuu株式会社のエンジニアリングチーム。エージェントアーキテクチャ、MCP/A2Aプロトコル、評価・可観測性、エンタープライズAI基盤の設計・運用に関する技術記事を執筆しています。

エージェントアーキテクチャMCP / A2A プロトコルエージェント可観測性・評価エンタープライズAIプラットフォームAIエージェントセキュリティ

EXECUTED ARTICLES (85)

2026年7月16日

AIエージェント基盤のサービスメッシュ統合——Istio Ambient Mode・agentgateway設計指針

Istio Ambient Mode・agentgatewayを使い、AIエージェント基盤にL7トラフィック制御と観測性を確立する。KubeCon EU 2026発表の機能と設計指針を解説。

2026年7月16日

ReAct・Plan-Execute・Reflexion——エージェント推論パターンの選択基準

AIエージェントの推論パターンには逐次推論のReAct・事前計画のPlan-and-Execute・自己批評のReflexionがある。3パターンの仕組みとトレードオフを設計観点で整理し、タスク特性に合わせた選択基準を示す。

2026年7月15日

MCPサーバーの本番運用設計——デプロイ・監視・バージョン管理の基本

MCPサーバーを本番化するにはStreamable HTTP移行・YYYY-MM-DD形式バージョン管理・W3C Trace Context監視・OAuth 2.1認証の4点を整える。中小企業向けの段階的設計手順。

2026年7月15日

AIエージェントSLO設計——品質ダッシュボードの実装

AIエージェントにSLO/SLIを設定し、Langfuse・Heliconeで品質ダッシュボードを構築する具体手順。タスク完了率・ハルシネーション率・レイテンシを中小企業が低コストで計測・改善する方法を解説します。

2026年7月14日

AIエージェントSDK比較2026——LangGraph・Strands・Mastraの設計思想と選定指針

LangGraph・AWS Strands・Mastra・OpenAI Agents SDKを設計思想・状態管理・デプロイ戦略で比較。言語選択・クラウド環境・ユースケース複雑度の3軸で技術選定の判断基準を整理する2026年版ガイド。

2026年7月14日

AIエージェントのライフサイクル管理——廃止とバージョン設計

AIエージェントの4層バージョニング（ALV/PPV/MRV/TAV）と4フェーズ廃止プロセスを設計し、放置エージェント（ゾンビ）のセキュリティリスクを防ぐ方法を解説します。

2026年7月13日

AIエージェントのA/Bテスト統計設計——評価実験の信頼性確保

エージェントの非決定性はソフトウェアA/Bテストの統計設計を覆します。マッチドペア設計・ブートストラップCIでサンプルサイズを決定し、ピーキング問題を回避する逐次テスト統合まで解説します。

2026年7月13日

AIエージェント耐久実行設計——Temporal・Restate活用パターン

エージェントのクラッシュ・LLMタイムアウトを跨いで長期タスクを継続する耐久実行設計を解説。TemporalとRestateの比較、LLMコールをActivityに分離する手順、エンタープライズ本番パターンまで示します。

2026年7月12日

Claudeサーバーツール設計——Web Search・Code Executionの組み込み方

Anthropicが実行するWeb Search（$10/1,000件）・Code Executionの設計パターン。クライアント実装なしにリアルタイム検索とデータ処理をエージェントへ統合できます。

2026年7月12日

AIエージェントのカオスエンジニアリング——障害注入設計パターン

LLM APIは本番で1〜5%の確率で失敗する。10ステップのエージェントでは約18%のタスクが障害に遭遇する計算だ。カオスエンジニアリングの設計手順と実装パターンを解説する。

2026年7月11日

MCP 2026-07-28 RC：ステートレス化と移行手順

2026年7月28日公開予定のMCP仕様RCはセッションを廃止しステートレス化。Sampling・Roots・Loggingを非推奨とし、Tasksを拡張に移動。サーバー実装者が対応すべき5つの移行手順を解説する。

2026年7月11日

人間評価とLLMジャッジの使い分け——3層評価パイプライン設計

AIエージェントの評価で人間評価・LLMジャッジ・自動チェックをいつ使い分けるかを解説。本番への適用比率、コスト設計、SMB・エンタープライズ別の実装指針を示します。

2026年7月10日

MCP RootsとCompletion実装設計——ファイル境界宣言と引数補完

MCPのRootsでクライアントがファイル境界をサーバーに宣言し、Completionで引数補完候補を提供する2つの実装パターンを解説。2025-06-18仕様のJSON-RPC設計とセキュリティ考慮を示す。

2026年7月9日

Claude Sonnet 5エンタープライズ設計——ノード配置とコスト最適化

Claude Sonnet 5（2026年6月）はOpus 4.8に迫る能力をSonnet価格で提供する。Adaptive Thinking・effort制御・Batch API 300k出力を軸にエンタープライズ設計指針を示す。

2026年7月9日

AIモデルのベンダーリスク評価——技術DDの8軸と契約設計

AIモデル調達で見落とされる技術的リスクを、モデルカード・訓練データ来歴・EU AI Act適合性など8軸のデューデリジェンスと4つの契約保護条項で管理する方法を解説します。

2026年7月8日

Sagaパターンでエージェント処理を取り消す——補償設計と一貫性保証

AIエージェントのマルチステップ処理で失敗した場合に完了済みアクションを安全に取り消すSagaパターンを解説。オーケストレーター型実装と補償アクション設計の原則を示す。

2026年7月8日

エージェントのメモリ汚染攻撃——ASI06対応5層防御の設計指針

AIエージェントの長期記憶を標的にするメモリ汚染攻撃（OWASP ASI06）の仕組みと、Agent Memory Guardが定める5層防御設計をエンタープライズ実装の観点で解説します。

2026年7月7日

LLMストリーミング実装——SSEとWebSocketの選択基準

LLMストリーミング出力でSSEとWebSocketをどう選ぶか。Claude APIのSSEイベント構造とエージェントパイプラインの逆圧問題まで設計判断を解説。

2026年7月6日

ClaudeストリーミングAPI設計——TTFT最適化と段階応答

Claude APIのSSEストリーミングでTTFT300ms台を実現する設計を解説。eager_input_streamingによるツール引数の段階配信とJSON蓄積パターン、本番での3つの落とし穴も示す。

2026年7月6日

モデル更新時のエージェント評価——アップグレード前後を安全に比較する

モデルアップグレード時にAIエージェントの品質が維持されているかをシャドーモードで検証する評価設計を解説する。10〜25%のトラフィック並列採点でタスク完了率・根拠整合性・エラー率を比較し、安全に本番移行を判断する手順を示す。

2026年7月5日

AIエージェントのPII設計——匿名化・仮名化・マスキング

AIエージェントのPII処理では匿名化・仮名化・マスキングの3手法を使い分けます。AIゲートウェイで自動検出し、可逆トークン化で多ターン文脈を保持しつつ、出力スキャンで漏洩を防ぐ設計パターンを解説します。

2026年7月5日

エージェントのサーキットブレーカー設計——LLM障害を隔離する

LLM APIはレート制限・コンテキスト超過・非決定論的拒否で失敗する。サーキットブレーカーとフォールバックチェーンでエンタープライズエージェントの耐障害性を設計する方法を解説する。

2026年7月4日

AIエージェントのゼロトラスト通信設計——mTLS・SPIFFE・eBPFを組み合わせる

エンタープライズAIエージェント間通信のゼロトラスト設計を解説。SPIFFE/SPIREによる暗号ID、Istio AmbientでのmTLS強制、eBPFカーネル可視化の実装パターンと限界を示す。

2026年7月4日

AIエージェント障害プレイブック——P0〜P3と5フェーズ対応

AIエージェントのインシデントはP0〜P3の重大度で分類し、検知・封じ込め・根絶・復旧・ポストモーテムの5フェーズで対応する。検知シグナル・キルスイッチ設計・証跡収集の技術手順を解説する。

2026年7月3日

MCPサプライチェーンリスクとABOM——エージェント依存統制

200,000件超の脆弱なMCPインスタンスが示す通り、AIエージェントのサプライチェーンは主要攻撃経路だ。ABOM設計と多層統制でMCP依存リスクを管理する手順を解説する。

2026年7月2日

MCPとA2Aの違い——補完するプロトコルを正しく使い分ける

MCPはエージェントとツールを接続する垂直プロトコル、A2Aはエージェント間委譲の水平プロトコルです。2026年のA2A v1.0仕様に基づき、SMBが最初に押さえるべき選択基準を解説します。

2026年7月2日

LLMジャッジのキャリブレーション——バイアス除去と信頼性設計の実践

LLMジャッジには長さ・位置・ファミリーの3バイアスが混入します。月次ゴールドセット照合でCohen's κを0.6以上に保つキャリブレーション設計と、自己一貫性チェックの実装を解説します。

2026年7月1日

MCPツールアノテーション——4ヒントでリスク語彙を設計する

MCPのToolAnnotationsは4つのbooleanヒントでツールの副作用リスクを宣言するリスク語彙だ。readOnlyHint・destructiveHintなど設計判断と「危険な三つ組み」多層防御パターンを仕様から解説する。

2026年7月1日

AIエージェントにSTRIDE脅威モデリングを適用する設計手順

AIエージェントの攻撃面をSTRIDE 6カテゴリで体系化し、なりすまし・改ざん・権限昇格などの具体的リスクと設計対策を、OWASP Agentic Top 10 2026の観点から整理します。

2026年6月30日

マルチエージェントシステムはどう評価するか：統合テスト設計の実践

マルチエージェントシステムの評価は個別エージェントテストだけでは不十分です。コンポーネントテスト・システム統合テスト・カスケード障害テストの3層設計と、MAESTROのような専用フレームワーク活用パターンを解説します。

2026年6月30日

コンテキスト圧縮の設計——AIエージェントの長期セッション管理

長期エージェントセッションでコンテキストウィンドウが逼迫すると品質が劣化します。Anthropic Compaction APIと3層管理設計（ホット・ウォーム・コールド）を組み合わせたコンテキスト圧縮の実装パターンを解説します。

2026年6月29日

AIエージェントのオンライン評価——本番サンプリング設計の実践

本番AIエージェントのトラフィックをサンプリングしてオンライン評価する設計パターン。ヒューリスティック全量・LLM-as-judge 10〜20%・人手2〜5%の三層構造で分布ドリフトを継続検知する。

2026年6月29日

computer useとマルチモーダルエージェントの設計判断

Claudeのcomputer useはスクリーンショット→アクション→結果のループでAPIを持たないレガシーシステムを自動化します。エンタープライズが本番導入前に判断すべき設計パターンと運用基準を解説。

2026年6月28日

AIエージェント並列実行の設計——Fan-Out/Fan-InとMap-Reduceパターン

AIエージェントの逐次実行ボトルネックを並列化で解消するFan-Out/Fan-InとMap-Reduceパターンを解説。1.8〜3.7倍の速度改善を実現するDAG設計とトークン予算境界・フォールバック実装を含む。

2026年6月27日

MCPプリミティブをどう選ぶか——3つの制御モデルと判断フロー

MCPのTools・Resources・Promptsは「誰が起動を制御するか」で役割が分かれます。副作用ありならTools、静的データならResources、定型フローならPromptsという判断基準を解説します。

2026年6月27日

Claude APIワークスペース設計——チーム分離・コスト管理・鍵なし認証

Claude API WorkspacesでAPIキーをチーム・環境別に分離し、Workload Identity Federationで静的キーを不要にする。2026年6月GA対応の設計パターンと実装例を解説します。

2026年6月26日

プロンプトキャッシュ設計——ブレークポイントとTTL選択

Anthropic APIのプロンプトキャッシュをエージェント設計に組み込む実践ガイド。ブレークポイントの配置戦略、5分／1時間TTLの使い分け、マルチターン会話の設計、キャッシュ無効化リスクの回避まで解説します。

2026年6月26日

LLMエージェント評価フレームワーク選定——RAGAS・DeepEval・Braintrust比較

RAG評価に強いRAGAS、CI/CD統合のDeepEval、本番監視まで含むBraintrustの設計思想を比較し、エージェント種別・チーム規模ごとの選定基準と2ツール構成パターンを解説します。

2026年6月25日

RAGエージェント向けベクトルDB選定——pgvector・Weaviate・Qdrant・Pineconeの使い分け

AIエージェントRAG基盤のベクトルDB選定を解説。pgvectorは50M以下でコスト優位、Weaviateはハイブリッド検索特化、Qdrantは高速フィルタ、Pineconeは100M+自動スケールが強みです。

2026年6月25日

プロンプトガバナンス設計——版数管理・承認フロー・テスト統制

AIエージェントのシステムプロンプトをGitOpsで版数管理し、セマンティックバージョニングによる変更分類・段階別承認ゲート・回帰テストを組み合わせたガバナンス設計パターンを解説します。

2026年6月24日

MCPとFunction callingの使い分け——ツール設計の選択基準

MCPはツール共有・プロバイダー非依存が必要な場合に選び、Function callingは単一プロバイダー内での迅速なツール実装に最適です。2026年の実践的な使い分け基準を整理します。

2026年6月24日

エージェント評価の最小構成——20タスクで動くEvals設計

AIエージェントのevalは20タスクから始められる。実失敗起票からグレーダー設計、Langfuse・Arize Phoenixの無料構成まで、エンジニア2〜3人が1週間で動かせる手順を示す。

2026年6月23日

MCP Streamable HTTP移行設計——セッション管理・後方互換・水平スケール

MCP 2025-06-18仕様でHTTP+SSEは廃止予定となり、単一エンドポイントのStreamable HTTPが標準に。セッション管理・水平スケール・後方互換設計の実装要点を解説します。

2026年6月22日

エージェント評価のCI/CD統合——品質ゲートとパイプライン設計

AIエージェントの評価をCI/CDパイプラインに組み込む方法を解説。PRごとにgraderが自動採点しスコア0.85以上を品質ゲートとする設計から、GitHub Actionsへの統合パターンまで示す。

2026年6月22日

エージェントリリース管理——ブルーグリーン・カナリア展開の設計

エージェントのコード・プロンプト・モデル・ツールスキーマをバージョン管理し、ブルーグリーンとカナリアリリースで本番展開する設計を解説する。品質ゲートの自動化とロールバックトリガーの実装まで踏み込む。

2026年6月21日

合成評価データでエージェントテストを自動化する

LLMを使った合成評価データセット生成でAIエージェントのテストを自動化する。ペルソナシミュレーター・ツール呼び出し・マルチターン会話・敵対的ケースの4パターンとAnthropicが推奨する品質設計を解説します。

2026年6月21日

エージェントのハルシネーション検知——整合性サンプリングと根拠検証

エンタープライズAIエージェントのハルシネーション検知に必要な4技術——トークン確率・整合性サンプリング・根拠検証・LLMジャッジを解説します。3層信頼スコア設計で本番フィルタリングを自動化する実装パターンを示します。

2026年6月20日

MCP Sampling——LLM補完委譲の設計とセキュリティ

MCP Samplingでサーバーがクライアント経由でLLM補完を要求できる。APIキー不要の委譲設計・modelPreferences・Human-in-the-Loop承認フローと、プロンプトインジェクション対策を仕様から解説します。

2026年6月19日

MCPのElicitation——ツール実行中のユーザー入力収集と応答設計

MCP Elicitationは2025-06-18版で追加されたクライアント機能で、ツール実行中にサーバーがユーザーへ構造化入力を要求できる。3アクション応答モデルとJSON Schema制約、セキュリティ設計を解説。

2026年6月18日

マルチステップ評価設計——ターン単位とエンドツーエンドの使い分け

マルチステップAIエージェントの評価設計を解説。ターン単位のツール精度・軌跡（トレジェクトリ）評価・タスク完了率を組み合わせ、複雑な業務エージェントの品質を測る実装パターンを示します。

2026年6月18日

ISO 42001 技術統制の実装——Annex A 制御策をAIシステムへ組み込む

ISO/IEC 42001 Annex Aの38制御策をAIシステムへ実装する方法を解説。A.6ライフサイクル管理・A.7データ管理の技術統制を設計・監視・監査証跡に落とし込む実装パターンを示します。

2026年6月17日

エージェントのツール実行環境——サンドボックス分離の設計パターン

AIエージェントのツール実行にはサンドボックス分離が必須です。Docker・gVisor・Firecracker・WASMのリスク別選定基準と、最小権限ネットワーク制御・エフェメラル実行コンテキスト設計をエンタープライズ向けに解説します。

2026年6月17日

AIレッドチーミング攻撃シナリオ自動化の設計パターン

LLMで攻撃シナリオを自動生成するAIレッドチーミングのアーキテクチャを解説。Crescendo多段階攻撃・DeepTeamの40種メトリクス・CI統合による継続テスト基盤の実装手法を示す。

2026年6月16日

エージェント設計のClaudeモデル選択——ツール使用性能比較

AIエージェントへのClaude Haiku 4.5・Sonnet 4.6・Opus 4.8の使い分け指針を解説。ツール精度・速度（Haiku約100 t/s）・コスト差の実態と、マルチエージェント構成でのモデル配置戦略を実装観点で示す。

2026年6月16日

AIプラットフォームエンジニアリング——内製LLM基盤の設計原則

大企業のAI基盤は個別チームの乱立から共有プラットフォームへ移行する。LLMゲートウェイ・エージェント権限管理・コスト配賦・ガードレール・開発者セルフサービスの5構成と設計原則を解説します。

2026年6月15日

VPC内LLMデプロイとデータレジデンシー——規制業種向け推論基盤設計

AWSベースのVPCエンドポイント・PrivateLinkを用いたLLM推論基盤のデータレジデンシー設計。GDPR・HIPAA・SOC2対応に求められるネットワーク分離・監査ログ・モデルサービング構成をエンタープライズ向けに解説する。

2026年6月15日

長文脈モデルの活用設計——200K/1Mトークンの使いどころ

長文脈モデルのコンテキストウィンドウ活用設計を解説。Context Rot現象、200K/1Mモデルの選択、RAGとのトレードオフ、Context Awareness、コンパクションを実装パターンで示します。

2026年6月14日

エージェントハーネスの状態管理とリトライ——チェックポイント設計

エージェントハーネスの状態管理設計と指数バックオフリトライパターンを解説。チェックポイント設計・Durable Execution・エラー分類の実装要点をバックエンドエンジニア向けに示す。

2026年6月13日

LLM調達のベンダーリスク技術評価——選定基準と4つの評価軸

LLMベンダーを技術評価する際の4軸（モデル能力・セキュリティ・基盤・ガバナンス成熟度）と、データレジデンシー・SLA・SOC 2 Type IIなど調達時の確認事項を整理します。

2026年6月13日

MCPサーバー設計——Resources・Prompts・Toolsの使い分け

MCPのResources・Prompts・Toolsは制御主体で使い分ける。Toolsはモデル駆動、Resourcesはアプリ/ユーザー選択のデータ共有、Promptsはユーザー起動テンプレートだ。3プリミティブの設計判断を解説する。

2026年6月12日

SSO/SCIMでエージェント基盤のID管理を統合する

エージェントは非人間IDとしてSCIM 2.0でプロビジョニング・デプロビジョニングを自動化できる。OktaやEntra IDとのSSO統合、IETFドラフトの新リソースタイプ、グループ同期設計を解説する。

2026年6月12日

エージェントのシークレット管理——動的資格情報とローテーション

AIエージェントのAPIキー・トークンはVaultや専用シークレットマネージャーで管理し、動的資格情報とランタイム注入を組み合わせることで漏洩時の爆発半径を最小化できる。

2026年6月11日

AIエージェントのメモリ設計——短期・長期・エピソード記憶の実装

AIエージェントのメモリは短期（コンテキストウィンドウ）・長期（ベクターストア/グラフDB）・エピソード記憶の3層で設計する。各タイプの実装パターン、ベクターインデックス選択（HNSW/IVF）、セッション間の記憶統合フローを解説する。

2026年6月10日

9軸評価×LLM-as-judgeでエージェントを自動採点する

ルーブリックベースの9軸評価とLLM-as-judgeで、中小規模チームがエージェント品質を週次自動計測する実装パターンを解説。

2026年6月10日

LLM推論コスト削減——バッチ・キャッシュ・ルーティングの設計

バッチAPIで50%・プロンプトキャッシュ読み取りで90%のコスト削減を実現するLLM推論コスト最適化の設計パターン。タスク分類によるモデルルーティングと組み合わせると最大95%のコスト削減が可能です。

2026年6月9日

Function callingのツール定義——JSON Schemaと構造化出力の設計要点

ClaudeのFunction callingはname/description/input_schemaの3要素でツールを定義する。JSON Schema設計・strict mode・構造化出力との使い分けを実装指針として整理する。

2026年6月9日

Computer Use APIの実装設計——サンドボックスとIAMの構築パターン

Claude Computer Use APIをエンタープライズ本番環境に乗せる際のサンドボックス分離・IAM・プロンプトインジェクション対策・監査ログ設計を実装パターンで解説します。

2026年6月8日

RAGとツール使用の使い分け——エージェント設計の情報取得戦略

AIエージェントの情報取得設計でRAGとツール使用のどちらを選ぶかは、予測可能性・コスト・タスク複雑性の3軸で決まります。Anthropicが示す設計判断の基準とAgentic RAGの実装パターンを解説します。

2026年6月8日

ゴールデンデータセットで始めるエージェント回帰テスト設計

AIエージェントの回帰テストをゴールデンデータセットで自動化する手法を解説。Anthropicが推奨する50〜200件のテストセット構築、pass@k指標、CIパイプライン統合まで解説します。

2026年6月7日

MCPサーバーのOAuth 2.1認可フロー——スコープ設計指針

MCPはOAuth 2.1とResource Indicators（RFC 8707）を2026年仕様で必須化した。スコープ段階付与・トークン束縛・PKCEフローの設計をMCP仕様原文に基づいて解説する。

2026年6月7日

監査ログのスキーマと改ざん防止——HMAC・WORM・署名の実装

AIエージェント基盤の監査ログをどうスキーマ設計し、改ざん防止するか。HMACハッシュチェーン・WORM・KMS署名を組み合わせた多層防御の実装指針をエンタープライズ向けに解説。

2026年6月6日

エージェントIAM設計——スコープ付き短命認証情報で過剰権限を防ぐ

エージェントへの長命認証情報付与はExcessive Agencyの温床。タスクスコープのエフェメラルトークンとIAM Permissions Boundaryで制御する多層IAM設計パターンを解説する。

2026年6月5日

コンテキストエンジニアリング——エージェントのトークン予算設計

Anthropicが定義するコンテキストエンジニアリングの核心を解説。Attentionスカシティ・Lost in the Middle問題・4段階メモリ階層・3つの長時間タスク戦略をエンタープライズ実装視点で整理する。

2026年6月4日

マルチテナント・エージェント分離設計——4層でデータ越境を防ぐ

マルチテナント環境でAIエージェントを稼働させると、RAGの検索・ツール呼び出し・ログの3経路でテナント越えが起きる。データ層・実行環境・ID管理・可観測性の4層分離設計とPool/Bridge/Siloの選択基準を解説する。

2026年6月3日

Extended Thinking設計指針——adaptive thinkingとeffort制御

Claude推論モデルのextended thinkingをいつ使うべきか、adaptive thinkingへの移行とeffortパラメータによるコスト・レイテンシ最適化を設計判断の観点で整理します。

2026年6月3日

ポリシーエンジンでエージェントを守る——実行時ガードレールの設計

ポリシーエンジンは、AIエージェントがツールを実行する直前に割り込み、OPA Regoルールで許可/拒否を決定する実行時ガードレールです。SMBはローカルOPA、エンタープライズはMCPゲートウェイ層での集中管理が標準構成です。

2026年6月2日

LLM-as-a-judgeでエージェント品質を自動採点する評価基盤設計

LLM-as-a-judgeを用いてAIエージェントの品質を自動採点する方法を解説。採点ルーブリック・ゴールデンデータセット・回帰テストパイプラインの設計まで、大規模運用を前提としたエンタープライズ向け評価基盤の実装パターンを示します。

2026年6月2日

イベント駆動エージェント設計：非同期ワークフローで大規模化する

イベント駆動型エージェントはメッセージブローカーで疎結合化し大規模展開が可能になる。Kafka・EventBridgeの選定基準、Saga補償設計、分散トレーシングの要点をエンタープライズ向けに解説する。

2026年6月1日

LLMトークンコストの計装と配賦——AI FinOps入門

LLM/エージェントのトークンコストはOpenTelemetry GenAI規約でスパン計装し、cost_center・teamタグで部門配賦する。FinOps for AI初期設計から最適化施策まで実装の要点を整理。

2026年6月1日

A2AプロトコルとMCPの使い分け——認証・委譲設計の実装

A2Aはエージェント間の水平連携、MCPはLLMとツールの垂直統合を担う補完関係にある。エンタープライズではOAuth 2.0やmTLSでエージェントIDを認証し、Agent CardとスキルスコープでA2AとMCPを組み合わせて設計する。

2026年5月31日

プロンプトインジェクションをアーキテクチャで止める5層防御設計

OWASP LLM Top 10 2025の第1位に位置するプロンプトインジェクションは、モデル単体では防げない。入力検証・コンテキスト分離・権限サンドボックス・出力監査の5層で止める設計パターンを解説します。

2026年5月31日

LLMゲートウェイ設計——ルーティング・レート制限・配賦を一元管理

複数チームのLLM利用をゲートウェイ1点で統制する設計を解説。モデルルーティング・チーム別レート制限・コスト配賦の設計パターンとLiteLLM・Kong AIの実装例を示します。

2026年5月30日

MCPサーバー実装ガイド——ツール・リソース・プロンプトの公開設計

MCPサーバーでTools・Resources・Promptsを公開する実装手順を解説。inputSchema設計・2層エラーハンドリング・transport選択（stdio/Streamable HTTP）の設計パターン。

2026年5月30日

AIエージェントのトレース計装——スパン設計とLLM呼び出し追跡

OpenTelemetry GenAI規約に基づきAIエージェントのLLM呼び出しをスパン階層で追跡します。3スパン型・トークン数・停止理由・コストを標準属性として計装し、Langfuseで可視化する設計パターンを解説します。

2026年5月29日

サブエージェント・オーケストレーションの設計パターン——プランナー／エグゼキューター分離と委譲設計

マルチエージェント構成でサブエージェントを分割・連携させる4つのオーケストレーションパターンと、コンテキスト引き継ぎ・最小権限・反復制限の委譲設計を解説します。

Kuu株式会社 エンジニアリング

EXECUTED ARTICLES (85)

AIエージェント基盤のサービスメッシュ統合——Istio Ambient Mode・agentgateway設計指針

ReAct・Plan-Execute・Reflexion——エージェント推論パターンの選択基準

MCPサーバーの本番運用設計——デプロイ・監視・バージョン管理の基本

AIエージェントSLO設計——品質ダッシュボードの実装

AIエージェントSDK比較2026——LangGraph・Strands・Mastraの設計思想と選定指針

AIエージェントのライフサイクル管理——廃止とバージョン設計

AIエージェントのA/Bテスト統計設計——評価実験の信頼性確保

AIエージェント耐久実行設計——Temporal・Restate活用パターン

Claudeサーバーツール設計——Web Search・Code Executionの組み込み方

AIエージェントのカオスエンジニアリング——障害注入設計パターン

MCP 2026-07-28 RC：ステートレス化と移行手順

人間評価とLLMジャッジの使い分け——3層評価パイプライン設計

MCP RootsとCompletion実装設計——ファイル境界宣言と引数補完

Claude Sonnet 5エンタープライズ設計——ノード配置とコスト最適化

AIモデルのベンダーリスク評価——技術DDの8軸と契約設計

Sagaパターンでエージェント処理を取り消す——補償設計と一貫性保証

エージェントのメモリ汚染攻撃——ASI06対応5層防御の設計指針

LLMストリーミング実装——SSEとWebSocketの選択基準

ClaudeストリーミングAPI設計——TTFT最適化と段階応答

モデル更新時のエージェント評価——アップグレード前後を安全に比較する

AIエージェントのPII設計——匿名化・仮名化・マスキング

エージェントのサーキットブレーカー設計——LLM障害を隔離する

AIエージェントのゼロトラスト通信設計——mTLS・SPIFFE・eBPFを組み合わせる

AIエージェント障害プレイブック——P0〜P3と5フェーズ対応

MCPサプライチェーンリスクとABOM——エージェント依存統制

MCPとA2Aの違い——補完するプロトコルを正しく使い分ける

LLMジャッジのキャリブレーション——バイアス除去と信頼性設計の実践

MCPツールアノテーション——4ヒントでリスク語彙を設計する

AIエージェントにSTRIDE脅威モデリングを適用する設計手順

マルチエージェントシステムはどう評価するか：統合テスト設計の実践

コンテキスト圧縮の設計——AIエージェントの長期セッション管理

AIエージェントのオンライン評価——本番サンプリング設計の実践

computer useとマルチモーダルエージェントの設計判断

AIエージェント並列実行の設計——Fan-Out/Fan-InとMap-Reduceパターン

MCPプリミティブをどう選ぶか——3つの制御モデルと判断フロー

Claude APIワークスペース設計——チーム分離・コスト管理・鍵なし認証

プロンプトキャッシュ設計——ブレークポイントとTTL選択

LLMエージェント評価フレームワーク選定——RAGAS・DeepEval・Braintrust比較

RAGエージェント向けベクトルDB選定——pgvector・Weaviate・Qdrant・Pineconeの使い分け

プロンプトガバナンス設計——版数管理・承認フロー・テスト統制

MCPとFunction callingの使い分け——ツール設計の選択基準

エージェント評価の最小構成——20タスクで動くEvals設計

MCP Streamable HTTP移行設計——セッション管理・後方互換・水平スケール

エージェント評価のCI/CD統合——品質ゲートとパイプライン設計

エージェントリリース管理——ブルーグリーン・カナリア展開の設計

合成評価データでエージェントテストを自動化する

エージェントのハルシネーション検知——整合性サンプリングと根拠検証

MCP Sampling——LLM補完委譲の設計とセキュリティ

MCPのElicitation——ツール実行中のユーザー入力収集と応答設計

マルチステップ評価設計——ターン単位とエンドツーエンドの使い分け

ISO 42001 技術統制の実装——Annex A 制御策をAIシステムへ組み込む

エージェントのツール実行環境——サンドボックス分離の設計パターン

AIレッドチーミング攻撃シナリオ自動化の設計パターン

エージェント設計のClaudeモデル選択——ツール使用性能比較

AIプラットフォームエンジニアリング——内製LLM基盤の設計原則

VPC内LLMデプロイとデータレジデンシー——規制業種向け推論基盤設計

長文脈モデルの活用設計——200K/1Mトークンの使いどころ

エージェントハーネスの状態管理とリトライ——チェックポイント設計

LLM調達のベンダーリスク技術評価——選定基準と4つの評価軸

MCPサーバー設計——Resources・Prompts・Toolsの使い分け

SSO/SCIMでエージェント基盤のID管理を統合する

エージェントのシークレット管理——動的資格情報とローテーション

AIエージェントのメモリ設計——短期・長期・エピソード記憶の実装

9軸評価×LLM-as-judgeでエージェントを自動採点する

LLM推論コスト削減——バッチ・キャッシュ・ルーティングの設計

Function callingのツール定義——JSON Schemaと構造化出力の設計要点

Computer Use APIの実装設計——サンドボックスとIAMの構築パターン

RAGとツール使用の使い分け——エージェント設計の情報取得戦略

ゴールデンデータセットで始めるエージェント回帰テスト設計

MCPサーバーのOAuth 2.1認可フロー——スコープ設計指針

監査ログのスキーマと改ざん防止——HMAC・WORM・署名の実装

エージェントIAM設計——スコープ付き短命認証情報で過剰権限を防ぐ

コンテキストエンジニアリング——エージェントのトークン予算設計

マルチテナント・エージェント分離設計——4層でデータ越境を防ぐ

Extended Thinking設計指針——adaptive thinkingとeffort制御

ポリシーエンジンでエージェントを守る——実行時ガードレールの設計

LLM-as-a-judgeでエージェント品質を自動採点する評価基盤設計

イベント駆動エージェント設計：非同期ワークフローで大規模化する

Kuu株式会社エンジニアリング