Kuu株式会社 エンジニアリング
Kuu株式会社 エージェントエンジニアリング
Kuu株式会社のエンジニアリングチーム。エージェントアーキテクチャ、MCP/A2Aプロトコル、評価・可観測性、エンタープライズAI基盤の設計・運用に関する技術記事を執筆しています。
EXECUTED ARTICLES (35)
エージェントのツール実行環境——サンドボックス分離の設計パターン
AIエージェントのツール実行にはサンドボックス分離が必須です。Docker・gVisor・Firecracker・WASMのリスク別選定基準と、最小権限ネットワーク制御・エフェメラル実行コンテキスト設計をエンタープライズ向けに解説します。
AIレッドチーミング攻撃シナリオ自動化の設計パターン
LLMで攻撃シナリオを自動生成するAIレッドチーミングのアーキテクチャを解説。Crescendo多段階攻撃・DeepTeamの40種メトリクス・CI統合による継続テスト基盤の実装手法を示す。
エージェント設計のClaudeモデル選択——ツール使用性能比較
AIエージェントへのClaude Haiku 4.5・Sonnet 4.6・Opus 4.8の使い分け指針を解説。ツール精度・速度(Haiku約100 t/s)・コスト差の実態と、マルチエージェント構成でのモデル配置戦略を実装観点で示す。
AIプラットフォームエンジニアリング——内製LLM基盤の設計原則
大企業のAI基盤は個別チームの乱立から共有プラットフォームへ移行する。LLMゲートウェイ・エージェント権限管理・コスト配賦・ガードレール・開発者セルフサービスの5構成と設計原則を解説します。
VPC内LLMデプロイとデータレジデンシー——規制業種向け推論基盤設計
AWSベースのVPCエンドポイント・PrivateLinkを用いたLLM推論基盤のデータレジデンシー設計。GDPR・HIPAA・SOC2対応に求められるネットワーク分離・監査ログ・モデルサービング構成をエンタープライズ向けに解説する。
長文脈モデルの活用設計——200K/1Mトークンの使いどころ
長文脈モデルのコンテキストウィンドウ活用設計を解説。Context Rot現象、200K/1Mモデルの選択、RAGとのトレードオフ、Context Awareness、コンパクションを実装パターンで示します。
AIエージェントのオンライン評価——3層サンプリングの実装設計
本番AIエージェントの継続評価はヒューリスティック全量・LLMジャッジ5〜10%・人間2〜5%の3層で設計する。シャドーテストとドリフト検知を組み合わせた、本番トラフィックサンプリングの実装パターンを解説する。
エージェントハーネスの状態管理とリトライ——チェックポイント設計
エージェントハーネスの状態管理設計と指数バックオフリトライパターンを解説。チェックポイント設計・Durable Execution・エラー分類の実装要点をバックエンドエンジニア向けに示す。
LLM調達のベンダーリスク技術評価——選定基準と4つの評価軸
LLMベンダーを技術評価する際の4軸(モデル能力・セキュリティ・基盤・ガバナンス成熟度)と、データレジデンシー・SLA・SOC 2 Type IIなど調達時の確認事項を整理します。
MCPサーバー設計——Resources・Prompts・Toolsの使い分け
MCPのResources・Prompts・Toolsは制御主体で使い分ける。Toolsはモデル駆動、Resourcesはアプリ/ユーザー選択のデータ共有、Promptsはユーザー起動テンプレートだ。3プリミティブの設計判断を解説する。
SSO/SCIMでエージェント基盤のID管理を統合する
エージェントは非人間IDとしてSCIM 2.0でプロビジョニング・デプロビジョニングを自動化できる。OktaやEntra IDとのSSO統合、IETFドラフトの新リソースタイプ、グループ同期設計を解説する。
エージェントのシークレット管理——動的資格情報とローテーション
AIエージェントのAPIキー・トークンはVaultや専用シークレットマネージャーで管理し、動的資格情報とランタイム注入を組み合わせることで漏洩時の爆発半径を最小化できる。
AIエージェントのメモリ設計——短期・長期・エピソード記憶の実装
AIエージェントのメモリは短期(コンテキストウィンドウ)・長期(ベクターストア/グラフDB)・エピソード記憶の3層で設計する。各タイプの実装パターン、ベクターインデックス選択(HNSW/IVF)、セッション間の記憶統合フローを解説する。
9軸評価×LLM-as-judgeでエージェントを自動採点する
ルーブリックベースの9軸評価とLLM-as-judgeで、中小規模チームがエージェント品質を週次自動計測する実装パターンを解説。
LLM推論コスト削減——バッチ・キャッシュ・ルーティングの設計
バッチAPIで50%・プロンプトキャッシュ読み取りで90%のコスト削減を実現するLLM推論コスト最適化の設計パターン。タスク分類によるモデルルーティングと組み合わせると最大95%のコスト削減が可能です。
Function callingのツール定義——JSON Schemaと構造化出力の設計要点
ClaudeのFunction callingはname/description/input_schemaの3要素でツールを定義する。JSON Schema設計・strict mode・構造化出力との使い分けを実装指針として整理する。
Computer Use APIの実装設計——サンドボックスとIAMの構築パターン
Claude Computer Use APIをエンタープライズ本番環境に乗せる際のサンドボックス分離・IAM・プロンプトインジェクション対策・監査ログ設計を実装パターンで解説します。
RAGとツール使用の使い分け——エージェント設計の情報取得戦略
AIエージェントの情報取得設計でRAGとツール使用のどちらを選ぶかは、予測可能性・コスト・タスク複雑性の3軸で決まります。Anthropicが示す設計判断の基準とAgentic RAGの実装パターンを解説します。
ゴールデンデータセットで始めるエージェント回帰テスト設計
AIエージェントの回帰テストをゴールデンデータセットで自動化する手法を解説。Anthropicが推奨する50〜200件のテストセット構築、pass@k指標、CIパイプライン統合まで解説します。
MCPサーバーのOAuth 2.1認可フロー——スコープ設計指針
MCPはOAuth 2.1とResource Indicators(RFC 8707)を2026年仕様で必須化した。スコープ段階付与・トークン束縛・PKCEフローの設計をMCP仕様原文に基づいて解説する。
監査ログのスキーマと改ざん防止——HMAC・WORM・署名の実装
AIエージェント基盤の監査ログをどうスキーマ設計し、改ざん防止するか。HMACハッシュチェーン・WORM・KMS署名を組み合わせた多層防御の実装指針をエンタープライズ向けに解説。
エージェントIAM設計——スコープ付き短命認証情報で過剰権限を防ぐ
エージェントへの長命認証情報付与はExcessive Agencyの温床。タスクスコープのエフェメラルトークンとIAM Permissions Boundaryで制御する多層IAM設計パターンを解説する。
コンテキストエンジニアリング——エージェントのトークン予算設計
Anthropicが定義するコンテキストエンジニアリングの核心を解説。Attentionスカシティ・Lost in the Middle問題・4段階メモリ階層・3つの長時間タスク戦略をエンタープライズ実装視点で整理する。
マルチテナント・エージェント分離設計——4層でデータ越境を防ぐ
マルチテナント環境でAIエージェントを稼働させると、RAGの検索・ツール呼び出し・ログの3経路でテナント越えが起きる。データ層・実行環境・ID管理・可観測性の4層分離設計とPool/Bridge/Siloの選択基準を解説する。
Extended Thinking設計指針——adaptive thinkingとeffort制御
Claude推論モデルのextended thinkingをいつ使うべきか、adaptive thinkingへの移行とeffortパラメータによるコスト・レイテンシ最適化を設計判断の観点で整理します。
ポリシーエンジンでエージェントを守る——実行時ガードレールの設計
ポリシーエンジンは、AIエージェントがツールを実行する直前に割り込み、OPA Regoルールで許可/拒否を決定する実行時ガードレールです。SMBはローカルOPA、エンタープライズはMCPゲートウェイ層での集中管理が標準構成です。
LLM-as-a-judgeでエージェント品質を自動採点する評価基盤設計
LLM-as-a-judgeを用いてAIエージェントの品質を自動採点する方法を解説。採点ルーブリック・ゴールデンデータセット・回帰テストパイプラインの設計まで、大規模運用を前提としたエンタープライズ向け評価基盤の実装パターンを示します。
イベント駆動エージェント設計:非同期ワークフローで大規模化する
イベント駆動型エージェントはメッセージブローカーで疎結合化し大規模展開が可能になる。Kafka・EventBridgeの選定基準、Saga補償設計、分散トレーシングの要点をエンタープライズ向けに解説する。
LLMトークンコストの計装と配賦——AI FinOps入門
LLM/エージェントのトークンコストはOpenTelemetry GenAI規約でスパン計装し、cost_center・teamタグで部門配賦する。FinOps for AI初期設計から最適化施策まで実装の要点を整理。
A2AプロトコルとMCPの使い分け——認証・委譲設計の実装
A2Aはエージェント間の水平連携、MCPはLLMとツールの垂直統合を担う補完関係にある。エンタープライズではOAuth 2.0やmTLSでエージェントIDを認証し、Agent CardとスキルスコープでA2AとMCPを組み合わせて設計する。
プロンプトインジェクションをアーキテクチャで止める5層防御設計
OWASP LLM Top 10 2025の第1位に位置するプロンプトインジェクションは、モデル単体では防げない。入力検証・コンテキスト分離・権限サンドボックス・出力監査の5層で止める設計パターンを解説します。
LLMゲートウェイ設計——ルーティング・レート制限・配賦を一元管理
複数チームのLLM利用をゲートウェイ1点で統制する設計を解説。モデルルーティング・チーム別レート制限・コスト配賦の設計パターンとLiteLLM・Kong AIの実装例を示します。
MCPサーバー実装ガイド——ツール・リソース・プロンプトの公開設計
MCPサーバーでTools・Resources・Promptsを公開する実装手順を解説。inputSchema設計・2層エラーハンドリング・transport選択(stdio/Streamable HTTP)の設計パターン。
AIエージェントのトレース計装——スパン設計とLLM呼び出し追跡
OpenTelemetry GenAI規約に基づきAIエージェントのLLM呼び出しをスパン階層で追跡します。3スパン型・トークン数・停止理由・コストを標準属性として計装し、Langfuseで可視化する設計パターンを解説します。
サブエージェント・オーケストレーションの設計パターン——プランナー/エグゼキューター分離と委譲設計
マルチエージェント構成でサブエージェントを分割・連携させる4つのオーケストレーションパターンと、コンテキスト引き継ぎ・最小権限・反復制限の委譲設計を解説します。