AIエージェントを本番稼働させるとき、モデル選択は「とりあえず最新・最大」では済まない。ツール呼び出し精度、レイテンシ、トークンコストの三角関係を理解したうえで、エージェントのノードごとに適切なモデルを割り当てることが品質とコスト効率の両立につながる。
モデル選択がエージェント性能に与える影響は何か
ツール精度・レイテンシ・コストはモデル選択で決まる。ノード単位の最適化がエージェント全体の効率を左右する。
エージェントアーキテクチャではLLMが「ツールを選ぶ→引数を生成する→結果を解釈する」ループを繰り返す。このループ1回ごとにコストとレイテンシが積み上がるため、タスクの複雑度に合わないモデルを選ぶと二重のロスが生じる。精度不足で再試行が増えるか、過剰品質で余分なコストを払うかのどちらかだ。
最初に問うべきは「このノードの判断ミスはどれほどの被害を生むか」である。リカバリーコストが低い分類ステップと、誤りが最終出力に直結する推論ステップとでは最適モデルが異なる。
各モデルのツール使用特性はどう違うか
Haiku 4.5は約100トークン/秒の高速・低コスト処理、Sonnet 4.6はバランス型の主力、Opus 4.8は複雑な多段タスクへの最高精度モデルとなる。
2026年6月時点のClaudeモデルラインナップと特性を示す。
| モデル | 出力速度 | 入力 $/1M | 出力 $/1M | コンテキスト |
|---|---|---|---|---|
| Claude Haiku 4.5 | 約100 t/s | $1 | $5 | 200K |
| Claude Sonnet 4.6 | 約53 t/s | $3 | $15 | 1M |
| Claude Opus 4.8 | 約62 t/s | $5 | $25 | 1M |
Artificial Analysisの計測ではHaiku 4.5のTTFT(初回トークンまでの時間)は0.81秒、Sonnet 4.6は1.14秒で、Haikuは最速クラスに位置する。入力コスト比はHaiku:Sonnet:Opus = 1:3:5と明確な差がある。
ツール呼び出しでの傾向:
- Haiku 4.5: 単純な分類・ルーティング・テンプレート埋め込みに向く。セマンティック検索の再ランキング、ユーザー意図の第一段階分類、高スループットのサブエージェント処理など。シンプルなスキーマのツール引数生成では実用十分だが、深い依存を持つ複数ツール連鎖では誤りやすい。
- Sonnet 4.6: 対話型のツール実行、複数ステップの情報収集、コード生成とテスト生成といった「速度と品質のバランスが要る」業務に最適。多くの業務ユースケースで主力となるモデルだ。
- Opus 4.8: 複雑な多段エージェントループ、深い依存チェーンを持つコードリファクタリング、法的文書の解釈など推論の深さが精度を左右するタスクに充てる。Sonnetより出力速度が速い場合もあり(効率的な推論実装による)、コスト/品質トレードオフで検討の余地がある。
マルチエージェント構成でのモデル配置戦略はどう立てるか
ルーティング・分類にHaiku、ツール実行にSonnet、複雑な計画・最終判断にOpusを階層配置することで、品質を維持しながらコストを抑制できる。
マルチエージェントシステムでは役割分担が鍵だ。実装パターンは次の通りである。
1. オーケストレーター / サブエージェント分割
オーケストレーター(全体計画・タスク分解)にOpus 4.8、サブエージェント(個々のツール実行・データ取得)にSonnet 4.6かHaiku 4.5を割り当てる。サブエージェントは単純なツール呼び出しに専念するためHaikuで処理でき、全体コストを大幅に抑えられる。
2. ルーティング段階での軽量化
受信リクエストをまずHaikuで分類し(「複雑か否か」「どのツールセットか」)、複雑と判定されたものだけをOpusへルーティングする二段構えにすると、API呼び出しの大部分をHaikuで賄える設計になりやすい。
3. 評価ステップの分離
エージェント出力の品質評価(LLM-as-a-judge)にSonnetを使い、最終承認をOpusに任せる構成は、コストバランスと精度の両立として有効だ。この評価基盤とエージェントの可観測性を組み合わせると、ノードごとの精度差を定量的に追跡できる。
コストとレイテンシのトレードオフをどう評価するか
SonnetとOpusの入力コスト差は1.7倍だが、精度差は多くの業務ユースケースで数%以内。定量評価なしに最高性能モデル一択にするとコストの根拠が失われる。
選択の前提として「精度差を定量化してから選ぶ」という順序が重要だ。多くのエンタープライズユースケースではSonnet 4.6でも十分な精度が出る。Opus 4.8が真に必要なのは「判断ミスのリカバリーコストが高い」タスクに限られる。
コスト試算例として、エージェントが1日1万回ツールループを実行し、1ループあたり平均2,000入力トークン・500出力トークンを消費するケースを考える。
- Haiku 4.5: 入力$0.02 + 出力$0.025 = 約$0.045/日
- Sonnet 4.6: 入力$0.06 + 出力$0.075 = 約$0.135/日
- Opus 4.8: 入力$0.10 + 出力$0.125 = 約$0.225/日
SonnetからHaikuへのルーティング最適化で1/3のコスト削減余地がある。ただしこれはトークン単価のみの試算であり、システムプロンプト・ツール定義・会話履歴も消費するため実測値での検証が必須だ。
規模別の留意点(SMB / エンタープライズ)
SMB(中小企業・スタートアップ): まずSonnet 4.6を主力に使い、分類ステップだけHaikuに差し替えるシンプルな構成から始める。ツール呼び出しのトレースを最初から仕込み、実測コスト・レイテンシを計測してから最適化判断をする。エージェント設計の初期支援はKuuのAIオペレーション管理サービスへ。
エンタープライズ: 複数チームが異なるモデルをバラバラに使うと、品質基準もコスト把握も困難になる。LLMゲートウェイでモデルルーティングを一元管理し、チームごとのモデル使用量と精度スコアを集計する設計が必要だ。大規模実装の設計支援はKuuのRDEサービスにご相談ください。
参考
- Claude Models Overview — Anthropic
- Anthropic Provider Benchmarks — Artificial Analysis
- Claude Pricing — Anthropic
まとめ
AIエージェントのモデル選択は「最高性能を一律に使う」でも「最安を一律に使う」でもない。タスクの複雑度・許容精度・コスト制約を踏まえ、ノードごとに最適なモデルを配置することが品質とコスト効率の鍵となる。
実装の指針をまとめる。
- ルーティング・分類にHaiku 4.5(高速・低コスト)
- 対話型ツール実行・主要業務にSonnet 4.6(バランス型主力)
- 複雑な多段推論・最終判断にOpus 4.8(精度最優先)
- すべてのノードでトレースを計装し、実測値から精度差を定量評価してからモデル変更を判断する
エージェント設計とモデル選択戦略の支援についてはKuuのAIオペレーション管理サービスにご相談ください。大規模なエンタープライズ構成はRDEサービスでもサポートしています。