AIモデル ベンチマーク表 2026/5 – AI Model Benchmark | swiftwand.ai
swiftwand
📊 AIモデル ベンチマーク表 (2026年5月時点)
主要LLM (GPT-5.5/Claude Opus 4.7/Gemini 3.1 Pro/DeepSeek V4) のベンチマーク・価格・特徴を一覧。用途別のおすすめも掲載。
| モデル | リリース | MMLU | SWE-bench | GPQA Diamond | HumanEval | MATH | コンテキスト |
|---|---|---|---|---|---|---|---|
| Claude Opus 4.7 | Anthropic 2026/3 | 90.5 | 80.8 | 74.5 | 92.0 | 87.0 | 200K |
| Claude Sonnet 4.6 | Anthropic 2026/2 | 87.2 | 73.7 | 69.5 | 89.5 | 83.4 | 200K |
| Claude Haiku 4.5 | Anthropic 2026/1 | 78.5 | 42.0 | 55.0 | 78.2 | 72.5 | 200K |
| GPT-5.5 | OpenAI 2026/4 | 91.4 | 77.3 | 76.8 | 94.1 | 91.2 | 256K |
| GPT-5 | OpenAI 2025/12 | 88.0 | 68.5 | 71.2 | 91.0 | 87.5 | 256K |
| Gemini 3.1 Pro | Google 2026/4 | 88.5 | 65.0 | 72.1 | 88.0 | 89.0 | 2M |
| Gemini 3.1 Flash | Google 2026/4 | 80.0 | 50.0 | 62.0 | 82.5 | 78.0 | 1M |
| DeepSeek V4 | DeepSeek 2026/4 | 87.5 | 80.6 | 73.5 | 91.5 | 88.5 | 128K |
📌 MMLU=知識/推論 / SWE-bench=コード修正 / GPQA=科学・数学 / HumanEval=コード生成 / MATH=数学問題。黄色は最高値。各モデル公式発表値ベース。
| モデル | Input (per 1M) | Output (per 1M) | Batch割引 | Cache割引 |
|---|---|---|---|---|
| Claude Opus 4.7 | $5.00 | $25.00 | 50% | 90% |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 50% | 90% |
| Claude Haiku 4.5 | $1.00 | $5.00 | 50% | 90% |
| GPT-5.5 | $5.00 | $30.00 | 50% | — |
| GPT-5 | $1.25 | $10.00 | 50% | — |
| Gemini 3.1 Pro | $2.00 | $12.00 | 50% | — |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | 50% | — |
| DeepSeek V4 | $0.27 | $1.10 | — | — |
📌 価格は2026年5月時点 (USD)。Anthropicの Prompt Cache は対応モデルで実質9割引。Batch APIは50%割引で全Anthropic/OpenAI/Google対応。
| 用途 | 1位 | 2位 | コスパ重視 |
|---|---|---|---|
| コード生成・修正 | Claude Opus 4.7 | DeepSeek V4 | DeepSeek V4 |
| 論文・長文分析 | Gemini 3.1 Pro (2M) | Claude Opus 4.7 | Gemini 3.1 Flash |
| 数学・科学 | GPT-5.5 | Gemini 3.1 Pro | DeepSeek V4 |
| マルチモーダル (画像入力) | GPT-5.5 | Gemini 3.1 Pro | Claude Sonnet 4.6 |
| 日本語の自然さ | Claude Opus 4.7 | GPT-5.5 | Claude Sonnet 4.6 |
| 汎用チャット | Claude Sonnet 4.6 | GPT-5 | Claude Haiku 4.5 |
| 大量バッチ処理 | DeepSeek V4 | Gemini 3.1 Flash-Lite | DeepSeek V4 |
| リアルタイム応答 | Claude Haiku 4.5 | Gemini 3.1 Flash | Gemini 3.1 Flash-Lite |
このツールは 無料ツール集 の一つです。実際のコスト試算は AI API料金計算機 へ。