AIモデルベンチマーク表 2026/5 – AI Model Benchmark | swiftwand.ai

swiftwand

📊 AIモデルベンチマーク表 (2026年5月時点)

主要LLM (GPT-5.5/Claude Opus 4.7/Gemini 3.1 Pro/DeepSeek V4) のベンチマーク・価格・特徴を一覧。用途別のおすすめも掲載。

モデル	リリース	MMLU	SWE-bench	GPQA Diamond	HumanEval	MATH	コンテキスト
Claude Opus 4.7	Anthropic 2026/3	90.5	80.8	74.5	92.0	87.0	200K
Claude Sonnet 4.6	Anthropic 2026/2	87.2	73.7	69.5	89.5	83.4	200K
Claude Haiku 4.5	Anthropic 2026/1	78.5	42.0	55.0	78.2	72.5	200K
GPT-5.5	OpenAI 2026/4	91.4	77.3	76.8	94.1	91.2	256K
GPT-5	OpenAI 2025/12	88.0	68.5	71.2	91.0	87.5	256K
Gemini 3.1 Pro	Google 2026/4	88.5	65.0	72.1	88.0	89.0	2M
Gemini 3.1 Flash	Google 2026/4	80.0	50.0	62.0	82.5	78.0	1M
DeepSeek V4	DeepSeek 2026/4	87.5	80.6	73.5	91.5	88.5	128K

📌 MMLU=知識/推論 / SWE-bench=コード修正 / GPQA=科学・数学 / HumanEval=コード生成 / MATH=数学問題。黄色は最高値。各モデル公式発表値ベース。

モデル	Input (per 1M)	Output (per 1M)	Batch割引	Cache割引
Claude Opus 4.7	$5.00	$25.00	50%	90%
Claude Sonnet 4.6	$3.00	$15.00	50%	90%
Claude Haiku 4.5	$1.00	$5.00	50%	90%
GPT-5.5	$5.00	$30.00	50%	—
GPT-5	$1.25	$10.00	50%	—
Gemini 3.1 Pro	$2.00	$12.00	50%	—
Gemini 3.1 Flash-Lite	$0.25	$1.50	50%	—
DeepSeek V4	$0.27	$1.10	—	—

📌 価格は2026年5月時点 (USD)。Anthropicの Prompt Cache は対応モデルで実質9割引。Batch APIは50%割引で全Anthropic/OpenAI/Google対応。

用途	1位	2位	コスパ重視
コード生成・修正	Claude Opus 4.7	DeepSeek V4	DeepSeek V4
論文・長文分析	Gemini 3.1 Pro (2M)	Claude Opus 4.7	Gemini 3.1 Flash
数学・科学	GPT-5.5	Gemini 3.1 Pro	DeepSeek V4
マルチモーダル (画像入力)	GPT-5.5	Gemini 3.1 Pro	Claude Sonnet 4.6
日本語の自然さ	Claude Opus 4.7	GPT-5.5	Claude Sonnet 4.6
汎用チャット	Claude Sonnet 4.6	GPT-5	Claude Haiku 4.5
大量バッチ処理	DeepSeek V4	Gemini 3.1 Flash-Lite	DeepSeek V4
リアルタイム応答	Claude Haiku 4.5	Gemini 3.1 Flash	Gemini 3.1 Flash-Lite

このツールは無料ツール集の一つです。実際のコスト試算は AI API料金計算機へ。