deepinfra LLM Benchmarks – Performance & Latency

Provider Snapshot

Models Tracked

Avg Tokens / Second

35.40

Avg Time to First Token (ms)

0.00

Last Updated

Jun 10, 2026

Key Takeaways

77 deepinfra models are actively benchmarked with 2972 total measurements across 2582 benchmark runs.
qwen-3.5-2b leads the fleet with 189.00 tokens/second, while GPT-oss-120b-Turbo delivers 80.10 tok/s.
Performance varies by 136.0% across the deepinfra model lineup, indicating diverse optimization strategies for different use cases.
The deepinfra model fleet shows varied performance characteristics (85.0% variation coefficient), reflecting diverse model architectures.

Fastest Models

Provider	Model	Avg Toks/Sec	Min	Max
deepinfra	qwen-3.5-2b	189.00	6.88	242.00
deepinfra	Qwen3.6-35B-A3B	117.00	70.80	160.00
deepinfra	qwen-3.5-35b-a3b	116.00	20.50	161.00
deepinfra	Nemotron-3-Nano-Omni-30B-A3B-Reasoning	113.00	56.40	180.00
deepinfra	MiMo-V2.5	92.20	42.20	138.00
deepinfra	GPT-oss-120b-Turbo	80.10	23.10	184.00

All Models

Complete list of all deepinfra models tracked in the benchmark system. Click any model name to view detailed performance data.

Provider	Model	Avg Toks/Sec	Min	Max
deepinfra	Seed-2.0-code	0.45	0.45	0.45
deepinfra	Seed-2.0-pro	2.08	0.93	2.85
deepinfra	MiniMax-M2.5	14.20	4.76	27.00
deepinfra	MiniMax-M2.7	11.40	4.82	24.30
deepinfra	qwen-2.5-72b	18.60	1.61	35.70
deepinfra	Qwen 2.5 Coder 32B	47.90	14.60	70.80
deepinfra	qwen-3-14b	32.60	1.64	59.10
deepinfra	qwen-3-235b	14.70	2.47	46.90
deepinfra	Qwen3-30B-A3B	49.50	18.60	70.60
deepinfra	Qwen3-32B	43.30	14.10	65.80
deepinfra	Qwen3-Coder-480B-A35B-Instruct-Turbo	14.30	4.28	22.90
deepinfra	Qwen3-Max	19.90	13.40	26.40
deepinfra	Qwen3-Max-Thinking	17.10	12.60	20.40
deepinfra	Qwen3-Next-80B-A3B-Instruct	49.20	2.65	86.30
deepinfra	qwen-3.5-0.8b	76.00	24.70	207.00
deepinfra	qwen-3.5-122b-a10b	79.40	31.20	115.00
deepinfra	qwen-3.5-27b	35.50	4.26	73.40
deepinfra	qwen-3.5-2b	189.00	6.88	242.00
deepinfra	qwen-3.5-35b-a3b	116.00	20.50	161.00
deepinfra	qwen-3.5-397b-a17b	63.20	20.00	102.00
deepinfra	Qwen3.6-35B-A3B	117.00	70.80	160.00
deepinfra	Qwen3.7-Max	2.18	1.48	3.97
deepinfra	MiMo-V2.5	92.20	42.20	138.00
deepinfra	MiMo-V2.5-Pro	38.20	2.86	69.40
deepinfra	claude-haiku-4-5	29.30	22.00	34.10
deepinfra	claude-opus-4-7	29.40	22.40	34.50
deepinfra	claude-opus-4-8	26.80	20.40	30.10
deepinfra	claude-sonnet-4-6	15.60	9.65	18.90
deepinfra	DeepSeek-R1-0528	32.10	10.80	63.80
deepinfra	DeepSeek-V3	17.90	11.20	30.60
deepinfra	DeepSeek-V3.1	7.04	1.34	12.50
deepinfra	DeepSeek-V3.1-Terminus	20.40	9.46	44.80
deepinfra	deepseek-v3.2	9.73	1.02	22.90
deepinfra	DeepSeek-V4-Flash	13.50	2.09	22.20
deepinfra	DeepSeek-V4-Pro	24.00	1.88	47.10
deepinfra	gemini-2.5-flash	36.00	12.10	45.70
deepinfra	gemini-3.1-pro	21.80	17.30	25.10
deepinfra	gemma-3-12b-it	24.80	11.80	37.80
deepinfra	gemma-3-27b-it	21.10	10.30	35.30
deepinfra	gemma-4-26B-A4B-it	28.30	9.95	46.10
deepinfra	gemma-4-31B-it	12.50	5.07	27.10
deepinfra	gemma-4-31B-it-turbo	17.80	2.32	46.50
deepinfra	llama-2-70b	27.10	3.08	37.00
deepinfra	llama-3.2-11b	41.20	1.06	52.50
deepinfra	llama-3.2-1b	39.70	7.79	52.60
deepinfra	llama-3.2-3b	41.20	3.15	52.70
deepinfra	llama-3.2-90b	31.50	3.47	60.00
deepinfra	llama-3.3-70b	19.20	1.49	40.10
deepinfra	Llama-3.3-70B-Instruct-Turbo	14.70	1.59	27.00
deepinfra	Llama-4-Maverick-17B-128E-Instruct-FP8	19.90	2.53	37.40
deepinfra	Llama-Guard-4-12B	3.31	2.09	4.21
deepinfra	llama-3-70b	29.20	3.03	37.30
deepinfra	llama-3-8b	42.60	15.70	75.60
deepinfra	llama-3.1-405b	17.40	2.63	27.40
deepinfra	llama-3.1-70b	30.60	3.56	65.90
deepinfra	llama-3.1-8b	30.10	8.79	66.30
deepinfra	phi-4	55.80	53.10	58.50
deepinfra	devstral-small	37.90	1.77	67.10
deepinfra	mistral-7b	39.20	1.81	67.70
deepinfra	Mistral-Nemo-Instruct-2407	25.20	9.18	40.30
deepinfra	Mistral-Small-24B-Instruct-2501	44.10	6.64	56.60
deepinfra	Mistral-Small-3.2-24B-Instruct-2506	35.30	11.20	66.00
deepinfra	Kimi-K2.5	8.44	3.39	27.10
deepinfra	Kimi-K2.6	21.60	2.40	62.80
deepinfra	NVIDIA-Nemotron-3-Super-120B-A12B	20.00	1.73	62.50
deepinfra	NVIDIA-Nemotron-3-Ultra-550B-A55B	46.40	11.50	73.50
deepinfra	Nemotron-3-Nano-30B-A3B	52.50	9.98	74.70
deepinfra	Nemotron-3-Nano-Omni-30B-A3B-Reasoning	113.00	56.40	180.00
deepinfra	GPT-oss-120b	18.60	7.51	38.60
deepinfra	GPT-oss-120b-Turbo	80.10	23.10	184.00
deepinfra	GPT-oss-20b	18.50	1.26	53.90
deepinfra	Step-3.5-Flash	27.40	18.70	35.60
deepinfra	GLM-4.6	34.10	9.62	67.10
deepinfra	GLM-4.7	29.10	5.27	47.50
deepinfra	GLM-4.7-Flash	50.60	8.91	81.30
deepinfra	GLM-5	20.30	7.07	49.20
deepinfra	GLM-5.1	27.90	5.75	47.10