大模型推理引擎性能對比，VLLM、SGLang、LMDeploy吞吐量測試

2024年11月5日#LLM #vllm #sglang #lmdeploy3211

AI 翻譯

這篇文章透過AI由英文翻譯成繁體中文。查看原文

AI 生成的摘要

這篇文章對三個大模型推理引擎（VLLM、SGLang、LMDeploy）的吞吐速度進行了比較，測試結果以每秒輸出token數量為單位。在短輸入長輸出的場景下，測試顯示不同版本的引擎在不同併發數下的性能。具體數據如下： - 在併發為1時，VLLM的吞吐量為28.73至28.76，LMDeploy為56.19至57.24，SGLang為37.23至29.96。 - 隨著併發數的增加，VLLM的吞吐量在16時達到394.25至401.67，LMDeploy達到704.69至709.27，SGLang則為461.89至444.48。 - 在併發數為64時，LMDeploy的吞吐量最高，達到1119.22至1123.07。測試使用的模型為Qwen2.5-14B-Instruct-AWQ，硬體環境為E5 2680v4 + 2080ti 22G。

簡單對比 3 個大模型推理引擎吞吐速度，單位為輸出 token/s，短輸入長輸出場景，其餘參數見表後

VLLM | SGLang | LMDeploy#

Concurrency	VLLM 0.6.1.post2	VLLM 0.6.3.post1	LMDeploy 0.6.0a0	LMDeploy 0.6.2	SGLang 0.3.4.post2	SGLang 0.3.4.post2 (--disable-cuda-graph)
1	28.73	28.76	56.19	57.24	37.23	29.96
2	71.53	73.26	113.12	113.48	73.59	58.28
4	133.38	136.05	205.51	199.01	136.73	111.24
8	246.14	251.59	398.73	393.48	258.21	215.53
16	394.25	401.67	704.69	709.27	461.89	444.48
32	480.26	481.75	967.34	973.24	562.36	557.93
64	520.11	526.01	1119.22	1123.07	594.03	602.36
128	479.02	481.63	989.14	890.44	534.69	582.97

測試模型：Qwen2.5-14B-Instruct-AWQ
硬體環境：E5 2680v4 + 2080ti 22G * 1

Pasted image 20241123103935

Pasted image 20241123103943

未經授權，請勿轉載