大模型推理エンジン性能比較、VLLM、SGLang、LMDeployスループットテスト

2024年11月5日#LLM #vllm #sglang #lmdeploy3395

AI 翻訳

この記事はAIを通じて英語から日本語に翻訳されました。原文を表示

AI が生成した要約

3つの大規模モデル推論エンジン（VLLM、SGLang、LMDeploy）のスループット速度を比較しました。テストは短い入力と長い出力のシナリオで行われ、結果はトークン出力/sで示されています。各エンジンのバージョンと同時実行数に応じたスループットは以下の通りです： - **VLLM**: 最大スループットは526.01トークン/s（同時実行数64） - **SGLang**: 最大スループットは594.03トークン/s（同時実行数64） - **LMDeploy**: 最大スループットは1123.07トークン/s（同時実行数64）テストモデルはQwen2.5-14B-Instruct-AWQで、ハードウェア環境はE5 2680v4と2080ti 22Gを使用しました。

3 つの大モデル推理エンジンのスループット速度を簡単に比較します。単位は出力トークン /s で、短い入力と長い出力のシナリオについて、その他のパラメータは表の後に示します。

VLLM | SGLang | LMDeploy#

同時実行数	VLLM 0.6.1.post2	VLLM 0.6.3.post1	LMDeploy 0.6.0a0	LMDeploy 0.6.2	SGLang 0.3.4.post2	SGLang 0.3.4.post2 (--disable-cuda-graph)
1	28.73	28.76	56.19	57.24	37.23	29.96
2	71.53	73.26	113.12	113.48	73.59	58.28
4	133.38	136.05	205.51	199.01	136.73	111.24
8	246.14	251.59	398.73	393.48	258.21	215.53
16	394.25	401.67	704.69	709.27	461.89	444.48
32	480.26	481.75	967.34	973.24	562.36	557.93
64	520.11	526.01	1119.22	1123.07	594.03	602.36
128	479.02	481.63	989.14	890.44	534.69	582.97

テストモデル：Qwen2.5-14B-Instruct-AWQ
ハードウェア環境：E5 2680v4 + 2080ti 22G * 1

Pasted image 20241123103935

Pasted image 20241123103943