分享
LLM推理后端性能大比拼,来自BentoML团队的深度评估!
输入“/”快速插入内容
LLM推理后端性能大比拼,来自BentoML团队的深度评估!
用户1672
用户5190
用户1522
用户1423
用户3181
+5
2024年6月7日创建
8005
头图
作者:BentoML 工程团队
原文链接:
https://www.bentoml.com/blog/benchmarking-llm-inference-backends
选择适宜的推理后端来服务大型语言模型 (LLMs) 至关重要。它不仅可以确保用户通过快速生成速度获得最佳体验,还可以通过
token
的高生成率和资源利用率降本增效。如今,开发者可以选择多种由知名研究和行业团队创建的推理后端。但是,为特定用例选择最佳后端可能具有挑战性。
为了帮助开发者做出明智的决策
,我们在 BentoCloud 上
,
分别使用 vLLM、
LMDeploy
、MLC-LLM、TensorRT-LLM 和 Hugging Face TGI
搭建了 Llama 3 推理
服务
,并对推理
性能进行了全面的基准测试
。
这些推理后端
使用
以下两个关键指标进行评估:
•
Time to First
Token
(TTFT)
:
首 token 延时,
衡量从发送请求到生成第一个
token
所花费的时间,以毫秒为单位。对于需要即时反馈的应用(如交互式聊天机器人)来说,TTFT
非常重要。更低的延迟可以提高感知性能和用户满意度。
•
Token
Generation Rate
:
token
生成率,评估
模型在 decoding 阶段
每秒生成的
token
数量,以
token
每秒为单位。
token
生成率是衡量模型处理高负载能力的指标。较高的生成率表明模型能够高效地处理多个请求并快速生成响应,适合高并发环境。
1.
Benchmark 核心洞见
我们
在
BentoCloud
上使用
A100 80GB GPU
实例(
gpu.a100.1x80
)对
Llama 3 8B
和
70B
4-bit
量化模型进行了基准测试,
涵盖了三种不同的推理负载(10、50
和
100
个并发用户)
。以下是我们的一些主要的
发现
:
Llama 3 8B
Llama 3 8B: 不同后端的
Time to First Token
(TTFT)
Llama 3 8B: 不同后端的
token
生成速率
•
LMDeploy
:
在
token
生成率方面表现最佳。对于
100
个并发用户,每秒生成高达
4000
个
token。
在
10
名用户的情况下实现了同类最佳的
TTFT。尽管随着用户数量的增加,TTFT
会逐渐增加,但始终保持在较低水平且在可接受的范围内。
•
MLC-LLM
:
实现了略低的
decoding
性能,对于
100
个用户而言,每秒可处理约
3500
个
token
。然而,在运行基准测试
5
分钟后,性能有所下降,降至每秒约
3100
个
token
。当用户数达到
100
时,TTFT
性能会显著下降。
•
vLLM
:
在所有并发用户级别上实现了同类最佳的
TTFT
性能。但是,其
decoding
性能与
LMDeploy
和
MLC-LLM
相比稍显逊色,每秒
decoding
2300-2500
个
token
,与
TGI
和
TRT-LLM
类似。
LLama3 70B 4bit 量化
Llama 3 70B Q4: 不同后端的
Time to First Token (TTFT)