输入“/”快速插入内容

LLM推理后端性能大比拼,来自BentoML团队的深度评估!

2024年6月7日创建
2460
头图
作者:BentoML 工程团队
选择适宜的推理后端来服务大型语言模型 (LLMs) 至关重要。它不仅可以确保用户通过快速生成速度获得最佳体验,还可以通过 token 的高生成率和资源利用率降本增效。如今,开发者可以选择多种由知名研究和行业团队创建的推理后端。但是,为特定用例选择最佳后端可能具有挑战性。
为了帮助开发者做出明智的决策,我们在 BentoCloud 上分别使用 vLLM、LMDeploy、MLC-LLM、TensorRT-LLM 和 Hugging Face TGI 搭建了 Llama 3 推理服务,并对推理性能进行了全面的基准测试这些推理后端使用以下两个关键指标进行评估:
Time to First Token (TTFT)首 token 延时,衡量从发送请求到生成第一个 token 所花费的时间,以毫秒为单位。对于需要即时反馈的应用(如交互式聊天机器人)来说,TTFT 非常重要。更低的延迟可以提高感知性能和用户满意度。
Token Generation Ratetoken 生成率,评估模型在 decoding 阶段每秒生成的 token 数量,以 token 每秒为单位。token 生成率是衡量模型处理高负载能力的指标。较高的生成率表明模型能够高效地处理多个请求并快速生成响应,适合高并发环境。
1.
Benchmark 核心洞见
我们 BentoCloud 上使用 A100 80GB GPU 实例( gpu.a100.1x80 )对 Llama 3 8B 70B 4-bit 量化模型进行了基准测试,涵盖了三种不同的推理负载(10、50 100 个并发用户)。以下是我们的一些主要的发现
Llama 3 8B
Llama 3 8B: 不同后端的 Time to First Token(TTFT)
Llama 3 8B: 不同后端的 token 生成速率
LMDeploy token 生成率方面表现最佳。对于 100 个并发用户,每秒生成高达 4000 token。 10 名用户的情况下实现了同类最佳的 TTFT。尽管随着用户数量的增加,TTFT 会逐渐增加,但始终保持在较低水平且在可接受的范围内。
MLC-LLM实现了略低的 decoding 性能,对于 100 个用户而言,每秒可处理约 3500 token。然而,在运行基准测试 5 分钟后,性能有所下降,降至每秒约 3100 token。当用户数达到 100 时,TTFT 性能会显著下降。
vLLM在所有并发用户级别上实现了同类最佳的 TTFT 性能。但是,其 decoding 性能与 LMDeploy MLC-LLM 相比稍显逊色,每秒 decoding 2300-2500 token,与 TGI TRT-LLM 类似。
LLama3 70B 4bit 量化
Llama 3 70B Q4: 不同后端的 Time to First Token (TTFT)