LMDeploy高效部署Llama-3-8B，1.8倍vLLM推理效率

用户1672

用户9803

用户5177

用户2384

用户1522

2025年7月10日修改

common.docs_name - LarkCCM_Docs_Menu_Image

Llama 3 近期重磅发布，发布了 8B 和 70B 参数量的模型，LMDeploy 对 Llama 3 部署进行了光速支持，同时对 LMDeploy 推理 Llama 3 进行了测试，在公平比较的条件下推理效率是 vLLM 的 1.8 倍。 ​

书生·浦语和机智流社区同学光速投稿了 LMDeploy 高效量化部署 Llama 3，欢迎 Star。​

https://github.com/internLM/LMDeploy

https://github.com/SmartFlowAI/Llama3-Tutorial/

本文将分为以下几个部分来介绍，如何使用LMDeploy来部署 Llama3（以 InternStudio 的环境为例）​

•
环境、模型准备​

•
LMDeploy Chat CLI 工具​

•
LMDeploy 模型量化（lite）​

•
LMDeploy 服务（serve）​

•
LMDeploy Llama3 推理测速​

•
使用 LMDeploy 运行视觉多模态大模型 Llama-Llava-3​

1.
环境、模型准备​

1.1 环境配置

代码块

# 如果你是 InternStudio 可以直接使用​
# studio-conda -t lmdeploy -o pytorch-2.1.2​
# 初始化环境​
conda create -n lmdeploy python=3.10​
conda activate lmdeploy​
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia​

安装 LMDeploy 最新版

代码块

pip install -U lmdeploy

1.2 Llama3 的下载

安装 git-lfs 依赖

代码块

conda install git​
apt-get install git-lfs​
git-lfs install​

下载模型

代码块

mkdir -p ~/model​
cd ~/model​
git clone https://code.openxlab.org.cn/MrCat/Llama-3-8B-Instruct.git Meta-Llama-3-8B-Instruct​

或者软链接 InternStudio 中的模型

代码块

mkdir -p ~/model​
ln -s /root/share/new_models/meta-llama/Meta-Llama-3-8B-Instruct ~/model/Meta-Llama-3-8B-Instruct​

2.
LMDeploy Chat CLI 工具​

直接在终端运行

代码块

conda activate lmdeploy​
lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct​

LMDeploy高效部署Llama-3-8B，1.8倍vLLM推理效率​

LMDeploy高效部署Llama-3-8B，1.8倍vLLM推理效率