分享
LMDeploy高效部署Llama-3-8B,1.8倍vLLM推理效率
输入“/”快速插入内容
LMDeploy高效部署Llama-3-8B,1.8倍vLLM推理效率
用户1672
用户9803
用户5177
用户2384
用户1522
+2
2025年7月10日修改
Llama 3 近期重磅发布,发布了 8B 和 70B 参数量的模型,
LMDeploy
对 Llama 3 部署进行了光速支持
,同时
对 LMDeploy 推理 Llama 3 进行了测试,在公平比较的条件下推理效率是 vLLM 的 1.8 倍。
书生·浦语和机智流社区同学光速投稿了 LMDeploy 高效量化部署 Llama 3,欢迎 Star。
https://github.com/internLM/LMDeploy
https://github.com/SmartFlowAI/Llama3-Tutorial/
本文将分为以下几个部分来介绍,如何使用LMDeploy来部署
Llama3
(以 InternStudio 的环境为例)
•
环境
、
模型准备
•
LMDeploy Chat CLI 工具
•
LMDeploy
模型量化
(
lite
)
•
LMDeploy
服务
(
serve
)
•
LMDeploy Llama3 推理测速
•
使用 LMDeploy 运行视觉多模态大模型
Llama-Llava-3
1.
环境
、
模型准备
1.1 环境配置
代码块
Shell
# 如果你是
InternStudio 可以直接使用
# studio-conda -t lmdeploy -o pytorch-2.1.2
# 初始化环境
conda create -n lmdeploy python=3.10
conda activate lmdeploy
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia
安装
LMD
eploy
最新版
代码块
Shell
pip install -U lmdeploy
1.2 Llama3 的下载
安装 git-lfs 依赖
代码块
Shell
conda install git
apt-get install git-lfs
git-lfs install
下载模型
代码块
Shell
mkdir -p ~/model
cd ~/model
git clone
https://code.openxlab.org.cn/MrCat/Llama-3-8B-Instruct.git
Meta-Llama-3-8B-Instruct
或者软链接 InternStudio 中的模型
代码块
Shell
mkdir -p ~/model
ln -s /root/share/new_models/meta-llama/Meta-Llama-3-8B-Instruct ~/model/Meta-Llama-3-8B-Instruct
2.
LMDeploy
C
hat
CLI 工具
直接在终端运行
代码块
Bash
conda activate lmdeploy
lmdeploy chat /root/model/Meta-Llama-3-8B-Instruct