LMDeploy 量化部署进阶实践

用户1672

用户9177

用户421

用户4140

用户2190

2025年8月13日修改

初版文档

时间：8月4日（周四）

PPT @AHJ：8月1号（周四）

实j践RE: 量化、KV CACHE量化、FAST API、Function call

DDL: 8

交付时间：8 月 13 日

课程制作 Tips

LMDeploy 量化部署实践

1.
配置LMDeploy环境​

1.1 InternStudio开发机创建与环境搭建

打开InternStudio平台(https://studio.intern-ai.org.cn/console/instance)，进入如下界面并按箭头指示顺序点击创建开发机。

点选开发机，自拟一个开发机名称，选择Cuda12.2-conda镜像。

我们要运行参数量为7B的InternLM2.5，由InternLM2.5的码仓(https://huggingface.co/internlm/internlm2_5-7b-chat/blob/main/config.json)查询InternLM2.5-7b-chat的config.json文件可知，该模型的权重被存储为bfloat16格式

LMDeploy 量化部署进阶实践​