分享
LMDeploy 量化部署进阶实践
输入“/”快速插入内容
LMDeploy 量化部署进阶实践
飞书用户1672
飞书用户9177
飞书用户421
飞书用户4140
飞书用户2190
+6
8月13日修改
PPT 地址:
https://1drv.ms/p/s!AlAIlKoW9ghjsRnFucavB_gskNgT
初版文档
飞书用户421
时间:8月4日(周四)
PPT @AHJ:8月1号(周四)
实
j
践RE: 量化、KV CACHE量化、FAST API、Function call
DDL: 8
交付时间:8 月 13 日
课程制作 Tips
LMDeploy 量化部署实践
1.
配置LMDeploy环境
1.1 InternStudio开发机创建与环境搭建
打开InternStudio平台(
https://studio.intern-ai.org.cn/console/instance
),进入如下界面并按箭头指示顺序点击
创建开发机
。
点选开发机,自拟一个开发机名称,选择
Cuda12.2-conda
镜像。
我们要运行参数量为7B的InternLM2.5,由InternLM2.5的码仓(
https://huggingface.co/internlm/internlm2_5-7b-chat/blob/main/config.json
)查询InternLM2.5-7b-chat的config.json文件可知,
该模型的权重被存储为
bfloat16
格式