用户1672
用户8186
用户5190章节 | 任务ID | 小节 | 描述 | 领取地址 | 最终撰写地址 | 负责人 | ||||
基础篇 | | | | | | | ||||
模型部署基础 | Deploy001 | 模型推理 | 什么是模型推理,和训练的区别,如何使用最简单的torch推理一个模型 | Deploy001 模型推理 | 🐧🦩 | |||||
| Deploy002 | 模型部署 | 选择其他框架对模型进行推理,简单介绍下常见的推理框架 ONNX OpenVINO TensorRT | Deploy002 模型部署 | | |||||
| Deploy003 | 模型量化 | 解释最基础的模型量化知识,模型量化公式等理论知识解析 | Deploy003 模型量化 | | |||||
大模型架构详解 | Deploy004 | 矩阵乘法 | 知识讲解+最简单Py代码 | Deploy004 矩阵乘法 | | |||||
| Deploy005 | 位置编码 | RoPE为主 | Deploy005 位置编码 | | |||||
| Deploy006 | Norm | LayerNorm + RmsNorm | Deploy006 Norm | | |||||
| Deploy007 | Attention | Attention | Deploy007 Attention | | |||||
| Deploy008 | 激活函数 | Gelu Relu SwiGelu | Deploy008 激活函数 | | |||||
| Deploy009 | 解码相关 | topk,topp,beam search | Deploy009 解码相关 | | |||||
大模型部署框架解析 | Deploy010 | vLLM | 详细讲讲论文可以 | Deploy010 vLLM | | |||||
| Deploy011 | TRT-LLM | nv有什么优化? | Deploy011 TRT-LLM | | |||||
| Deploy012 | LMDeploy | 推理速度上的优势 | Deploy012 LMDeploy | | |||||
简单的CUDA | Deploy013 | CUDA 编程模型简介 | thread wrap block | Deploy013 CUDA 编程模型简介 | | |||||
| Deploy014 | CUDA 内存模型简介 | 主存,共享内存,寄存器 | Deploy014 CUDA 内存模型简介 | | |||||
| Deploy015 | |||||||||