分享
ollama 部署 InternLM 实践
输入“/”快速插入内容
ollama 部署 InternLM 实践
用户1672
用户1672
用户3271
用户3271
2024年5月24日修改
作者:comefly
1.
前言
ollama框架支持多种格式的模型导入,包括但不限于GGUF、PyTorch和Safetensors格式。本文旨在为开发者提供一个指南,介绍如何将这些不同格式的模型导入到ollama框架中。本文主要以InterLM2系列模型,windows操作系统为主,其他大模型和操作系统都可以按照类似的的步骤导入ollama实现本地部署,后续会继续完善。
我们需要准备
模型文件、克隆ollama和llama.cpp仓库源码、安装依赖、下载camke、代码编译和模型量化、推理测试模型、创建和配置Modelfile、使用ollama框架的命令行工具、
后续还将补充如何更好地量化模型以提高性能。下面我们分为两个板块,
直通车教程
和
进阶教程
,对于不熟悉或者是不想折腾的朋友请看直通车教程,对于有余力或者是想深入的朋友请看进阶教程。
2.
直通车教程
1.
安装ollama,window系统直接下载安装,
https://ollama.com/download/windows
2.
打开cmd终端,拉取internlm2系列的internlm2-chat-1.8b模型并运行
代码块
Python
ollama run gengshenghong/internlm2:1_8b-chat
对话效果如下:
3.
进阶教程(适合ollama接入自定义模型)
准备模型文件
我们这里还是以Internlm2系列模型为例,可以从官网
GitHub文档
找到对应的模型链接地址,国内的话建议从modelscope下载,速度快一些;
如何下载模型,留给有需要的朋友
1.
方式一 <使用Git下载>
在电脑上下载Git,不会的可以csdn; 使用Git命令,以魔塔社区internlm2-chat-7b为例