分享
Phind
输入“/”快速插入内容
Phind
用户1672
用户1672
用户8186
用户8186
用户9177
用户9177
用户2268
用户2268
用户1105
用户1105
2024年4月24日修改
标题:
微软发布了 Phi-3.8B 模型,XTuner 团队对 Phi-3.8B 微调进行了光速支持!!!开源同时社区中涌现了
Phi-Tutorial
手把手教大家使用 XTuner 微调
Phi-Tutorial
模型。
XTuner:
http://github.com/InternLM/XTuner
Phi-Tutorial
:
https://github.com/SmartFlowAI/Phi-Tutorial/
欢迎 Star
1.
Phi-3 概览
1.
Phi-3
模型情况:
◦
微软研究院紧随
Llama-3发布后,迅速发布了Phi-3系列模型的技术报告。
◦
Phi-3系列包括三个尺寸的模型:Phi-3-mini、Phi-3-small、Phi-3-medium。
2.
Phi-3-mini
模型的特点:
◦
参数规模:拥有3.8B参数,属于大语言模型范畴。
◦
训练数据量:使用了3.3T Tokens的训练数据。
◦
上下文长度:默认上下文长度为4K,但通过LongRope技术可扩展至128K。
◦
性能表现:在各类基准和内部测试中,其性能可与Mixtral 8x7B和GPT-3.5等模型相媲美。
◦
应用优势:主打“小而精”,4位量化的Phi-3-mini可以在带有A16仿生芯片的iPhone上运行,每秒生成超过12个token。
3.
Phi-3-Small
和
Phi-3-Medium
模型的特点:
◦
参数规模:Phi-3-Small拥有7B参数量,而Phi-3-Medium则拥有14B参数量。
◦
词汇量与上下文长度:Phi-3-Small具有100,352个词汇量,默认上下文长度为8K;Phi-3-Medium使用与Phi-3-mini相同的分词器和架构。
◦
训练数据量:Phi-3-Medium的训练数据量为4.8T Tokens。
◦
能力表现:根据描述,Phi-3-Small和Phi-3-Medium的能力均显著高于Phi-3-Mini。
根据各类基准和内部测试的结果来看,其总体性能可以与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美(phi-3-mini 在 MMLU 上达到 69%,在 MT-bench 上达到 8.38)
2.
XTuner 显存门槛测试
在正式微调 Phi-3 小助手认知之前,我们先来看一下 XTuner 团队光速测试微调 Phi-3 所需要得显存门槛。