分享
Llama 3.1 小圆桌
输入“/”快速插入内容
Llama 3.1 小圆桌
用户1672
用户1672
用户1223
用户1223
2024年7月26日修改
会议时间:本周五 8 点
#腾讯会议:270-127-890
1.
资料
官网:
https://ai.meta.com/blog/meta-llama-3-1/
论文地址:
https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
2.
讨论话题
•
如何体验 Llama 3.1 的原生 Function Calling 能力?
•
为什么 Llama 3 依然选择的 Dense 模型,非 MoE 架构?
•
用 405B 的模型造数据会不会违反开源协议?
•
72 页的技术报告都写了啥?
•
llama3.1 使用 DPO 对齐人类偏好, 为什么还需要奖励建模?
•
......
3.
浦语工具链玩转 Llama 3.1
浦语工具链玩转 Llama 3.1
4.
一些疑问
1) Llama 3.1 405B VS IntermLM2.5 VS Mistral Large 2 123B
模型架构:比较两个模型的基本架构,如transformer层数、注意力机制的类型等。
训练数据:分析两个模型使用的训练数据的规模、来源和预处理方法。
训练策略:对比他们的训练方法,包括优化器选择、学习率调度、梯度裁剪等技术细节。
模型大小:比较参数数量,了解它们如何平衡模型规模和性能。
创新点:重点关注每个模型的独特创新,如Llama 3.1的分组查询注意力机制。
性能评估:比较两个模型在各种基准测试中的表现,包括语言理解、生成任务等。
效率:分析推理速度、内存使用等计算效率指标。