Llama 3.1 小圆桌

用户1672

用户1223

2024年7月26日修改

会议时间：本周五 8 点

#腾讯会议：270-127-890

1.
资料​

2.
讨论话题​

•
如何体验 Llama 3.1 的原生 Function Calling 能力？​

•
为什么 Llama 3 依然选择的 Dense 模型，非 MoE 架构？​

•
用 405B 的模型造数据会不会违反开源协议？​

•
72 页的技术报告都写了啥？​

•
llama3.1 使用 DPO 对齐人类偏好, 为什么还需要奖励建模?​

•
......​

3.
浦语工具链玩转 Llama 3.1​

浦语工具链玩转 Llama 3.1

4.
一些疑问​

1) Llama 3.1 405B VS IntermLM2.5 VS Mistral Large 2 123B

模型架构：比较两个模型的基本架构，如transformer层数、注意力机制的类型等。​

训练数据：分析两个模型使用的训练数据的规模、来源和预处理方法。​

训练策略：对比他们的训练方法，包括优化器选择、学习率调度、梯度裁剪等技术细节。​

模型大小：比较参数数量，了解它们如何平衡模型规模和性能。​

创新点：重点关注每个模型的独特创新，如Llama 3.1的分组查询注意力机制。​

性能评估：比较两个模型在各种基准测试中的表现，包括语言理解、生成任务等。​

效率：分析推理速度、内存使用等计算效率指标。

Llama 3.1 小圆桌​