分享
Post-training (RLHF, SFT, DPO)
输入“/”快速插入内容
Post-training (RLHF, SFT, DPO)
用户5190
用户5190
2024年7月30日修改
[
幻灯片
]
建议阅读:
1.
调整语言模型以遵循指令
2.
扩展指令微调语言模型
3.
AlpacaFarm:一种从人类反馈中学习的方法的模拟框架
4.
骆驼能走多远?探索开放资源上的指令调整状态
5.
直接偏好优化:你的语言模型其实是一个奖励模型