Post-training (RLHF, SFT, DPO)

输入“/”快速插入内容

Post-training (RLHF, SFT, DPO)

用户5190

2024年7月30日修改

建议阅读：

1.

调整语言模型以遵循指令

2.

扩展指令微调语言模型

3.

AlpacaFarm：一种从人类反馈中学习的方法的模拟框架

4.

骆驼能走多远？探索开放资源上的指令调整状态

5.

直接偏好优化：你的语言模型其实是一个奖励模型