分享
DPO 之后的生活
输入“/”快速插入内容
DPO 之后的生活
用户5190
2024年7月22日修改
[
幻灯片
]
建议阅读:
1.
RewardBench:评估语言建模的奖励模型
2.
D2PO:具有响应评估模型的判别器引导 DPO
3.
人工智能协同的社会选择:处理不同的人类反馈