预训练后,我们使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来确保模型能很好地遵循人类指令并符合人类价值观。我们还在此过程中构建了相应的32k数据,以进一步提升InternLM2的长上下文处理能力。此外,我们引入了条件在线的RLHF(COOL RLHF),它采用条件奖励模型来协调多样但可能冲突的偏好,并通过多轮近端策略优化(Proximal Policy Optimization, PPO)来减少每个阶段出现的奖励滥用问题。为了向社区阐明RLHF的影响,我们还发布了前后RLHF两个阶段的模型,分别命名为InternLM2-Chat-{size}-SFT和InternLM2-Chat-{size}。(这里的size为模型大小)