👍
InternLM2 技术报告

用户1672

用户9799

用户2000

用户9572

用户8611

2024年3月28日创建

7654

论文地址：https://arxiv.org/pdf/2403.17297.pdf

社区圆桌时间：4 月 6 日 20:00

腾讯会议：985-315-617

欢迎大家社区小伙伴加入一起进一步的翻译和润色！！！

common.docs_name - LarkCCM_Docs_Menu_Image

加入飞书群，获取本文档的编辑权限，一起来润色文档~

中英对照版

摘要

大型语言模型（LLMs）如ChatGPT和GPT-4的发展引发了关于通用人工智能（AGI）来临的讨论。然而，将这样的进步应用到开源模型中一直颇具挑战。本文介绍InternLM2，一个开源的大语言模型，它在6个维度和30个基准的全面评估中超越了其前身，特别是在长序列建模和开放性主观评估方面，通过创新的预训练和优化技术实现了这一突破。InternLM2详细阐述了预训练过程中各类数据的准备，包括文本、代码和长文本数据。InternLM2有效地捕捉长期依赖性，预训练阶段从4k个token开始，然后扩展到32k个token，其在200k个“大海捞针”测试中的表现优异。InternLM2还通过监督微调（SFT）和一种基于人类反馈的新型条件在线强化学习方法（COOL RLHF）策略进行进一步校准，以解决人类偏好冲突和奖励策略滥用问题。我们通过发布不同训练阶段和模型大小的InternLM2，为社区提供了模型演进的洞察。  ​

1.
介绍​

自从ChatGPT和GPT-4的出现以来 (OpenAI, 2023)，大语言模型（LLMs）在学术界和工业界迅速走红。训练在数十亿令牌上的模型展现了深刻的情感理解和问题解决能力，引发了人们猜测通用人工智能（AGI）时代即将到来。尽管如此，开发出与ChatGPT或GPT-4相当能力的模型的道路仍然模糊不清。开源社区正在努力缩小专有LLM与开源模型之间的差距。在过去的一年里，如LLaMA (Touvron et al., 2023a;b)、Qwen (Bai et al., 2023a)、Mistral (Jiang et al., 2023)和Deepseek (Bi et al., 2024)等一些显著的开源大语言模型取得了显著进步。在这篇论文中，我们介绍了InternLM2，这是一个超越上述模型的新大型语言模型。

大语言模型的发展包括预训练、监督微调（SFT）和基于人类反馈的强化学习（RLHF）等主要阶段 (Ouyang et al., 2022)。预训练主要基于利用大量的自然文本语料库，积累数万亿的token。这个阶段的目标是为大语言模型配备广泛的知识库和基本技能。预训练阶段的数据质量被认为是最重要的因素。然而，过去关于大语言模型的技术报告 (Touvron et al., 2023a;b; Bai etal., 2023a; Bi et al., 2024)很少关注预训练数据的处理。InternLM2详细描述了如何为预训练准备文本、代码和长文本数据。

如何有效地延长大语言模型的上下文长度目前是研究的热点，因为许多下游应用，如检索增强生成（RAG） (Gao et al., 2023)和代理模型 (Xi et al., 2023)，依赖于长上下文。InternLM2首先采用分组查询注意力（GQA）来在推断长序列时减少内存占用。在预训练阶段，我们首先使用4k个上下文文本训练InternLM2，然后将训练语料库过渡到高质量的32k文本进行进一步训练。最终，通过位置编码外推 (LocalLLaMA, 2023)，InternLM2在200k个上下文中通过了“大海捞针”测试，表现出色。

预训练后，我们使用监督微调（SFT）和基于人类反馈的强化学习（RLHF）来确保模型能很好地遵循人类指令并符合人类价值观。我们还在此过程中构建了相应的32k数据，以进一步提升InternLM2的长上下文处理能力。此外，我们引入了条件在线的RLHF（COOL RLHF），它采用条件奖励模型来协调多样但可能冲突的偏好，并通过多轮近端策略优化（Proximal Policy Optimization, PPO）来减少每个阶段出现的奖励滥用问题。为了向社区阐明RLHF的影响，我们还发布了前后RLHF两个阶段的模型，分别命名为InternLM2-Chat-{size}-SFT和InternLM2-Chat-{size}。（这里的size为模型大小）​

我们的贡献有两个方面，不仅体现在模型在各种基准测试中的卓越性能，还体现在我们在不同发展阶段全面开发模型的方法。关键点包括​

1.
开源InternLM2模型展现卓越性能: 我们已经开源了不同规模的模型包括1.8B、7B和20B，它们在主观和客观评估中都表现出色。此外，我们还发布了不同阶段的模型，以促进社区分析SFT和RLHF训练后的变化。​

2.
设计带有200k上下文窗口: InternLM2在长序列任务中表现出色，在带有200k上下文的“大海捞针”实验中，几乎完美地识别出所有的“针”。此外，我们提供了所有阶段包括预训练、SFT和RLHF的长文本语言模型的经验。​

3.
综合数据准备指导: 我们详细阐述了为大语言模型（LLM）准备数据的方法，包括预训练数据、特定领域增强数据、监督微调（SFT）和基于人类监督的强化学习（RLHF）数据。这些细节将有助于社区更好地训练LLM。​

4.
创新的RLHF训练技术: 我们引入了条件在线RLHF（COOL RLHF）来调整各种偏好，显著提高了InternLM2在各种主观对话评估中的表现。我们还对RLHF的主观和客观结果进行了初步分析和比较，为社区提供对RLHF的深入理解。​

2.
基础设施​

在这一部分中，我们介绍了在预训练、SFT 和 RLHF 中使用的训练框架 InternEvo。​

2.1 InternEvo

我们使用高效的轻量级预训练框架InternEvo进行模型训练。这个框架使得我们能够在数千个GPU上扩展模型训练。它通过数据、张量、序列和管道并行技术来实现这一点。为了进一步提高GPU内存效率，InternEvo集成了各种Zero Redundancy Optimizer (Rajbhandari et al., 2020) 策略，显著减少了训练所需的内存占用。此外，为了提高硬件利用率，我们还引入了FlashAttention技术（Dao, 2023）和混合精度训练，使用BF16。

当在数千个GPU上训练InternLM时，InternEvo展现出强大的扩展性能。如图1所示，当使用8个GPU，全局批次大小为400万个令牌训练InternLM-7B时，InternEvo实现了64%的模型计算量利用率（MFU）。当扩展到1024个GPU时，尽管保持相同的全局批次大小， InternEvo仍能维持惊人的53% MFU。这种级别的扩展性能尤其具有挑战性，因为批次大小保持不变，而随着GPU数量的增加，计算与通信的比例会降低。相比之下，DeepSpeed在使用ZeRO-1和MiCS在1024个GPU上训练InternLM-7B时，只能达到大约36%的MFU。

InternEvo在序列长度方面也表现出强大的扩展性， 支持训练不同规模的LLM， 例如在256,000个令牌的序列长度下训练InternLM-7B， 可以达到接近88%的MFU。 相比之下，DeepSpeed-Ulysses和Megatron-LM只能达到大约65%的MFU。对于更大规模的LLM， 如300亿或700亿参数的模型，训练性能的提升也同样明显。 ​