大语言模型(large language models, LLM)是指参数量巨大的语言模型。广义上讲,1.1节提到的encoder-only架构的BERT,encoder-decoder架构的T5和decoder-only架构的GPT,它们都是大模型,例如BERT-base有1.1亿参数;狭义上指的是“生成式大模型”要求至少含有decoder,则不包括BERT族。
大模型与传统NLP的区别
大模型与传统NLP的区别在于大模型的泛化性和通用性更强,更加接近通用人工智能(artificial general intelligence, AGI)。我们不需要为不同的NLP任务选择不同的模型,一个大模型可以做许多事情。正如1.1节提到的,BERT可以用作许多自然语言理解(NLU)任务的训练;而decoder-only架构的GPT的泛化性的表现则更加直接:如OpenAI的论文所述,“大语言模型是少样本学习器(LLMs are few shot learners)”,用户只需要在提示词(prompt)中给出少量相关例子,大模型就能“现学现卖”,回答新的问题。
直觉来讲,参数量越大的模型,下游任务微调起来的计算成本越高。例如decoder-only的大模型,在预训练阶段之后还需要进行有监督微调(supervised fine tuning, SFT),来增强它的指令遵循和agent能力;随后还需要进行基于人类反馈的强化学习(reinforcement learning with human feedback, RLHF),来使得大模型和人类伦理对齐。每一步都要消耗大量的人力物力。