自然语言处理(Natural Language Processing, NLP)是涉及计算语言学(Computational Linguistics)、计算机科学与工程(Computer Science and Engineering)与人工智能(Artificial Intelligence)的一个跨学科领域,主要研究如何利用计算机程序对海量的自然语言信息进行高效的处理与分析,以及如何实现计算机与人类自然语言之间的有效互动。
大致地讲,自然语言处理分为自然语言理解(Natural Language Understanding, NLU)、自然语言转换(Natural Language Transformation, NLT)和自然语言生成(Natural Language Generation, NLG)这些领域。
注:我们将会看到,上面的三类自然语言处理任务刚好分别对应了三类Transformer架构:NLU任务适合仅编码器式的(encoder-only),例如BERT(Bidirectional Encoder Representation of Transformer),它们是对自然语言理解深刻的“评论家”;NLT任务适合编码器-解码器式的(encoder-decoder),例如T5(Text-to-Text Transfer Transformer),它们是能熟练进行序列到序列(seq2seq)转换的“翻译家”;NLG任务仅解码器式的(decoder-only),例如GPT(Generative Pretrained Transformer),它们是充满创意的“作家”。