🍉
101N0301 MLP Python 核心代码（ pytorch 版）解读

飞书用户5190

飞书用户9737

飞书用户7387

飞书用户3422

2024年8月2日修改

作者：格陵兰岛的虎

原始代码仓库地址：https://github.com/EurekaLabsAI/mlp

中文版共建仓库地址：https://github.com/SmartFlowAI/LLM101n-CN/tree/master/mlp

代码目录结构树：

代码块

mlp​
|-- README.md​
|-- common.py​
|-- data​
|   |-- preprocess.py​
|   |-- test.txt​
|   |-- train.txt​
|   `-- val.txt​
|-- mlp_numpy.py​
`-- mlp_pytorch.py​

今天将和大家一起学习 LLM101n 课程中 MLP 部分的 Python 核心代码（pytorch版），即上面👆结构树中的 mlp_pytorch.py。大家可以使用git clone命令克隆好仓库，结合源代码和本解读一起食用更佳哦~​

📌

阅读 Tips：本文代码块的几乎每一句都有简短的注释哦~

代码解读

代码整体框架

如代码整体框架图所示，代码可以拆解为以下几个主要模块：​

common.docs_name - LarkCCM_Docs_Menu_Image

代码整体框架图

•
dataloader 模块：为模型的训练、验证和测试加载数据。​

•
模型定义模块：定义 MLP 模型，包括了使用nn.Module和 不使用nn.Module两种模型版本。在该模块下，使用了自定义的 RNG 随机数模块来进行模型参数的初始化。​

•
模型训练模块：使用训练集训练 NLP 模型。​

•
评估模块：评估模型表现。​

•
模型推理模块：进行前向推理。​

•
RNG 随机数模块：是一个自定义的随机数模块，用于控制随机数的生成和模型参数初始化，保证实验的重复性。​

下面，我们将从这些模块的基础上出发解读代码。

注：使用到的第三方库：math、time、torch

dataloader

定义了一个名为 dataloader 的函数，其接受三个参数：

•
tokens：一个包含所有 token 的列表或数组。​

•
context_length：上下文的长度，即每次输入的 token 数量。​

•
batch_size：每个批次的大小。​

其定义代码如下：

代码块

def dataloader(tokens, context_length, batch_size):​
    # returns inputs, targets as torch Tensors of shape (B, T), (B, )​
    n = len(tokens) # 计算 tokens 的长度 n，用于后续的遍历。​
    inputs, targets = [], [] # 创建空的列表 inputs 和 targets 用于存储输入数据和目标数据。​
    pos = 0 # 定义 pos 变量，表示当前窗口的起始位置。​
    while True: # 进入一个 while 循环，用于不断生成批次数据。​
        # simple sliding window over the tokens, of size context_length + 1​
        window = tokens[pos:pos + context_length + 1] # 取从当前 pos 开始的 context_length + 1 个 token 作为窗口。​
        inputs.append(window[:-1]) # 取窗口中的前 context_length 个 token 作为输入，并将它们添加到 inputs 列表中。​
        targets.append(window[-1]) # 取窗口中的最后一个 token 作为目标，并将它添加到 targets 列表中。​
        # once we've collected a batch, emit it​
        if len(inputs) == batch_size: # 当 inputs 列表的长度等于 batch_size 时，生成当前批次的输入和目标张量。​
            yield (torch.tensor(inputs), torch.tensor(targets)) # 使用 yield 关键字返回它们。此时 dataloader 函数成为一个生成器，能够在训练过程中按需提供数据。​
            inputs, targets = [], [] # 重置 inputs 和 targets 列表以收集下一个批次的数据。​
        # advance the position and wrap around if we reach the end​
        pos += 1 # 将 pos 前移一个 token。​
        if pos + context_length >= n: # 如果 pos 加上 context_length 超出了 tokens 的长度，则将 pos 重置为 0，从头开始循环。​
            pos = 0​