分享
设计需求
输入“/”快速插入内容
设计需求
用户1672
用户9737
2024年7月18日修改
画板
主课程大纲
•
Bigram Language Model
(language modeling)
•
Micrograd
机器学习,反向传播
•
N-gram模型(多层感知机、matmul、gelu)
•
注意力机制(注意力机制、softmax、位置编码器)
•
Transformer (Transformer,残差,layernorm, GPT-2)
•
Tokenization
(minBPE,字节对编码)
•
Optimization
(initialization, optimization, AdamW)
•
Need for Speed I
(设备、CPU、GPU)
•
Need for Speed II: Precision
(mixed precision training, fp16, bf16, fp8, ...)
•
Need for Speed III: Distributed
(distributed optimization, DDP, ZeRO)
•
数据集(数据集、数据加载、合成数据生成)
•
模型推理一:kv-cache (kv-cache)
•
模型推理二:量化(量化)
•
微调一: SFT
(supervised finetuning SFT, PEFT, LoRA, chat)
•
微调二: RL
(reinforcement learning, RLHF, PPO, DPO)
•
部署 (API, Web 应用)
•
多模态
(VQVAE, diffusion transformer)
Appendix
附录
在上述进展中需要进一步研究的主题:
•
编程语言:汇编、C、Python
•
数据类型:整数、浮点数、字符串(ASCII、Unicode、UTF-8)
•
Tensor: shapes, views, strides, contiguous
•
深度学习框架:PyTorch, JAX
•
神经网络架构:GPT (1,2,3,4), Llama (RoPE, RMSNorm, GQA), MoE
•
多模态:图像,音频,视频,VQVAE, VQGAN,扩散