原文链接:
https://www.xiaohongshu.com/explore/6965f451000000000b0138db?xsec_token=AB5SxP_VrgJrHJhjFJbHNvfVOsYxbyiN4tx8_LbVaQXN4=&xsec_source=pc_search&source=web_search_result_notes
大模型算法八股框架整理
一、基础
- KL散度、交叉熵、两者关系
- 大模型中的幻觉、复读机等现象的成因与解决方法
- 为什么使用decoder-only架构
- 梯度爆炸、梯度消失、梯度饱和现象、成因和解决办法
- GPT、BERT、CLIP、Llama
- Python进程/线程/协程、GIL锁、异步计数器、async
- SGD优化器、Momentum、Adam、AdamW、Muon
- 深拷贝浅拷贝
- 智能指针
- 为什么大模型选用交叉熵损失
- 为什么回归用MSE,分类用交叉熵
二、训练推理加速
1. 推理优化
- 推理框架vLLM:Paged Attention、continuous batching
- KV Cache
- Prefill & Decode
- 梯度检查点 & 梯度累计
2. 训练/模型优化
- 训练框架Megatron-LM:数据并行(DP/DDP)、流水线并行、张量并行、混合精度训练(三种并行的应用场景以及嵌套逻辑)
- 训练框架DeepSpeed:ZeRO
- 并行节点通信方式:Broadcast、Reduce、AllReduce、AllGather、Reduce-Scatter等
- FlashAttention
- MQA、GQA、MLA
3. 模型训练和推理显存需求分析
三、Transformer内部
1. Norm归一化(内部协变量偏移、稳定训练)
- Pre-norm、post-norm、deep-norm
- BatchNorm、LayerNorm、RMSNorm(可学习参数的作用,在哪个维度做归一化、为什么使用LayerNorm、训练和推理时的行为有什么不同)
- 为什么现在大模型都使用RMSNorm(降低计算量,偏移自带隐含信息,经过softmax近似归一化)
2. 激活函数
- sigmoid、tanh、ReLU、LeakyReLU、GELU、GLU、Swish、SwiGLU
3. 位置编码
- 正余弦、可学习的位置编码、RoPE、ALiBi
4. 其他
- 为什么除以根号dk
- Encoder:多头注意力;Decoder:因果掩码注意力 + CrossAttention(En提供KV,De提供Q)
- 为什么要分为QKV三个矩阵
- dropout训练和推理时的行为区别
四、强化学习
Value-based
- 蒙特卡洛法
- SARSA
- 时序差分法
- Q-learning
- DQN
Policy-based
- REINFORCE
- Actor-Critic
- TRPO
- PPO
- GRPO
- DAPO
- GSPO
其他关键概念
- 模态/熵坍塌问题:KL散度、Clip-Cov、KL-Cov(对协方差高、优势高确定性概率也大的token做梯度裁剪或KL散度限制)、Clip-Higher(提升概率小但分数高的回答的概率)
- Reward hacking
- 对比DPO/PPO/GRPO,为什么选用PPO等
- online/offline强化学习,on-policy还是off-policy
- DPO为什么会出现损失下降但性能没有提升