跳转至

原文链接:

https://www.xiaohongshu.com/explore/6965f451000000000b0138db?xsec_token=AB5SxP_VrgJrHJhjFJbHNvfVOsYxbyiN4tx8_LbVaQXN4=&xsec_source=pc_search&source=web_search_result_notes


大模型算法八股框架整理

一、基础

  • KL散度、交叉熵、两者关系
  • 大模型中的幻觉、复读机等现象的成因与解决方法
  • 为什么使用decoder-only架构
  • 梯度爆炸、梯度消失、梯度饱和现象、成因和解决办法
  • GPT、BERT、CLIP、Llama
  • Python进程/线程/协程、GIL锁、异步计数器、async
  • SGD优化器、Momentum、Adam、AdamW、Muon
  • 深拷贝浅拷贝
  • 智能指针
  • 为什么大模型选用交叉熵损失
  • 为什么回归用MSE,分类用交叉熵

二、训练推理加速

1. 推理优化

  • 推理框架vLLM:Paged Attention、continuous batching
  • KV Cache
  • Prefill & Decode
  • 梯度检查点 & 梯度累计

2. 训练/模型优化

  • 训练框架Megatron-LM:数据并行(DP/DDP)、流水线并行、张量并行、混合精度训练(三种并行的应用场景以及嵌套逻辑)
  • 训练框架DeepSpeed:ZeRO
  • 并行节点通信方式:Broadcast、Reduce、AllReduce、AllGather、Reduce-Scatter等
  • FlashAttention
  • MQA、GQA、MLA

3. 模型训练和推理显存需求分析


三、Transformer内部

1. Norm归一化(内部协变量偏移、稳定训练)

  • Pre-norm、post-norm、deep-norm
  • BatchNorm、LayerNorm、RMSNorm(可学习参数的作用,在哪个维度做归一化、为什么使用LayerNorm、训练和推理时的行为有什么不同)
  • 为什么现在大模型都使用RMSNorm(降低计算量,偏移自带隐含信息,经过softmax近似归一化)

2. 激活函数

  • sigmoid、tanh、ReLU、LeakyReLU、GELU、GLU、Swish、SwiGLU

3. 位置编码

  • 正余弦、可学习的位置编码、RoPE、ALiBi

4. 其他

  • 为什么除以根号dk
  • Encoder:多头注意力;Decoder:因果掩码注意力 + CrossAttention(En提供KV,De提供Q)
  • 为什么要分为QKV三个矩阵
  • dropout训练和推理时的行为区别

四、强化学习

Value-based

  • 蒙特卡洛法
  • SARSA
  • 时序差分法
  • Q-learning
  • DQN

Policy-based

  • REINFORCE
  • Actor-Critic
  • TRPO
  • PPO
  • GRPO
  • DAPO
  • GSPO

其他关键概念

  • 模态/熵坍塌问题:KL散度、Clip-Cov、KL-Cov(对协方差高、优势高确定性概率也大的token做梯度裁剪或KL散度限制)、Clip-Higher(提升概率小但分数高的回答的概率)
  • Reward hacking
  • 对比DPO/PPO/GRPO,为什么选用PPO等
  • online/offline强化学习,on-policy还是off-policy
  • DPO为什么会出现损失下降但性能没有提升