原文链接：

https://www.xiaohongshu.com/explore/6965f451000000000b0138db?xsec_token=AB5SxP_VrgJrHJhjFJbHNvfVOsYxbyiN4tx8_LbVaQXN4=&xsec_source=pc_search&source=web_search_result_notes

大模型算法八股框架整理

一、基础

KL散度、交叉熵、两者关系
大模型中的幻觉、复读机等现象的成因与解决方法
为什么使用decoder-only架构
梯度爆炸、梯度消失、梯度饱和现象、成因和解决办法
GPT、BERT、CLIP、Llama
Python进程/线程/协程、GIL锁、异步计数器、async
SGD优化器、Momentum、Adam、AdamW、Muon
深拷贝浅拷贝
智能指针
为什么大模型选用交叉熵损失
为什么回归用MSE，分类用交叉熵

二、训练推理加速

1. 推理优化

推理框架vLLM：Paged Attention、continuous batching
KV Cache
Prefill & Decode
梯度检查点 & 梯度累计

2. 训练/模型优化

训练框架Megatron-LM：数据并行（DP/DDP）、流水线并行、张量并行、混合精度训练（三种并行的应用场景以及嵌套逻辑）
训练框架DeepSpeed：ZeRO
并行节点通信方式：Broadcast、Reduce、AllReduce、AllGather、Reduce-Scatter等
FlashAttention
MQA、GQA、MLA

3. 模型训练和推理显存需求分析

三、Transformer内部

1. Norm归一化（内部协变量偏移、稳定训练）

Pre-norm、post-norm、deep-norm
BatchNorm、LayerNorm、RMSNorm（可学习参数的作用，在哪个维度做归一化、为什么使用LayerNorm、训练和推理时的行为有什么不同）
为什么现在大模型都使用RMSNorm（降低计算量，偏移自带隐含信息，经过softmax近似归一化）

2. 激活函数

sigmoid、tanh、ReLU、LeakyReLU、GELU、GLU、Swish、SwiGLU

3. 位置编码

正余弦、可学习的位置编码、RoPE、ALiBi

4. 其他

为什么除以根号dk
Encoder：多头注意力；Decoder：因果掩码注意力 + CrossAttention（En提供KV，De提供Q）
为什么要分为QKV三个矩阵
dropout训练和推理时的行为区别

四、强化学习

Value-based

蒙特卡洛法
SARSA
时序差分法
Q-learning
DQN

Policy-based

REINFORCE
Actor-Critic
TRPO
PPO
GRPO
DAPO
GSPO

其他关键概念

模态/熵坍塌问题：KL散度、Clip-Cov、KL-Cov（对协方差高、优势高确定性概率也大的token做梯度裁剪或KL散度限制）、Clip-Higher（提升概率小但分数高的回答的概率）
Reward hacking
对比DPO/PPO/GRPO，为什么选用PPO等
online/offline强化学习，on-policy还是off-policy
DPO为什么会出现损失下降但性能没有提升