来源于小红书博主：粽子

参考链接：

https://www.xiaohongshu.com/explore/69ae814d000000001d027463?xsec_token=AB9zjHNI_afIQGsbUelQdnk6UAJb9zEoUhAH879l3o4rQ=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69b7b8630000000021010f11?xsec_token=ABiXb-0xGVcXu9ANW4sNcqGGM7gXc-bHONr3-q3zffYJ8=&xsec_source=pc_search&source=web_search_result_notes

最近的大模型面经-第一弹

整理了一下最近面试遇到的八股，一般都是聊项目串着聊八股。

RL：

GSPO和GRPO的区别，GSPO和GRPO的gap怎么理解，实际训练的时候为什么GSPO效果比GRPO更优，这俩显存占用怎么样？
PPO GRPO DPO的区别，实际工程里PPO GRPO DPO分别适合什么场景？各有什么问题
GRPO和PPO是on-policy还是off-policy
KL估计器K1 K2 K3
正向KL和反向 KL在大模型RL里有什么不同？为什么对齐几乎都用反向KL？
GRPO为什么不需要单独训练奖励模型RM？它的奖励从哪来，如何调整GRPO的超参达到想要的效果？
PPO的clip解决什么问题？不clip会怎样？
实际训练中，KL系数β太大 / 太小分别会出现什么现象
PPO的loss包含哪些？如何考虑loss weight
介绍一下GAE，为什么λ经常设置成0.95？

DL：

梯度累计
softmax的处理、safe softmax
Adam优化器
softmax 数值上溢 / 下溢原因，为什么attention要除以根号dk
梯度消失、梯度爆炸的原因与解决方案

infra:

flash attention的原理，最近新出的flash attention有了解过吗
verl中的hybridengine、auto mapping原理，最大的创新点是什么？
DP PP TP的原理和使用场景，各个阶段怎么调整？
FSDP、ZeRO1、2、3
能不能讲一下混合精度计算？什么阶段采用什么？

coding：

MHA、GQA
hot100原题
交叉熵损失
softmax

面的多还是有好处的，感觉每场面试都能知道自己有哪方面不足还可以往哪继续改进

最近的大模型面经-第二弹

这一周面了好多，包括但不限于大厂基模组，大厂基模后训练组，大厂应用算法，中大厂infra，中厂Agentic RL，中厂开发

八股

RL：

RL训练为什么会让seq_len变长
什么是on-policy distillation
训练中batchsize和minibatch是什么，怎么搭配seq_len进行计算？
讲一下forward KL和reverse KL
为什么RL要引入IR？目的是什么
RL训练你一般看哪些指标？
什么是clamped entropy，一般怎么设置？
怎么避免entropy collapse
为什么Policy entropy是一个很重要的因素？
你在实际场景下是怎么判断出现了reward hacking，以及如何解决？
GUI agent，Query对应的不同镜像不同拉取，怎么解决
PPO DPO GRPO的优缺点以及改进点
GRPO在dense和moe上表现如何,GSPO是怎么改进的?
DAPO有了解过吗?六个改进点能说一下吗?
为什么Clip-higher有效
什么是Reference Free Alignment?KTO IPO了解吗
Policy里的top_P top_K知道吗

其他:

讲一下最近新出的flashattention
qwen2.5-VL到qwen3.5，每一代的模型架构是如何变化的？3.5为什么被称为原生多模态
RMSnorm layernorm pre-norm post-norm
RoPE 长文本外推失效的根本原因
SwiGLU为什么能取代GeLU
为什么线性注意力能把复杂度降成O(n)

infra:

vllm了解吗?什么是pagedattention,Continuous Batching
推理时出现重复生成、断句、卡顿，从KV Cache、attention、norm上怎么排查
per-channel和per-token

手撕:

MHA(一半的面试都给这个题)
hot100原题
GRPO loss