跳转至

来源于小红书博主:粽子

参考链接:

https://www.xiaohongshu.com/explore/69ae814d000000001d027463?xsec_token=AB9zjHNI_afIQGsbUelQdnk6UAJb9zEoUhAH879l3o4rQ=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69b7b8630000000021010f11?xsec_token=ABiXb-0xGVcXu9ANW4sNcqGGM7gXc-bHONr3-q3zffYJ8=&xsec_source=pc_search&source=web_search_result_notes

最近的大模型面经-第一弹

整理了一下最近面试遇到的八股,一般都是聊项目串着聊八股。

RL:

  1. GSPO和GRPO的区别,GSPO和GRPO的gap怎么理解,实际训练的时候为什么GSPO效果比GRPO更优,这俩显存占用怎么样?
  2. PPO GRPO DPO的区别,实际工程里PPO GRPO DPO分别适合什么场景?各有什么问题
  3. GRPO和PPO是on-policy还是off-policy
  4. KL估计器K1 K2 K3
  5. 正向KL和反向 KL在大模型RL里有什么不同?为什么对齐几乎都用反向KL?
  6. GRPO为什么不需要单独训练奖励模型RM?它的奖励从哪来,如何调整GRPO的超参达到想要的效果?
  7. PPO的clip解决什么问题?不clip会怎样?
  8. 实际训练中,KL系数β太大 / 太小分别会出现什么现象
  9. PPO的loss包含哪些?如何考虑loss weight
  10. 介绍一下GAE,为什么λ经常设置成0.95?

DL:

  1. 梯度累计
  2. softmax的处理、safe softmax
  3. Adam优化器
  4. softmax 数值上溢 / 下溢原因,为什么attention要除以根号dk
  5. 梯度消失、梯度爆炸的原因与解决方案

infra:

  1. flash attention的原理,最近新出的flash attention有了解过吗
  2. verl中的hybridengine、auto mapping原理,最大的创新点是什么?
  3. DP PP TP的原理和使用场景,各个阶段怎么调整?
  4. FSDP、ZeRO1、2、3
  5. 能不能讲一下混合精度计算?什么阶段采用什么?

coding:

  1. MHA、GQA
  2. hot100原题
  3. 交叉熵损失
  4. softmax

面的多还是有好处的,感觉每场面试都能知道自己有哪方面不足还可以往哪继续改进

最近的大模型面经-第二弹

这一周面了好多,包括但不限于大厂基模组,大厂基模后训练组,大厂应用算法,中大厂infra,中厂Agentic RL,中厂开发

八股

RL:

  1. RL训练为什么会让seq_len变长
  2. 什么是on-policy distillation
  3. 训练中batchsize和minibatch是什么,怎么搭配seq_len进行计算?
  4. 讲一下forward KL和reverse KL
  5. 为什么RL要引入IR?目的是什么
  6. RL训练你一般看哪些指标?
  7. 什么是clamped entropy,一般怎么设置?
  8. 怎么避免entropy collapse
  9. 为什么Policy entropy是一个很重要的因素?
  10. 你在实际场景下是怎么判断出现了reward hacking,以及如何解决?
  11. GUI agent,Query对应的不同镜像不同拉取,怎么解决
  12. PPO DPO GRPO的优缺点以及改进点
  13. GRPO在dense和moe上表现如何,GSPO是怎么改进的?
  14. DAPO有了解过吗?六个改进点能说一下吗?
  15. 为什么Clip-higher有效
  16. 什么是Reference Free Alignment?KTO IPO了解吗
  17. Policy里的top_P top_K知道吗

其他:

  1. 讲一下最近新出的flashattention
  2. qwen2.5-VL到qwen3.5,每一代的模型架构是如何变化的?3.5为什么被称为原生多模态
  3. RMSnorm layernorm pre-norm post-norm
  4. RoPE 长文本外推失效的根本原因
  5. SwiGLU为什么能取代GeLU
  6. 为什么线性注意力能把复杂度降成O(n)

infra:

  1. vllm了解吗?什么是pagedattention,Continuous Batching
  2. 推理时出现重复生成、断句、卡顿,从KV Cache、attention、norm上怎么排查
  3. per-channel和per-token

手撕:

  1. MHA(一半的面试都给这个题)
  2. hot100原题
  3. GRPO loss