来源于小红书博主:粽子
参考链接:
https://www.xiaohongshu.com/explore/69ae814d000000001d027463?xsec_token=AB9zjHNI_afIQGsbUelQdnk6UAJb9zEoUhAH879l3o4rQ=&xsec_source=pc_search&source=web_search_result_notes
https://www.xiaohongshu.com/explore/69b7b8630000000021010f11?xsec_token=ABiXb-0xGVcXu9ANW4sNcqGGM7gXc-bHONr3-q3zffYJ8=&xsec_source=pc_search&source=web_search_result_notes
最近的大模型面经-第一弹
整理了一下最近面试遇到的八股,一般都是聊项目串着聊八股。
RL:
- GSPO和GRPO的区别,GSPO和GRPO的gap怎么理解,实际训练的时候为什么GSPO效果比GRPO更优,这俩显存占用怎么样?
- PPO GRPO DPO的区别,实际工程里PPO GRPO DPO分别适合什么场景?各有什么问题
- GRPO和PPO是on-policy还是off-policy
- KL估计器K1 K2 K3
- 正向KL和反向 KL在大模型RL里有什么不同?为什么对齐几乎都用反向KL?
- GRPO为什么不需要单独训练奖励模型RM?它的奖励从哪来,如何调整GRPO的超参达到想要的效果?
- PPO的clip解决什么问题?不clip会怎样?
- 实际训练中,KL系数β太大 / 太小分别会出现什么现象
- PPO的loss包含哪些?如何考虑loss weight
- 介绍一下GAE,为什么λ经常设置成0.95?
DL:
- 梯度累计
- softmax的处理、safe softmax
- Adam优化器
- softmax 数值上溢 / 下溢原因,为什么attention要除以根号dk
- 梯度消失、梯度爆炸的原因与解决方案
infra:
- flash attention的原理,最近新出的flash attention有了解过吗
- verl中的hybridengine、auto mapping原理,最大的创新点是什么?
- DP PP TP的原理和使用场景,各个阶段怎么调整?
- FSDP、ZeRO1、2、3
- 能不能讲一下混合精度计算?什么阶段采用什么?
coding:
- MHA、GQA
- hot100原题
- 交叉熵损失
- softmax
面的多还是有好处的,感觉每场面试都能知道自己有哪方面不足还可以往哪继续改进
最近的大模型面经-第二弹
这一周面了好多,包括但不限于大厂基模组,大厂基模后训练组,大厂应用算法,中大厂infra,中厂Agentic RL,中厂开发
八股
RL:
- RL训练为什么会让seq_len变长
- 什么是on-policy distillation
- 训练中batchsize和minibatch是什么,怎么搭配seq_len进行计算?
- 讲一下forward KL和reverse KL
- 为什么RL要引入IR?目的是什么
- RL训练你一般看哪些指标?
- 什么是clamped entropy,一般怎么设置?
- 怎么避免entropy collapse
- 为什么Policy entropy是一个很重要的因素?
- 你在实际场景下是怎么判断出现了reward hacking,以及如何解决?
- GUI agent,Query对应的不同镜像不同拉取,怎么解决
- PPO DPO GRPO的优缺点以及改进点
- GRPO在dense和moe上表现如何,GSPO是怎么改进的?
- DAPO有了解过吗?六个改进点能说一下吗?
- 为什么Clip-higher有效
- 什么是Reference Free Alignment?KTO IPO了解吗
- Policy里的top_P top_K知道吗
其他:
- 讲一下最近新出的flashattention
- qwen2.5-VL到qwen3.5,每一代的模型架构是如何变化的?3.5为什么被称为原生多模态
- RMSnorm layernorm pre-norm post-norm
- RoPE 长文本外推失效的根本原因
- SwiGLU为什么能取代GeLU
- 为什么线性注意力能把复杂度降成O(n)
infra:
- vllm了解吗?什么是pagedattention,Continuous Batching
- 推理时出现重复生成、断句、卡顿,从KV Cache、attention、norm上怎么排查
- per-channel和per-token
手撕:
- MHA(一半的面试都给这个题)
- hot100原题
- GRPO loss