13 小红书大模型算法面经

参考链接：

https://www.xiaohongshu.com/explore/69d8c35c000000001d01c6f2?xsec_token=ABXUBOFfR0YE-a6P5Qz1iKY04Rqu7pxXA4Z7yK4mJCLZA=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69b4c4130000000020038745?xsec_token=ABo_-ez86XF2EZ348CoXw9DIkZ6UlvJIsc2pWef0T6Fr0=&xsec_source=pc_search&source=web_search_result_notes

小红书基座大模型后训练面经

跟面试官聊得很开心，给我出的手撕很简单。

xhs的面试官是唯一不是小同行还能在短短几分钟内理解我的论文的人，强得可怕。

由于大部分时间在讨论论文，所以没怎么问八股。

一面

讨论论文
在有多约束最大化问题上，如何通过reward的改进来让模型知道约束的存在
有没有多机多卡训练经验
介绍一下GRPO是怎么做的，好在哪里，差在哪里，原因是什么?
了不了解GRPO的一些改进算法
讲讲DAPO做了什么改进，为什么要这么改进？
有用过什么大模型训练框架吗？讲讲llama factory中的dataset_info
代码：全排列

二面

讨论论文，要求讲解论文在做一个什么样的问题，别人的工作怎么做的，不好在哪，你的工作是如何解决的
大模型训练中会有dropout吗？为什么
有没有多机多卡训练经验
有没有做过一些大模型的sft和rl的工作
注意力机制的公式
为什么注意力机制要除以d_k
了解我们部门是做什么的吗？希望来做什么样的工作
代码：写一个多头注意力

小红书算法岗面经，已OC

个人感觉面试挺好的，手撕代码都是力扣hot 100的原题

LLaMA 相比原始 Transformer 架构有哪些改进？
微调（Fine-tuning）和对齐（Alignment）的区别？
模型微调到什么程度才需要进行对齐？
四种对齐算法的区别：PPO、DPO、GRPO、DSPO？
位置编码的作用？为什么相对位置编码通常比绝对位置编码更好？
GAE（Generalized Advantage Estimation）以及重要性采样（Importance Sampling）？
损失采样（Loss Sampling）相关问题？
目前了解哪些大模型架构？例如 LLaMA 等。
是否了解 PagedAttention？
LoRA 中两个低秩矩阵是如何初始化的？
PPO 中的四种模型分别是什么？各自的作用是什么？

算法面试问题里一般都会涉及一些八股，临场发挥的思路总不如提前准备来得清楚。现在大家分享的面经也都比较全了，可以多看一看提前准备。有些实习还需要笔试和手撕，如果对岗位侧重不太熟悉的，可以提前练一练题。这些题看着也都挺精华的，可以练练手。