13 小红书大模型算法面经
参考链接:
https://www.xiaohongshu.com/explore/69d8c35c000000001d01c6f2?xsec_token=ABXUBOFfR0YE-a6P5Qz1iKY04Rqu7pxXA4Z7yK4mJCLZA=&xsec_source=pc_search&source=web_search_result_notes
https://www.xiaohongshu.com/explore/69b4c4130000000020038745?xsec_token=ABo_-ez86XF2EZ348CoXw9DIkZ6UlvJIsc2pWef0T6Fr0=&xsec_source=pc_search&source=web_search_result_notes
小红书基座大模型后训练面经
跟面试官聊得很开心,给我出的手撕很简单。
xhs的面试官是唯一不是小同行还能在短短几分钟内理解我的论文的人,强得可怕。
由于大部分时间在讨论论文,所以没怎么问八股。
一面
- 讨论论文
- 在有多约束最大化问题上,如何通过reward的改进来让模型知道约束的存在
- 有没有多机多卡训练经验
- 介绍一下GRPO是怎么做的,好在哪里,差在哪里,原因是什么?
- 了不了解GRPO的一些改进算法
- 讲讲DAPO做了什么改进,为什么要这么改进?
- 有用过什么大模型训练框架吗?讲讲llama factory中的dataset_info
- 代码:全排列
二面
- 讨论论文,要求讲解论文在做一个什么样的问题,别人的工作怎么做的,不好在哪,你的工作是如何解决的
- 大模型训练中会有dropout吗?为什么
- 有没有多机多卡训练经验
- 有没有做过一些大模型的sft和rl的工作
- 注意力机制的公式
- 为什么注意力机制要除以d_k
- 了解我们部门是做什么的吗?希望来做什么样的工作
- 代码:写一个多头注意力
小红书算法岗面经,已OC
个人感觉面试挺好的,手撕代码都是力扣hot 100的原题
- LLaMA 相比原始 Transformer 架构有哪些改进?
- 微调(Fine-tuning)和对齐(Alignment)的区别?
- 模型微调到什么程度才需要进行对齐?
- 四种对齐算法的区别:PPO、DPO、GRPO、DSPO?
- 位置编码的作用?为什么相对位置编码通常比绝对位置编码更好?
- GAE(Generalized Advantage Estimation)以及重要性采样(Importance Sampling)?
- 损失采样(Loss Sampling)相关问题?
- 目前了解哪些大模型架构?例如 LLaMA 等。
- 是否了解 PagedAttention?
- LoRA 中两个低秩矩阵是如何初始化的?
- PPO 中的四种模型分别是什么?各自的作用是什么?
算法面试问题里一般都会涉及一些八股,临场发挥的思路总不如提前准备来得清楚。现在大家分享的面经也都比较全了,可以多看一看提前准备。 有些实习还需要笔试和手撕,如果对岗位侧重不太熟悉的,可以提前练一练题。这些题看着也都挺精华的,可以练练手。