8 字节大模型算法面经

参考链接：

https://www.xiaohongshu.com/explore/69fd632c000000003501eae1?xsec_token=ABhyZV44T-_s2tHSb8bp1-iNCMBOzHK4ppaMTiX1xiALQ=&xsec_source=pc_user

https://www.xiaohongshu.com/explore/69d8778a00000000220017c1?xsec_token=ABXUBOFfR0YE-a6P5Qz1iKY3L-xqrTr4lPzCCGJ6sQ1gc=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69384734000000001e022ec0?xsec_token=AB-DrMN4MKxslWnkWl51LYRpZ8SVLvUSXdHFkdQ8hijck=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69de1eeb000000001a035d11?xsec_token=ABOmU9Q6uVuCL2owx5DW_ayJvwXUQkcxUIENNX7BGS6IU=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69f3846d0000000023016d20?xsec_token=ABg58f6d8Kd9blG5zSz4WVXez-qIC0nHcnAw0Yteylszw=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69e4b468000000002003bc9c?xsec_token=ABu7nGylAVIeu1g-3zsJWXy1l8NQUI_7Bq_2_oXyuu6gY=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69d5c180000000001b021381?xsec_token=ABkwEfXMPh8MhcgHTN87_khAu96Rzba1T4IONLew5NB9Q=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/699a6d55000000000e00df08?xsec_token=ABEE3_BqoM6Ehw1WZea3Yk6qSWyV42pFrRN6iLo6v74BY=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69d8c98c000000001e00c758?xsec_token=ABXUBOFfR0YE-a6P5Qz1iKYzDkfYYgfseHLFsuN2Btmkc=&xsec_source=pc_search&source=web_search_result_notes

字节大模型算法暑期实习面经

时间线

4.14一面

深挖项目，比如reward怎么设计的，后续有什么改进思路，八股问了ppo grpo的具体原理以及区别（目前看这个问题非常高频），ppo的critic模型怎么训练的，kl散度有什么用，为什么要用kl散度，以及一些kvcache相关的，mla之类的，手撕是链表相加，用双指针

4.20 二面

一开始也是在问项目，后面画风突变，聊的非常的扩散，从transformer八股到agentic rl，再到grpo的改进算法以及reward hacking，最后还聊了harness、Hermes这种比较新的agent设计以及讲讲看的最新的论文，给我的感觉是要问清楚你的知识储备以及上限，聊天聊了一个多小时，最后面试官要开会去了没有手撕

4.23 三面

聊完项目后问了几个发散题，比如比较长的对话，强化学习怎么做reward，reward什么时候用模型什么时候用规则，如何避免奖励坍缩和hacking，同时有什么工程方法可以处理比较长的问答，多轮对话怎么微调，如何保持上下文记忆，agentic rl设计的思路，sft到了什么阶段可以做rl，如何评估，最后也没有手撕

4.24 hr面+oc

问了一些基本信息

4.28 offer

凌晨发的offer哦

总体来说，给我的感受是字节的面试非常注重对行业的前沿理解和认知，以及一些基础能力和思考，尤其是写到简历里面的项目千万要讲清楚，反倒是手撕可能越来越不重要了

字节一面凉经（大模型应用）

昨晚字节一面，由于面完已经快8点了，懒得整理了，所以今天上午来工位后整理了一下。面试官感觉依旧是一位资深工程师啊不过相比上次的美团强度还是小一些问的也很底层，他自己也说了他就喜欢问1+1=2这种底层问题整体来说依旧是菜菜但很有收获的一场面试，面试官的问题也给了我一些看待问题新的角度

上来依旧是自我介绍流程，不过这个面试官人还怪好，我一共写了三个项目，他说写在最后的一定是不熟的，所以最后一个项目少问几个问题
讲一下Qwen架构
层归一化和RMS归一化的区别
lora 是怎么节省显存的
然后当场给了个场景，让我分别计算了一下全参和lora分别占多少显存
讲一下RAG
自注意力公式，为什么除根号dk
线性回归的损失函数是什么？逻辑回归的损失函数是什么？
逻辑回归损失函数为什么不能是MSE
softmax不同类别样本数量极不平衡时怎么办？
手撕了一个二分查找的题

字节大模型实习算法岗一二面经

一面：

项目深挖
attention计算公式，为什么除以dk
ppo，dpo，dapo，grpo，gspo
力扣：最长有效括号
总结：感觉一面面试官很友善，问的问题也都是基础八股

二面： - 力扣：搜索旋转排序数组 - ppo损失函数，解释，各部分是什么，ratio、advantage怎么理解，大模型advantage怎么计算，returns是什么 - Adam - mha、mqa、gqa、mla - 交叉熵损失手撕 - 位置编码有哪些，rope - mse损失，gae损失，大模型里面怎么算 - 大模型里面的ppo，returns是什么 - vit位置编码、二维位置编码、相对位置编码、多模态位置编码 - 总结：明显感觉二面上难度了，考了很多手撕，但只要求写清楚怎么计算不用完全写出来原代码

字节抖音大模型推荐算法面经（挂）

抖音推荐，base 北上杭

一面

PPO 公式
DPO 公式
DAPO 创新点
KL 散度是什么？为什么 dapo 去掉了
kl 散度和交叉熵关系，公式手推一下
transformer 以及变体
lora 微调以及原理，公式是什么？为什么初始化方式不一样。
lora 的 rank 一般怎么选？
reward system 如何设计，和一般 llm 有什么区别？为什么你用 72b 模型单独训打分模型？
手撕：手撕 DAPO 整个过程，包括奖励函数、组内均值、优势函数以及 loss，外部套一层动态采样，我的论文 Soft IoU 是怎么算的也写进来。
反问：我的 bg 和业务是否匹配？组内业务

一面总结：还是字节的八股享受，好久没有这种强度的面试了，虽然业务不匹配但是看综合实力，不愧是字节。图二是我大概写的DAPO loss，主要是组内均值，loss和动态采样。

后续：业务不匹配，挂了

字节大模型算法二面面经

二面

先手撕接雨水，详细问问左边矮的话水量取决于左边还是右
①grpo的目标函数
②grpo训练不收敛怎么排查
③熵坍塌怎么解决
⑤项目的reward 设计，环境交互是什么
⑥卡资源
⑦训练和数据哪个是你做的？
⑧重要性采样是什么

字节暑期大模型算法面经

1️⃣一面：

介绍一下实习的工作
长CoT数据怎么构造的？
SFT和RL的本质区别是什么
手撕交叉熵损失和softmax
怎么平衡SFT和RL（你实习中是SFT到什么程度之后开始RL的）
PPO和GRPO的区别（答value模型、advantage计算和KL散度的位置和公式），接着问KL散度的位置为什么不一样？- 实现方式为什么不一样？K3-KL有什么优势？
交叉熵和KL散度的区别
PPO和GRPO分别适用于什么场景
DAPO为什么没有KL散度
怎么判断后训练效果不好是缺乏领域知识还是推理能力不足
实习的后训练过程中遇到了什么问题，怎么解决
手撕：字符串分词的最大分数（用回溯写不出来，被提示编辑距离依然写不出来，摆烂直接写个编辑距离函数）
反问：业务做什么
一面当场过

2️⃣二面：

自我介绍
先手撕：无重复字母的最长子串（写完以后问时间复杂度，能不能优化，优化了以后问时间复杂度）
讲一下实习过程遇到了什么问题，怎么解决
模型训练和推理过程中显存分别怎么计算
Transformer计算时主要瓶颈有哪些，分别怎么解决
线上小模型要求快速响应，怎么提升性能？除了蒸馏以外有没有别的方法？
反问：组里方向，业务内容
二面结束后15min过，当天hr面

之前一直在忙日常实习，暑期的第一个投递没想到这么顺利祝大家都能顺利找到实习

以下是从三张图片中提取的文字内容：

字节大模型算法三轮全面经

一&二面

基础为主，较多原理考察(可能是因为我是数学本科)，重视对前沿方向的敏感和关注度，项目层面考察重视迭代思路：

论文介绍；讲讲prm和orm的优劣以及你所知道的各自的一些代表性工作
实习介绍；为什么要设计成解耦系统；你会怎么做(答端到端agent)，为什么；从你设计的agent的角度怎么实现个性化，你的融合score衡量目标质量除了ct r cvr 加购率还有什么；模态对齐你打算怎么做，要训练吗？
ppo dpo grpo dapo常规八股；gae，td error，bt模型的理论都有问
reward hacking的原因以及解决方法
rl训练中看哪些指标，loss异常升降如何分析
讲讲verl的结构，关键组件，如何魔改，遇到的问题
对于rlvr的训练，能否认为是一种sf；
kl散度的推导；kl散度放在loss和放在reward里的区别，作用以及适用场景
对于agent架构的了解
手撕：二叉树层序遍历；接雨水

三面

纯纯压力面，答啥第一句回复都是否定，关注业务迭代和热门概念

论文与项目介绍，询问优化方向
对 agentic rl 的了解；简单介绍 langchain 和 langgraph；harness 做的事情看起来 langchain 等也一直在做，为什么 harness 现在这么火，有什么区别
端到端生成式推荐生成式召回生成式排序这几个方向各自的代表成果以及侧重；你认为目前而言哪一块是融合的最好的，或者说哪一块价值最高；码本训练的方法，评估指标，模态对齐怎么做，embedding 模型是否要训练，幻觉怎么解决
手撕：排序链表

字节大模型应用开发二面面经

面试官之前是做RAG的，所以问RAG比较多

自我介绍
拷打第一个项目：工业PDF一般图文分离，你是如何实现版面解析并保留文档逻辑结构的？多模态检索的视觉和文本是如何在向量空间内实现对齐的？
拷打第二个项目：针对长短期记忆，讲讲你是如何设计记忆的提取、压缩与冲突更新机制的？如果检测到用户存在极端情绪，你的Agent如何在不中断对话流的前提下进行干预？
在向量化之前，为什么要对长文档进行切片？如果不切片会有什么后果？
切片时设置重叠区域的作用是什么？这个比例你通常怎么来确定？
讲一下稠密向量与稀疏向量的区别，分别适合处理什么样的搜索需求？
向量库检索出的Top-K结果，如果K值设置得过大，对后续的生成质量有哪些负面影响？
余弦相似度和欧氏距离在衡量文本相似性时，各自的优缺点是什么？
为什么在初筛召回之后，还要加一个Rerank模型？它能解决向量搜索的哪些局限？
如果文档发生了局部更新，如何通过增量索引来避免全量重新向量化？
在RAG的生成阶段，如何在Prompt中设定边界条件来防止模型在没搜到内容时产生幻觉？
了解HyDE吗？介绍一下原理，它在处理模糊提问时有哪些优势？
随着超长上下文模型的出现，你认为传统RAG架构的必要性是否降低了？
你了解哪些大模型推理框架？SGLang相比vLLM的PagedAttention在推理延迟上有哪些优势？
调用大模型API时，为什么要使用asyncio异步编程？它在处理高并发请求时有何优势？
针对大规模PDF解析这种任务，你选择多线程还是多进程？
如何确保Agent返回的结果是标准的JSON格式？如果模型输出中有多余的说明文字，你在后端如何提取？
场景题：对于RAG，如果检索到了针对同一故障的两份手册，内容相互冲突，请你设计一套逻辑，让模型能够识别冲突并优先选择时效性更高的信息？
手撕：第k大元素
反问

面完后几天挂了，后面又换了个部门面

字节大模型搜索团队算法面经，和一些感慨

一面3.18 60min

项目介绍
dpo,kto了解么，讲讲
dapo和grpo相比改进之处在哪儿
moe了解么，讲讲
moe怎么解决专家失衡问题
手撕:组合总和

二面3.24

这里二面只聊了聊项目就做题了

手撕:输出所有和为k的倍数的子数组，非hot100，没撕出来，做的时候感觉又像回溯又像前缀和，有点乱了，做半个小时没做出来，面完感觉肯定挂了

三面3.31

在做sft和grpo之前为什么不再做一个离线的dpo对齐一下数据呢
为什么你训模型的时候先sft再rl，而不是直接rl呢
你怎么判断你的rl是否稳定有效果呢，如果不稳定的时候怎么办呢
你平时用agent来做什么事情呢
你认为sft到什么程度可以rl？怎么判断可以rl了？有什么指标可以证明可以不需要更多轮的sft了吗
手撕:找到索引和values都递增的三元数组，如果找到返回True,否则返回False

三面面试官人非常好啊，我面字节体验最好的一次了，很尊重人，上来先自我介绍，然后邀请你自我介绍，每次提问都会带上你的名字，这种人品的人活该他年薪百万啊

大概就这么多吧，三面没有太抠技术细节，聊了非常非常多的话题，记得的就剩下这些了。希望能对大家有所帮助吧。

我也是面了很多轮了，从一开始的来者不拒到现在的只对自己感兴趣的组去了解，感觉自己越面越迷茫啊，随着openclaw的大火，感觉大厂算法面试官越来越关注followai前沿的能力了，几乎所有的前沿团队都在讲ai提效，在过去几年训模型的能力是算法工程师的主要护城河，但是ai大势下，模型训练的流程已经几乎可以全部被ai接管，那么我们能做的和后端的产品的同学能做的差异也越来越小，我们以后又能做什么呢？感觉除了去做model的极少数人，大部分人的工作都是可以被替代的。

多模态应用算法实习-Seed 一面面经

写在最前面：第一次面seed，seed的约面有这么紧俏吗？4.15约一面约在一周后，跟hr表示希望早一点进行流程，答复说这是最近的时间。昨天一面后当天约二面，但是二面最早要约到五一后，我还是表示希望提前，再次被拒绝。想问下这个时间线正常吗？

回到正题：这次的面试体验很好，和面试官聊的很开心，为我之前尬黑字节道歉。

自我介绍
问之前的业务，整体的pipeline，cpt和sft有什么不同，然后问知识蒸馏一般是在哪个阶段做。
让讲一个最有挑战的项目，讲了正在写的数据合成的论文。问对比其他方法的优势是什么？工作量是几人完成的？论文里为什么用GRPO？方法中提到的RLVR，reward怎么设计和计算的，单单是二元？了解RLVR的缺陷吗？在这个论文场景下怎么优化？
问agent相关，有经验吗？说只build过一个关于crop image toolcall的sft数据集，怎么控制crop的坐标，llm在这个坐标上面会引入幻觉吗（导致toolcall的代码崩溃），怎么控制。问agent的架构，然后补充了一些自己的理解，用最近想一个TableQA的agent时候看的一些论文举例。有想过Agent的benchmark该怎么做吗。Harness的理解。了解Agentic RL吗？
问了一个场景题：视频通话AI，怎么做到对话过程中也能主动响应。讲了个multi-agent的思路，分别负责视觉意图和响应板机。又问，如果出现打断用户发言的情况怎么办？

coding：1.全排列 2.岛屿数量（时间问题面试官让直接口述）

反问：1.业务：主要两块，后训练sft rl agenticrl，agent开发（视频通话、可穿戴设备、手机gui agent），表示还是对后训练感兴趣；2.发表论文情况：鼓励。3.base：北京。

这次的面试体验特别好，面试官一直以一个讨论的角度聊想法，卡住的地方会引导，还给了论文一些建议。

半天后接到hr电话约二面。

字节大模型面经

分享字节大模型面经（记得不全，先把高频点记下来）。整体偏对齐 + 工程，追问多。

一面

dpo 和 sft 的区别，先 dpo 后 sft 可以么
如果把 DPO 用在“第一轮对话”，你会怎么做数据集？prompt、chosen/rejected 你打算怎么来
多轮对话的数据分布你会怎么设计：单轮和多轮各占多少，为什么这么配
具体到 DPO 数据，多轮样本你会怎么采样/怎么配比（有没有什么坑）
reward hacking 你怎么看？一般怎么防，怎么兜底

二面

大模型相关经历深挖：你项目里最核心的贡献是什么，怎么验证有效
对比学习 loss：负样本和正样本拉不开/太像了，你会怎么改损失或采样
FlashAttention 跟普通 attention 的差异？实现里 QK^T、softmax、PV 这几步怎么落
3D 并行里 DP/DDP 你怎么理解；实际落地时通信瓶颈一般卡在哪些环节
14B：FP16 权重大概多大；训练还要加哪些；INT8 大概能省多少
torch.contiguous() 干嘛的？推理为啥在意连续性
代码：读 txt 井字棋（3×3），判断当前玩家是否获胜
交叉熵损失：解释/怎么写
线性回归用 SGD：更新公式怎么推/怎么写

三面

简单自我介绍（挑和岗位最相关的讲）
说说你的大模型实习：做了什么、遇到什么问题、怎么评估效果
YaRN 你怎么理解？跟其他长文本/外推方案相比差异在哪
RoPE 怎么跟 MLA 放一起讲；只在短文本训过的模型，长文本外推你会怎么做
flash-attn / Megatron-LM：你了解哪些点
实习里你觉得最有意思、也最难的点分别是什么
分词你了解哪些；像 DeepSeek 这类的分词思路跟 BPE 有什么不同
字符串解码这类题一般怎么考，你会怎么处理边界
手写 FFN：结构怎么写，维度怎么对

复盘

对齐：DPO/GRPO、loss、ref/KL、数据构造/配比
工程：FlashAttention、并行通信、显存口算、contiguous
手写：loss/KL/CE + 简单题别丢分

字节大模型暑期实习二面面经

流程：项目拷打+手撕

特征怎么筛选的
怎么构建离散和连续的特征
cot数据怎么构建筛选的
为什么要用sft和rlhf
grpo gspo dapo区别，为什么选择

代码：非负整数列表拼接最大数

几乎没有八股了，总体上直接问实习做了什么，然后自己一点点讲，中间面试官穿插提问。可以说一些用到的算法的原理，提及一些业务上的数据。

时长35分钟，五分钟后约了三面，以为自己一面凉了，一面后过了四个工作日才约二面