9 美团大模型算法面经
参考链接:
https://www.xiaohongshu.com/explore/6840f70f0000000023013335?xsec_token=ABdgVhxRN1zmWGFWqS105tP8nay4VSwC2fsmg-fEiFZwk=&xsec_source=pc_user
https://www.xiaohongshu.com/explore/69fc448f00000000220291e7?xsec_token=ABlC6zNOEkaLI9npV1_HOQmvLMWLujeaSdjPcDp2TMzHI=&xsec_source=pc_user
https://www.xiaohongshu.com/explore/69feab5c0000000022027aa7?xsec_token=ABVIEJof110yOVGydid1Y-c9c9Hx6N2mv7dwanAN_FDEk=&xsec_source=pc_user
https://www.xiaohongshu.com/explore/696a4872000000000a02ce6a?xsec_token=ABHVRh7k6ykKuroZgT4rRst7qeFHSLbhdNzl5LCthb_Fo=&xsec_source=pc_search&source=web_user_page
https://www.xiaohongshu.com/explore/69cb5556000000002102c36f?xsec_token=ABKP-9KE0FNDh6uOBfLCeZ-5K5zuL6UGnzeZf4rvbRURc=&xsec_source=pc_search&source=web_user_page
https://www.xiaohongshu.com/explore/69bc061c000000002103a5ce?xsec_token=ABIgrrm5lyF5uQzNT3I1fJgSOGNeivkT9hMsWm8QusVYw=&xsec_source=pc_search&source=web_user_page
https://www.xiaohongshu.com/explore/69ba3539000000002200ee66?xsec_token=ABfHbRhqUKLCZDdlm5XzCO-4IcNx6aSJGGRn3_y9G0p6c=&xsec_source=pc_search&source=web_user_page
https://www.xiaohongshu.com/explore/69e710c60000000022027634?xsec_token=ABzxLnB61ocLsf8o_rpvGGmlYt4ptjHv8x2Xl29_b3QYU=&xsec_source=pc_search&source=web_user_page
美团到店核心本地大模型应用算法面经
时间线
5.21 一面
深挖项目,问了bge微调是怎么做的,多轮对话数据集是怎么构建的,还问了一些强化学习的八股,ppo的四个模型,以及dpo和ppo的区别,grpo的原理
手撕是股票的最佳买卖时机II
5.27 二面
二面面试官有事所以往后延了,深挖了强化学习的项目,reward model怎么训练的,训练过程的参数设置,遇到的坑以及解决办法。八股是deepseekr1的训练过程,冷启动以及多轮强化学习,相对于v3的改进,grpo的实现细节,以及prm、orm等
手撕是反转链表II
5.29 oc 因个人原因释放offer了
总体来说美团的面试官非常的专业友好,面试真的像是在交流探讨技术问题,而不是像之前某些面试官那样居高临下的审视 ,感触就是现在大模型应用里面强化学习真的是很重要的一part,如果要面大模型应用的uu得把强化学习多了解透彻一点,最好自己上手训练一下~
美团暑期大模型算法一面面经
- 介绍面试流程
- 自我介绍环节
- 接着按流程依次过简历上的内容
- 实习:
- multi-agent是怎么构造,怎么完成业务需求?
- 长cot数据怎么构造,介绍完整流程?
- 偏好数据集怎么收集,reward model怎么训?
- 讲讲RL训练有没有遇到熵坍缩,怎么解决?
- 哪些指标可以判断grpo训练的过程好不好,曲线分别应该是什么样的?
- 是否了解Agentic RL?(没了解过)
- MedicalGPT项目:
- 用相似度去筛选样本,阈值怎么确定?
- 医学中存在语义相似度很高但实际病情差异非常大的问题,你用相似度筛选是否合理?(这个问题很有意思,看得出来面试官也比较了解医学场景)
- 介绍一下你的DPO数据集是怎么构造的
- DPO和RLHF有什么区别?
到时间了第三个项目没问了,直接手撕:选出数组中最小的K个数,按顺序返回(美团是真的非常爱考堆)
反问环节:部门业务,Agentic RL应用场景
美团大模型算法暑期实习二面
全程1h
面试官介绍
- 自我介绍
- 讲一讲日常实习的工作
- 怎么构造cot数据
- 奖励模型怎么设计的
- 任务的评价指标是什么,怎么判断评价指标合理性
- 后训练的最终效果如何,业务收益是多少
- 了解skills吗,介绍一下
- 了解哪些agent范式,介绍一下ReAct
- 讲一下transformer的架构
- 介绍一下MHA的改进方法
- 讨论之前的ai coding题,这个ai(longcat)写代码好用吗
- 平时用什么ai工具,感受如何,除了写代码还用在什么场景,效果如何
- 实习中和其他人交流如何,和mentor/leader关系如何,和运营产品交流多吗,实验室人际关系如何
- 有没有别的offer,会怎么选
- 反问:组里工作内容和研究方向,后训练工作占比,会发论文吗
美团大模型算法实习一面+二面
美团大模型算法实习一面
岗位:基础研发平台
时长:约 60 分钟
风格:面试官专业、和蔼、不咄咄逼人;项目挖得深,八股和算法题相对友好。
面试问题
- 自我介绍
- 项目(论文)介绍
- 项目细节:SFT 数据的合成细节、SFT/RL 的训练细节、奖励函数
- 项目细节:你们是怎么把 text 和 image 进行对齐的,介绍一下 alignment 的实现
- 项目细节:你们有证明 Cold-Start SFT 后再 RL 的模型比只 RL 的模型效果好吗?为什么要做 SFT,有什么好处?
- 项目细节:为什么不用一些经典的强化学习方法,如 DPO、PPO?
- 项目细节:用来训练的数据,有没有覆盖各个领域,还是偏向某个垂直领域?
- 项目:如果要微调你们这个模型到某些垂直领域,但是要保留多模态的通用能力,应该用什么办法来尽量保留模型的能力?
- 项目:假如有 70% 的样本表现非常好,但是剩下 30% 左右的样本表现不好,那么模型下一步迭代的方向应该是怎样的?
- 然后问我之前的完全不对口的开发实习经历(笑)
- 八股:解释一下 BERT 的模型结构和原理
- 如果用 BERT 做一个分类任务,应该怎么做?
- 八股:讲一下 Transformer 的多头注意力机制原理
- 现在的大模型都是 decode-only 架构,但是 BERT 是 encode-only,解释一下两者的区别和为什么这么设计
- 算法题:LeetCode 大数加法
结果:丝滑过,面完 20 分钟左右约二面(评价:看效率还得是团子)
美团大模型算法实习二面
时长:约 70 分钟
风格:比一面显著更难,项目抠得非常深,八股结合项目问,算法题为 Hot 100 中的困难题。面试官提前仔细阅读了论文内容。
面试问题
- 自我介绍
- 后面问了相当多的项目细节,以及具体参数(选的框架、显卡配置、训练参数等),有 10 多个问题,期间还让比较 GRPO、DPO、DAPO、GSPO 等方法,问得非常深刻(此处未详细展开)
- 项目 + 八股:图片是怎么传递给 VLM(Qwen 2.5 VL)并被 VLM 理解的,你知道吗?
- 项目:用的什么 Loss?(答交叉熵);可以用 numpy 写一下公式吗?
- 项目 + 八股:你说到 Qwen 2.5 VL 是包括 ViT 的,可以介绍一下 ViT 的结构和原理吗?
- Qwen 2.5 VL 里面的 Transformer 结构和普通的 Transformer 的结构有哪些不同?
- RMSNorm 和 LayerNorm 主要区别在哪里,现在大模型更喜欢哪个,为什么这么设计?
- 算法题:LC25 K 个一组反转链表(先讲思路再写)
- 反问
整体评价:美团面试效率高、重项目落地与原理深度,尤其二面对 RLHF 系列方法(DPO/PPO/GRPO/DAPO/GSPO)和多模态模型细节要求较高。
美团大模型应用算法业务初试
(偏简单)总共 40 几分钟 —— 提前一晚发了一道 AI - Coding 题。问了部分论文和实习,和 AI - Coding 的思路。穿插八股如下:
- RLHF 流程
- 可不可以直接上 RL,不先 SFT
- PPO / DPO / GRPO / DAPO / GSPO 的发展脉络(重点)
- GRPO 相比 PPO,谁更稳定
- 手撕 AI Coding 题(Linux 路径转换),阐述怎么做的
- 科研上使用 OpenClaw 的经验
TimeLine:3.28笔试 3.30约一面 3.31一面 4.2约二面(已推掉)
美团大模型算法一面
项目面了两三个题
openclaw,skills,skills+rl,有没有做过skills的业务,OpenClaw用的是sub agent的形式,还有什么更稳定的形式吗?
kimi2.5 agent rl
agent项目用的什么卡,计算显存
ppo,dpo,grpo,gspo,dapo,ngrpo发展流程
为什么rl用grpo
美团llm算法实习一面面经
主要是从项目经历切入,然后疯狂问八股,问完八股问实操经验相关的问题(其实也算八股)
- ROPE的优势及其优化。
- transformer结构,encoder only与decoder only的优劣。
- attention模块的优化研究, kv cache相关的优化。
- 强化学习相关,GRPO的优劣势,PPO系列算法的公式理解。
- 模型训练实操中遇到过哪些问题,如何解决的。
美团大模型算法暑期实习
4.17 美团 一面 1h20m
喜提最久面试,面试官嗯问,确实在深挖,但是感觉是嗯挖,八股问了 (但其实问了很多,煮啵已经被问的神志不清了只记得这些)qwenvl 训练阶段包含哪些,每个阶段分别干了什么事用了什么数据集,qwenvl 的特点是什么,结构是什么,讲一下 ppo grpo dpo,各自的改进和偏好 ,为什么我要用 grpo 而不用 dpo,手撕 dpo loss 和 grpo 的优势计算,还有一道场景题(llm 多分类场景设计完整流程从数据构建到项目落地,然后还有无 cot 数据集怎么让模型进行推理思考))
到今天也还没约我二面也还没挂,听说美团三天不约二面就自动进池子?懂美团的朋友说说