跳转至

9 美团大模型算法面经

参考链接:

https://www.xiaohongshu.com/explore/6840f70f0000000023013335?xsec_token=ABdgVhxRN1zmWGFWqS105tP8nay4VSwC2fsmg-fEiFZwk=&xsec_source=pc_user

https://www.xiaohongshu.com/explore/69fc448f00000000220291e7?xsec_token=ABlC6zNOEkaLI9npV1_HOQmvLMWLujeaSdjPcDp2TMzHI=&xsec_source=pc_user

https://www.xiaohongshu.com/explore/69feab5c0000000022027aa7?xsec_token=ABVIEJof110yOVGydid1Y-c9c9Hx6N2mv7dwanAN_FDEk=&xsec_source=pc_user

https://www.xiaohongshu.com/explore/696a4872000000000a02ce6a?xsec_token=ABHVRh7k6ykKuroZgT4rRst7qeFHSLbhdNzl5LCthb_Fo=&xsec_source=pc_search&source=web_user_page

https://www.xiaohongshu.com/explore/69cb5556000000002102c36f?xsec_token=ABKP-9KE0FNDh6uOBfLCeZ-5K5zuL6UGnzeZf4rvbRURc=&xsec_source=pc_search&source=web_user_page

https://www.xiaohongshu.com/explore/69bc061c000000002103a5ce?xsec_token=ABIgrrm5lyF5uQzNT3I1fJgSOGNeivkT9hMsWm8QusVYw=&xsec_source=pc_search&source=web_user_page

https://www.xiaohongshu.com/explore/69ba3539000000002200ee66?xsec_token=ABfHbRhqUKLCZDdlm5XzCO-4IcNx6aSJGGRn3_y9G0p6c=&xsec_source=pc_search&source=web_user_page

https://www.xiaohongshu.com/explore/69e710c60000000022027634?xsec_token=ABzxLnB61ocLsf8o_rpvGGmlYt4ptjHv8x2Xl29_b3QYU=&xsec_source=pc_search&source=web_user_page

美团到店核心本地大模型应用算法面经

时间线

5.21 一面

深挖项目,问了bge微调是怎么做的,多轮对话数据集是怎么构建的,还问了一些强化学习的八股,ppo的四个模型,以及dpo和ppo的区别,grpo的原理

手撕是股票的最佳买卖时机II

5.27 二面

二面面试官有事所以往后延了,深挖了强化学习的项目,reward model怎么训练的,训练过程的参数设置,遇到的坑以及解决办法。八股是deepseekr1的训练过程,冷启动以及多轮强化学习,相对于v3的改进,grpo的实现细节,以及prm、orm等

手撕是反转链表II

5.29 oc 因个人原因释放offer了

总体来说美团的面试官非常的专业友好,面试真的像是在交流探讨技术问题,而不是像之前某些面试官那样居高临下的审视 ,感触就是现在大模型应用里面强化学习真的是很重要的一part,如果要面大模型应用的uu得把强化学习多了解透彻一点,最好自己上手训练一下~

美团暑期大模型算法一面面经

  • 介绍面试流程
  • 自我介绍环节
  • 接着按流程依次过简历上的内容
  • 实习:
    • multi-agent是怎么构造,怎么完成业务需求?
    • 长cot数据怎么构造,介绍完整流程?
    • 偏好数据集怎么收集,reward model怎么训?
    • 讲讲RL训练有没有遇到熵坍缩,怎么解决?
    • 哪些指标可以判断grpo训练的过程好不好,曲线分别应该是什么样的?
    • 是否了解Agentic RL?(没了解过)
  • MedicalGPT项目:
    • 用相似度去筛选样本,阈值怎么确定?
    • 医学中存在语义相似度很高但实际病情差异非常大的问题,你用相似度筛选是否合理?(这个问题很有意思,看得出来面试官也比较了解医学场景)
    • 介绍一下你的DPO数据集是怎么构造的
    • DPO和RLHF有什么区别?

到时间了第三个项目没问了,直接手撕:选出数组中最小的K个数,按顺序返回(美团是真的非常爱考堆)

反问环节:部门业务,Agentic RL应用场景

美团大模型算法暑期实习二面

全程1h

面试官介绍

  • 自我介绍
  • 讲一讲日常实习的工作
  • 怎么构造cot数据
  • 奖励模型怎么设计的
  • 任务的评价指标是什么,怎么判断评价指标合理性
  • 后训练的最终效果如何,业务收益是多少
  • 了解skills吗,介绍一下
  • 了解哪些agent范式,介绍一下ReAct
  • 讲一下transformer的架构
  • 介绍一下MHA的改进方法
  • 讨论之前的ai coding题,这个ai(longcat)写代码好用吗
  • 平时用什么ai工具,感受如何,除了写代码还用在什么场景,效果如何
  • 实习中和其他人交流如何,和mentor/leader关系如何,和运营产品交流多吗,实验室人际关系如何
  • 有没有别的offer,会怎么选
  • 反问:组里工作内容和研究方向,后训练工作占比,会发论文吗

美团大模型算法实习一面+二面


美团大模型算法实习一面

岗位:基础研发平台
时长:约 60 分钟
风格:面试官专业、和蔼、不咄咄逼人;项目挖得深,八股和算法题相对友好。

面试问题

  1. 自我介绍
  2. 项目(论文)介绍
  3. 项目细节:SFT 数据的合成细节、SFT/RL 的训练细节、奖励函数
  4. 项目细节:你们是怎么把 text 和 image 进行对齐的,介绍一下 alignment 的实现
  5. 项目细节:你们有证明 Cold-Start SFT 后再 RL 的模型比只 RL 的模型效果好吗?为什么要做 SFT,有什么好处?
  6. 项目细节:为什么不用一些经典的强化学习方法,如 DPO、PPO?
  7. 项目细节:用来训练的数据,有没有覆盖各个领域,还是偏向某个垂直领域?
  8. 项目:如果要微调你们这个模型到某些垂直领域,但是要保留多模态的通用能力,应该用什么办法来尽量保留模型的能力?
  9. 项目:假如有 70% 的样本表现非常好,但是剩下 30% 左右的样本表现不好,那么模型下一步迭代的方向应该是怎样的?
  10. 然后问我之前的完全不对口的开发实习经历(笑)
  11. 八股:解释一下 BERT 的模型结构和原理
  12. 如果用 BERT 做一个分类任务,应该怎么做?
  13. 八股:讲一下 Transformer 的多头注意力机制原理
  14. 现在的大模型都是 decode-only 架构,但是 BERT 是 encode-only,解释一下两者的区别和为什么这么设计
  15. 算法题:LeetCode 大数加法

结果:丝滑过,面完 20 分钟左右约二面(评价:看效率还得是团子)


美团大模型算法实习二面

时长:约 70 分钟
风格:比一面显著更难,项目抠得非常深,八股结合项目问,算法题为 Hot 100 中的困难题。面试官提前仔细阅读了论文内容。

面试问题

  1. 自我介绍
  2. 后面问了相当多的项目细节,以及具体参数(选的框架、显卡配置、训练参数等),有 10 多个问题,期间还让比较 GRPO、DPO、DAPO、GSPO 等方法,问得非常深刻(此处未详细展开)
  3. 项目 + 八股:图片是怎么传递给 VLM(Qwen 2.5 VL)并被 VLM 理解的,你知道吗?
  4. 项目:用的什么 Loss?(答交叉熵);可以用 numpy 写一下公式吗?
  5. 项目 + 八股:你说到 Qwen 2.5 VL 是包括 ViT 的,可以介绍一下 ViT 的结构和原理吗?
  6. Qwen 2.5 VL 里面的 Transformer 结构和普通的 Transformer 的结构有哪些不同?
  7. RMSNorm 和 LayerNorm 主要区别在哪里,现在大模型更喜欢哪个,为什么这么设计?
  8. 算法题:LC25 K 个一组反转链表(先讲思路再写)
  9. 反问

整体评价:美团面试效率高、重项目落地与原理深度,尤其二面对 RLHF 系列方法(DPO/PPO/GRPO/DAPO/GSPO)和多模态模型细节要求较高。

美团大模型应用算法业务初试

(偏简单)总共 40 几分钟 —— 提前一晚发了一道 AI - Coding 题。问了部分论文和实习,和 AI - Coding 的思路。穿插八股如下:

  1. RLHF 流程
  2. 可不可以直接上 RL,不先 SFT
  3. PPO / DPO / GRPO / DAPO / GSPO 的发展脉络(重点)
  4. GRPO 相比 PPO,谁更稳定
  5. 手撕 AI Coding 题(Linux 路径转换),阐述怎么做的
  6. 科研上使用 OpenClaw 的经验

TimeLine:3.28笔试 3.30约一面 3.31一面 4.2约二面(已推掉)

美团大模型算法一面

项目面了两三个题

openclaw,skills,skills+rl,有没有做过skills的业务,OpenClaw用的是sub agent的形式,还有什么更稳定的形式吗?

kimi2.5 agent rl

agent项目用的什么卡,计算显存

ppo,dpo,grpo,gspo,dapo,ngrpo发展流程

为什么rl用grpo

美团llm算法实习一面面经

主要是从项目经历切入,然后疯狂问八股,问完八股问实操经验相关的问题(其实也算八股)

  1. ROPE的优势及其优化。
  2. transformer结构,encoder only与decoder only的优劣。
  3. attention模块的优化研究, kv cache相关的优化。
  4. 强化学习相关,GRPO的优劣势,PPO系列算法的公式理解。
  5. 模型训练实操中遇到过哪些问题,如何解决的。

美团大模型算法暑期实习

4.17 美团 一面 1h20m

喜提最久面试,面试官嗯问,确实在深挖,但是感觉是嗯挖,八股问了 (但其实问了很多,煮啵已经被问的神志不清了只记得这些)qwenvl 训练阶段包含哪些,每个阶段分别干了什么事用了什么数据集,qwenvl 的特点是什么,结构是什么,讲一下 ppo grpo dpo,各自的改进和偏好 ,为什么我要用 grpo 而不用 dpo,手撕 dpo loss 和 grpo 的优势计算,还有一道场景题(llm 多分类场景设计完整流程从数据构建到项目落地,然后还有无 cot 数据集怎么让模型进行推理思考))

到今天也还没约我二面也还没挂,听说美团三天不约二面就自动进池子?懂美团的朋友说说