9 美团大模型算法面经

参考链接：

https://www.xiaohongshu.com/explore/6840f70f0000000023013335?xsec_token=ABdgVhxRN1zmWGFWqS105tP8nay4VSwC2fsmg-fEiFZwk=&xsec_source=pc_user

https://www.xiaohongshu.com/explore/69fc448f00000000220291e7?xsec_token=ABlC6zNOEkaLI9npV1_HOQmvLMWLujeaSdjPcDp2TMzHI=&xsec_source=pc_user

https://www.xiaohongshu.com/explore/69feab5c0000000022027aa7?xsec_token=ABVIEJof110yOVGydid1Y-c9c9Hx6N2mv7dwanAN_FDEk=&xsec_source=pc_user

https://www.xiaohongshu.com/explore/696a4872000000000a02ce6a?xsec_token=ABHVRh7k6ykKuroZgT4rRst7qeFHSLbhdNzl5LCthb_Fo=&xsec_source=pc_search&source=web_user_page

https://www.xiaohongshu.com/explore/69cb5556000000002102c36f?xsec_token=ABKP-9KE0FNDh6uOBfLCeZ-5K5zuL6UGnzeZf4rvbRURc=&xsec_source=pc_search&source=web_user_page

https://www.xiaohongshu.com/explore/69bc061c000000002103a5ce?xsec_token=ABIgrrm5lyF5uQzNT3I1fJgSOGNeivkT9hMsWm8QusVYw=&xsec_source=pc_search&source=web_user_page

https://www.xiaohongshu.com/explore/69ba3539000000002200ee66?xsec_token=ABfHbRhqUKLCZDdlm5XzCO-4IcNx6aSJGGRn3_y9G0p6c=&xsec_source=pc_search&source=web_user_page

https://www.xiaohongshu.com/explore/69e710c60000000022027634?xsec_token=ABzxLnB61ocLsf8o_rpvGGmlYt4ptjHv8x2Xl29_b3QYU=&xsec_source=pc_search&source=web_user_page

美团到店核心本地大模型应用算法面经

时间线

5.21 一面

深挖项目，问了bge微调是怎么做的，多轮对话数据集是怎么构建的，还问了一些强化学习的八股，ppo的四个模型，以及dpo和ppo的区别，grpo的原理

手撕是股票的最佳买卖时机II

5.27 二面

二面面试官有事所以往后延了，深挖了强化学习的项目，reward model怎么训练的，训练过程的参数设置，遇到的坑以及解决办法。八股是deepseekr1的训练过程，冷启动以及多轮强化学习，相对于v3的改进，grpo的实现细节，以及prm、orm等

手撕是反转链表II

5.29 oc 因个人原因释放offer了

总体来说美团的面试官非常的专业友好，面试真的像是在交流探讨技术问题，而不是像之前某些面试官那样居高临下的审视，感触就是现在大模型应用里面强化学习真的是很重要的一part，如果要面大模型应用的uu得把强化学习多了解透彻一点，最好自己上手训练一下～

美团暑期大模型算法一面面经

介绍面试流程
自我介绍环节
接着按流程依次过简历上的内容
实习：
- multi-agent是怎么构造，怎么完成业务需求？
- 长cot数据怎么构造，介绍完整流程？
- 偏好数据集怎么收集，reward model怎么训？
- 讲讲RL训练有没有遇到熵坍缩，怎么解决？
- 哪些指标可以判断grpo训练的过程好不好，曲线分别应该是什么样的？
- 是否了解Agentic RL？（没了解过）
MedicalGPT项目：
- 用相似度去筛选样本，阈值怎么确定？
- 医学中存在语义相似度很高但实际病情差异非常大的问题，你用相似度筛选是否合理？（这个问题很有意思，看得出来面试官也比较了解医学场景）
- 介绍一下你的DPO数据集是怎么构造的
- DPO和RLHF有什么区别？

到时间了第三个项目没问了，直接手撕：选出数组中最小的K个数，按顺序返回（美团是真的非常爱考堆）

反问环节：部门业务，Agentic RL应用场景

美团大模型算法暑期实习二面

全程1h

面试官介绍

自我介绍
讲一讲日常实习的工作
怎么构造cot数据
奖励模型怎么设计的
任务的评价指标是什么，怎么判断评价指标合理性
后训练的最终效果如何，业务收益是多少
了解skills吗，介绍一下
了解哪些agent范式，介绍一下ReAct
讲一下transformer的架构
介绍一下MHA的改进方法
讨论之前的ai coding题，这个ai（longcat）写代码好用吗
平时用什么ai工具，感受如何，除了写代码还用在什么场景，效果如何
实习中和其他人交流如何，和mentor/leader关系如何，和运营产品交流多吗，实验室人际关系如何
有没有别的offer，会怎么选
反问：组里工作内容和研究方向，后训练工作占比，会发论文吗

美团大模型算法实习一面+二面

美团大模型算法实习一面

岗位：基础研发平台
时长：约 60 分钟
风格：面试官专业、和蔼、不咄咄逼人；项目挖得深，八股和算法题相对友好。

面试问题

自我介绍
项目（论文）介绍
项目细节：SFT 数据的合成细节、SFT/RL 的训练细节、奖励函数
项目细节：你们是怎么把 text 和 image 进行对齐的，介绍一下 alignment 的实现
项目细节：你们有证明 Cold-Start SFT 后再 RL 的模型比只 RL 的模型效果好吗？为什么要做 SFT，有什么好处？
项目细节：为什么不用一些经典的强化学习方法，如 DPO、PPO？
项目细节：用来训练的数据，有没有覆盖各个领域，还是偏向某个垂直领域？
项目：如果要微调你们这个模型到某些垂直领域，但是要保留多模态的通用能力，应该用什么办法来尽量保留模型的能力？
项目：假如有 70% 的样本表现非常好，但是剩下 30% 左右的样本表现不好，那么模型下一步迭代的方向应该是怎样的？
然后问我之前的完全不对口的开发实习经历（笑）
八股：解释一下 BERT 的模型结构和原理
如果用 BERT 做一个分类任务，应该怎么做？
八股：讲一下 Transformer 的多头注意力机制原理
现在的大模型都是 decode-only 架构，但是 BERT 是 encode-only，解释一下两者的区别和为什么这么设计
算法题：LeetCode 大数加法

结果：丝滑过，面完 20 分钟左右约二面（评价：看效率还得是团子）

美团大模型算法实习二面

时长：约 70 分钟
风格：比一面显著更难，项目抠得非常深，八股结合项目问，算法题为 Hot 100 中的困难题。面试官提前仔细阅读了论文内容。

面试问题

自我介绍
后面问了相当多的项目细节，以及具体参数（选的框架、显卡配置、训练参数等），有 10 多个问题，期间还让比较 GRPO、DPO、DAPO、GSPO 等方法，问得非常深刻（此处未详细展开）
项目 + 八股：图片是怎么传递给 VLM（Qwen 2.5 VL）并被 VLM 理解的，你知道吗？
项目：用的什么 Loss？（答交叉熵）；可以用 numpy 写一下公式吗？
项目 + 八股：你说到 Qwen 2.5 VL 是包括 ViT 的，可以介绍一下 ViT 的结构和原理吗？
Qwen 2.5 VL 里面的 Transformer 结构和普通的 Transformer 的结构有哪些不同？
RMSNorm 和 LayerNorm 主要区别在哪里，现在大模型更喜欢哪个，为什么这么设计？
算法题：LC25 K 个一组反转链表（先讲思路再写）
反问

整体评价：美团面试效率高、重项目落地与原理深度，尤其二面对 RLHF 系列方法（DPO/PPO/GRPO/DAPO/GSPO）和多模态模型细节要求较高。

美团大模型应用算法业务初试

（偏简单）总共 40 几分钟 —— 提前一晚发了一道 AI - Coding 题。问了部分论文和实习，和 AI - Coding 的思路。穿插八股如下：

RLHF 流程
可不可以直接上 RL，不先 SFT
PPO / DPO / GRPO / DAPO / GSPO 的发展脉络（重点）
GRPO 相比 PPO，谁更稳定
手撕 AI Coding 题（Linux 路径转换），阐述怎么做的
科研上使用 OpenClaw 的经验

TimeLine：3.28笔试 3.30约一面 3.31一面 4.2约二面（已推掉）

美团大模型算法一面

项目面了两三个题

openclaw，skills，skills＋rl，有没有做过skills的业务，OpenClaw用的是sub agent的形式，还有什么更稳定的形式吗？

kimi2.5 agent rl

agent项目用的什么卡，计算显存

ppo，dpo，grpo，gspo，dapo，ngrpo发展流程

为什么rl用grpo

美团llm算法实习一面面经

主要是从项目经历切入，然后疯狂问八股，问完八股问实操经验相关的问题(其实也算八股)

ROPE的优势及其优化。
transformer结构，encoder only与decoder only的优劣。
attention模块的优化研究， kv cache相关的优化。
强化学习相关，GRPO的优劣势，PPO系列算法的公式理解。
模型训练实操中遇到过哪些问题，如何解决的。

美团大模型算法暑期实习

4.17 美团一面 1h20m

喜提最久面试，面试官嗯问，确实在深挖，但是感觉是嗯挖，八股问了（但其实问了很多，煮啵已经被问的神志不清了只记得这些）qwenvl 训练阶段包含哪些，每个阶段分别干了什么事用了什么数据集，qwenvl 的特点是什么，结构是什么，讲一下 ppo grpo dpo，各自的改进和偏好，为什么我要用 grpo 而不用 dpo，手撕 dpo loss 和 grpo 的优势计算，还有一道场景题（llm 多分类场景设计完整流程从数据构建到项目落地，然后还有无 cot 数据集怎么让模型进行推理思考））

到今天也还没约我二面也还没挂，听说美团三天不约二面就自动进池子？懂美团的朋友说说