10 腾讯大模型算法面经
参考链接:
https://www.xiaohongshu.com/explore/69bbc946000000001a020d22?xsec_token=ABH1P3PLT1utsOlr-SUdALPBgBTcZue4jrgs0ENrpBKA0=&xsec_source=pc_search&source=web_search_result_notes
https://www.xiaohongshu.com/explore/69e9c830000000001b02386d?xsec_token=ABTHgbwDd0k-nxWI1C7GTtuofjFyajZ84B76xsFQSuYCY=&xsec_source=pc_user
https://www.xiaohongshu.com/explore/69bdf3ea000000002302153d?xsec_token=ABQWv35UeCHf7Thj2OOqoZHVSXzUkPCnrHlW3lnhtaEF0=&xsec_source=pc_search&source=web_search_result_notes
https://www.xiaohongshu.com/explore/69e8d07f000000001a02e4c5?xsec_token=ABcZ5x0gsB01iMm40xBKomSNiAG9MzVa7HnBGAlzwQEVs=&xsec_source=pc_user
https://www.xiaohongshu.com/explore/69feb8e6000000002202a42e?xsec_token=AB5RUiJo-kVPa_bsuFwKemAn5Zr92nvirQa4AJYNfSoTA=&xsec_source=pc_search&source=web_search_result_notes
腾讯大模型算法岗面经(已OC),不看会后悔!
大模型算法岗位(自然语言处理)---面经(已经OC)
一面技术面(时间大概1个小时)
- 自我介绍
- 将实习展开讲一下(相关提问)
- 常见的语义切分你知道哪些?
- 你讲一下Qwen3-Embedding+BM25+BGE-M3他们有召回的方式有什么区别?
- 将RRF融合展开讲一下?
- 整个RAG的整个流程?
- 用户输入进去就直接召回吗?
- 讲一下VLLM怎么实现推理加速的?
- GraphRAG怎么实现检索的?
手撕:多头注意力机制
闲聊:你喜欢打游戏吗?打什么游戏?
反问:介绍一下公司业务?
二面技术面 时间大概1个小时
- 实习相关追问(大概15分钟,这里每位同学不太一样,不用太参考!)
- 首先讲一下transformer的架构,然后为什么注意力机制要除以根号dk,为什么是除这个数?
- 讲一下PPO,DPO,GRPO,DAPO的改进?(这里可以开始吟唱了哈哈哈)
- DPO的损失函数是什么?(公式追问?,字节会让你手撕4个损失函数,所以大家这里一定要会!)
- 你在微调训练过程中,batch_size,seq_len怎么设定的?为什么这么设定?
- 在loar微调的时候要调整哪些参数?
- encoder与decoder的区别是什么?为什么大模型选择Decoder-only?
- 比较常用的位置编码的方式?
- 如果出现OOM,常见的处理方式是什么?
- qwen3的模型架构做了哪些改进(推荐大家去看一些技术报告,比如Qwen2.5/3,Deepseek-V3等技术报告)?
- 现在是多模态大模型的一般架构是什么?
- 介绍一下“感受野”?
手撕:最大连通域的面积
反问:你觉得我还有哪些地方需要改进?
hr面(本来说有三面的,但是没有加试!!!,二面面试官直接给我推到hr面了)
这里问题都比较常规吧。只有一点大家要注意,自己名下不能有公司,会和tx出现利益冲突!!!
腾讯WXG暑期实习面经-大模型算法
一面(1小时30分钟):
上来先做题 1. 手撕AdamW 2. 手撕无重复字母的字串(hot100) 3. 出了两个题都是对数据库的操作,我以为是让写大模拟,写到一半结果面试官告诉我是用sql写[呃R],不会遂罢。 4. 面对海量数据的时候怎么对数据进行处理,比如说去除掉敏感词等等,面对海量数据会出现哪些问题,该如何去处理 5. 介绍发表的顶会论文 6. 介绍Q-learning和DQN
二面(2小时30分钟)
实习乃至秋招面的最久的一轮面试了,从晚上七点多面到十点,最后人都麻了,面试官估计要下班了结束了面试[扶额R]
- 介绍论文,主包是做强化学习相关的,围绕问了很多强化学习算法(GRPO,PPO,reward model),介绍马尔可夫决策过程。
- bf16、fp16和fp32,并进行计算。
- lora微调的细节,量化相关知识
然后开始漫长的手撕过程
- 手撕ppo
- 算马尔可夫决策过程的y阈值,我感觉是个无穷级数?
- 算模型sft的参数量大小及显卡利用率
- 是否重合链表(hot100)
- 如何使得一个输入向量x在经过一个或多个全连接层后,其输出向量y所在子空间基底尽可能接近标准正交基
三面(面委会面)(30分钟)
- 介绍第一篇顶会论文(共享屏幕)
- 介绍第二篇顶会论文
- 不同强化学习之间的区别
- 和使用强化学习训练大模型相比,使用强化学习训练小模型需要做出哪些改变
hr面(30分钟)
常规的hr面问题,主要问来wx的意向。
感觉前几面比较侧重技术细节,面委会感觉就比较侧重聊未来技术的发展,个人感觉前几面的压力比较大[完啦R]
腾讯算法岗一面
- 后训练了解吗?介绍一下 dpo 和 ppo 的区别,grpo 以及改进思路,优势函数怎么设计等等
- SFT 的 loss 是怎么计算的?项目用到 lora,了解过 qlora 吗?两者有什么区别?
- 介绍 self-attention,问为什么要除以根号下 dk,可以除以其他数吗,或者有没有等价的方法?说一下不同的 attention 及原理和公式(MHA、MQA、GQA、MLA)
- 位置编码有了解哪些?rope 了解吗?
- Agent 了解吗?什么是 skills?什么是 mcp?有啥区别?agent 里面 memory 问题你认为有哪些解决方案?长期记忆会短期记忆怎么处理?上下文机制怎么实现?Cot 和 Tot 的核心原理?ReAct 了解过吗?
- 手撕三数之和
腾讯大模型算法面经
- 大模型训练数据清洗规则通常从哪些维度设计?
- 开源大模型选型依据是什么,如何做评估对比?
- 数据构造如何避免引入偏见与新问题?
- 文本 / 意图聚类常用方案优缺点?
- SFT 微调流程、关键节点与注意事项?
- LoRA 与全量微调的适用场景区别?
- RAG 落地常见问题(模型不听检索结果、召回不准、延迟高)怎么解决?
- COT 思维链在业务场景下的设计思路与格式?
- 检索失败 / 召回噪音的兜底策略?
- Agent 路由 / 动态工具调用决策如何实现?
- 外部工具(搜索 / 检索)调用方式有哪些?
- 多模态召回方案对比与融合策略?
- GRPO/PPO 对齐算法的区别、优缺点?
- 奖励函数如何设计,如何解决奖励稀疏、Reward Hacking问题?
- DPO 好的负样本构造原则?
- Agent 长短期记忆如何实现?
- 常用 Agent 开发框架对比,自研与框架选型考量?
- 多模态检索模型对比与选型依据?
- 小样本场景下微调方法原理与优势?
- 检索架构设计思路?
- 大规模向量库毫秒级响应如何保证?
- 难负样本构造与判别器优化方法?
- Linux 环境下模型服务响应慢如何排查?
- 大模型推理加速方案(vLLM/SGLang、KV Cache)?
- 复杂 RAG/Agent 链路延迟瓶颈与优化策略?
- Python 基础:列表 vs 元组、深拷贝 vs 浅拷贝?
- 计算机网络:HTTP GET/POST 区别、参数位置?
手撕:最小操作次数使序列有序?
腾讯春招大模型算法TEG面经(拟OC)
一面
- 如何在 GRPO 提升输出的可解释性? reward 模型如何训练
- 什么是灾难性遗忘,从模型和外置角度说明
- 位置编码是什么?扩展有哪些(ROPE 等)?
- 如何提升模型的上下文理解能力? 长序列 attention 方法有哪些类型? 如何减少模型推理时延?
- 现在训练合适的 reward 一般用多少大小的模型? 如何设计专业的 reward system?
- 手撕:最长公共子序列
- 一面总结:1h 超长面试,聊了很多。
二面
- rule-based 和 model-based 的方法做 reward 有什么区别?说一下合适场景
- reward model 的设计是怎样的,为什么要用 72b 的模型
- internvl 和 qwen 的 chat template 有哪些不同?为什么这样设计?
- 拟人化 Memory 设计技巧,常见 memory 有哪几种?实现方式是什么?
- GRPO 均值怎么算的?为什么这样设计?
- MOE 如何训的? 为什么要用 metragon-swift 和一般 ms-swift 区别是什么? ep 如何实现的?
- 长度不一致的数据如何避免 padding 过长?
- 手撕: 股票最佳时机
技术面结束,沟通说面评好大领导没时间不面了直接hr,自此校招完美谢幕,校招BAT基本都拿了。
我想起了暑期实习第一场也是鹅捞的我,然后首先OC,那校招终点会去企鹅吗?(想起了我宿舍的生日鹅,偷鹅,实习蓝鹅,长鹅)
新鲜面经——腾讯wxg大模型算法实习
一面:
- 自我介绍
- 讲一下最想讲的项目(提问了项目细节)
- reward model的训练数据一般怎么构建
- 最近几个月,有了解过最新的reward model有新的范式吗?
- 想做一个更通用的reward model?可以怎么设计呢?(不只是任务通用也可以是模型通用)
- 介绍最近在做的研究工作
- 了解online Distillation吗
- 讲下多模态模型?qwen3 vl的image encoder是什么?
- 无code
二面:
- 自我介绍
- 实习项目哪些是你完成的?输入输出是啥,项目细节询问(数据构造细节、为啥要用dpo)?
- qwen之前也做过类似的,你认为为什么在你这里结论有区别?
- dpo、grpo、dapo的区别?
- ppo的critic model是怎么训的?作用是什么?
- 科研项目概诉
- 现在在做的研究
- 无code
wxg多模态日常实习面经
3.2一面
3.4二面
3.17三面
目前页面面试链接消失,但是还是复试中,等待希望能过。
比起字节来说,鹅的面试体验不要好太多。
一面:自我介绍,详细问我上段实习经历,然后问qwen2.5vl和qwen3vl的技术,然后问强化学习ppo/dpo/grpo,然后聊了一下之前实习时长为啥不长,以及学业/实习等问题,无手撕。
二面:自我介绍,还是详细问我上段实习,问数据构造,问qwen2.5vl和qwen3vl的技术,问grpo,问实习时长,手撕是mha,原本准备手撕两道,第一道是自注意力机制,我直接写了mha,然后就不用写第二道了。
三面:自我介绍,详细先问我学业/实习时长/课程/论文的问题,详细问上段实习,同一二面的qwenvl系列技术,然后考查了一些基础知识点,但是我之前都复习过,vit架构,vit的图像是怎么处理传入的(我之前记得是按patch划分,展平,代码技术上过了一层卷积,16*16*3就变成了768的向量),qwenvl的动态分辨率怎么实现(最近考的真多,xhs和字节也问到了)。最后20分钟手撕一道,给定字符串求有多少种划分正确ip地址的题目,我dfs写出。
总的来说,前两面很顺利,三面主管面,有点磕磕绊绊的,总是很在意实习时长和课程学业的是否冲突。希望最后能过。
吐槽一下,最近xhs给我约面,还有之前的几次字节,还有鹅,总会有面试官问我来实习,也有同学会问我,学校课程怎么办,大四的实习是因为没课了,研一的实习课程怎么办,翘了呗,或者请代课,能怎么办,现在大环境这么卷,人家暑期秋招的时候不都是几段大厂实习或者几篇论文,自己实验室没能力出论文,那就多挤出时间去实习呗。现在大厂的面试官,他们当时应届的时候没实习也能进大厂吧,那时候一段实习可能就够了,现在又要学历又要实习又要论文,卷死我也,也有可能是自己对自己要求比较高吧,不过多去实习多去魅也是好事。
后续再更一下xhs社区搜索的面经,字节的不想写了,又面挂了,跟字节有仇似的[完啦R]
update:3.31HR面,面完后云证,系统进入录用评估页面。
腾讯wxg暑期大模型算法一面凉经
- 面试官介绍业务,问base广州能不能接受
- 介绍一下实习的工作
- 介绍一下内部评价指标,怎么设计的
- 内部评价指标是否合理,怎么证明(面试官认为评价指标不合理,指出我对业务理解不深)
- SFT怎么做的
- 偏好数据集怎么收集的
- multi-agent系统怎么实现的
- Qwen3-30B-A3B是个什么样的模型(迷惑)
- 讲一下自己对风控业务的理解(穿插介绍了他们组的工作)
- 手撕:旋转数组最小值(leetcode easy),岛屿数量(leetcode middle)
- 反问:组里工作,是不是kpi面
- 3个工作日后一面挂
- 后续过了一周多被捞到边缘部门面试(应该是面评不好),拒了以后回到初试流程,总台hr给我打电话被拦截了,遂中止