10 腾讯大模型算法面经

参考链接：

https://www.xiaohongshu.com/explore/69bbc946000000001a020d22?xsec_token=ABH1P3PLT1utsOlr-SUdALPBgBTcZue4jrgs0ENrpBKA0=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69e9c830000000001b02386d?xsec_token=ABTHgbwDd0k-nxWI1C7GTtuofjFyajZ84B76xsFQSuYCY=&xsec_source=pc_user

https://www.xiaohongshu.com/explore/69bdf3ea000000002302153d?xsec_token=ABQWv35UeCHf7Thj2OOqoZHVSXzUkPCnrHlW3lnhtaEF0=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69e8d07f000000001a02e4c5?xsec_token=ABcZ5x0gsB01iMm40xBKomSNiAG9MzVa7HnBGAlzwQEVs=&xsec_source=pc_user

https://www.xiaohongshu.com/explore/69feb8e6000000002202a42e?xsec_token=AB5RUiJo-kVPa_bsuFwKemAn5Zr92nvirQa4AJYNfSoTA=&xsec_source=pc_search&source=web_search_result_notes

腾讯大模型算法岗面经（已OC），不看会后悔！

大模型算法岗位（自然语言处理）---面经（已经OC）

一面技术面（时间大概1个小时）

自我介绍
将实习展开讲一下(相关提问)
常见的语义切分你知道哪些?
你讲一下Qwen3-Embedding+BM25+BGE-M3他们有召回的方式有什么区别?
将RRF融合展开讲一下?
整个RAG的整个流程?
用户输入进去就直接召回吗?
讲一下VLLM怎么实现推理加速的?
GraphRAG怎么实现检索的?

手撕:多头注意力机制

闲聊：你喜欢打游戏吗?打什么游戏?

反问：介绍一下公司业务？

二面技术面时间大概1个小时

实习相关追问（大概15分钟，这里每位同学不太一样，不用太参考！）
首先讲一下transformer的架构，然后为什么注意力机制要除以根号dk，为什么是除这个数？
讲一下PPO，DPO，GRPO，DAPO的改进？（这里可以开始吟唱了哈哈哈）
DPO的损失函数是什么？（公式追问？，字节会让你手撕4个损失函数，所以大家这里一定要会！）
你在微调训练过程中，batch_size，seq_len怎么设定的？为什么这么设定？
在loar微调的时候要调整哪些参数?
encoder与decoder的区别是什么？为什么大模型选择Decoder-only？
比较常用的位置编码的方式？
如果出现OOM，常见的处理方式是什么？
qwen3的模型架构做了哪些改进（推荐大家去看一些技术报告，比如Qwen2.5/3,Deepseek-V3等技术报告）？
现在是多模态大模型的一般架构是什么？
介绍一下“感受野”？

手撕：最大连通域的面积

反问：你觉得我还有哪些地方需要改进？

hr面（本来说有三面的，但是没有加试！！！，二面面试官直接给我推到hr面了）

这里问题都比较常规吧。只有一点大家要注意，自己名下不能有公司，会和tx出现利益冲突！！！

腾讯WXG暑期实习面经-大模型算法

一面（1小时30分钟）：

上来先做题 1. 手撕AdamW 2. 手撕无重复字母的字串（hot100） 3. 出了两个题都是对数据库的操作，我以为是让写大模拟，写到一半结果面试官告诉我是用sql写[呃R]，不会遂罢。 4. 面对海量数据的时候怎么对数据进行处理，比如说去除掉敏感词等等，面对海量数据会出现哪些问题，该如何去处理 5. 介绍发表的顶会论文 6. 介绍Q-learning和DQN

二面（2小时30分钟）

实习乃至秋招面的最久的一轮面试了，从晚上七点多面到十点，最后人都麻了，面试官估计要下班了结束了面试[扶额R]

介绍论文，主包是做强化学习相关的，围绕问了很多强化学习算法（GRPO，PPO，reward model），介绍马尔可夫决策过程。
bf16、fp16和fp32，并进行计算。
lora微调的细节，量化相关知识

然后开始漫长的手撕过程

手撕ppo
算马尔可夫决策过程的y阈值，我感觉是个无穷级数？
算模型sft的参数量大小及显卡利用率
是否重合链表（hot100）
如何使得一个输入向量x在经过一个或多个全连接层后，其输出向量y所在子空间基底尽可能接近标准正交基

三面（面委会面）（30分钟）

介绍第一篇顶会论文（共享屏幕）
介绍第二篇顶会论文
不同强化学习之间的区别
和使用强化学习训练大模型相比，使用强化学习训练小模型需要做出哪些改变

hr面（30分钟）

常规的hr面问题，主要问来wx的意向。

感觉前几面比较侧重技术细节，面委会感觉就比较侧重聊未来技术的发展，个人感觉前几面的压力比较大[完啦R]

腾讯算法岗一面

后训练了解吗？介绍一下 dpo 和 ppo 的区别，grpo 以及改进思路，优势函数怎么设计等等
SFT 的 loss 是怎么计算的？项目用到 lora，了解过 qlora 吗？两者有什么区别？
介绍 self-attention，问为什么要除以根号下 dk，可以除以其他数吗，或者有没有等价的方法？说一下不同的 attention 及原理和公式（MHA、MQA、GQA、MLA）
位置编码有了解哪些？rope 了解吗？
Agent 了解吗？什么是 skills？什么是 mcp？有啥区别？agent 里面 memory 问题你认为有哪些解决方案？长期记忆会短期记忆怎么处理？上下文机制怎么实现？Cot 和 Tot 的核心原理？ReAct 了解过吗？
手撕三数之和

腾讯大模型算法面经

大模型训练数据清洗规则通常从哪些维度设计？
开源大模型选型依据是什么，如何做评估对比？
数据构造如何避免引入偏见与新问题？
文本 / 意图聚类常用方案优缺点？
SFT 微调流程、关键节点与注意事项？
LoRA 与全量微调的适用场景区别？
RAG 落地常见问题（模型不听检索结果、召回不准、延迟高）怎么解决？
COT 思维链在业务场景下的设计思路与格式？
检索失败 / 召回噪音的兜底策略？
Agent 路由 / 动态工具调用决策如何实现？
外部工具（搜索 / 检索）调用方式有哪些？
多模态召回方案对比与融合策略？
GRPO/PPO 对齐算法的区别、优缺点？
奖励函数如何设计，如何解决奖励稀疏、Reward Hacking问题？
DPO 好的负样本构造原则？
Agent 长短期记忆如何实现？
常用 Agent 开发框架对比，自研与框架选型考量？
多模态检索模型对比与选型依据？
小样本场景下微调方法原理与优势？
检索架构设计思路？
大规模向量库毫秒级响应如何保证？
难负样本构造与判别器优化方法？
Linux 环境下模型服务响应慢如何排查？
大模型推理加速方案（vLLM/SGLang、KV Cache）？
复杂 RAG/Agent 链路延迟瓶颈与优化策略？
Python 基础：列表 vs 元组、深拷贝 vs 浅拷贝？
计算机网络：HTTP GET/POST 区别、参数位置？

手撕：最小操作次数使序列有序？

腾讯春招大模型算法TEG面经（拟OC）

一面

如何在 GRPO 提升输出的可解释性？ reward 模型如何训练
什么是灾难性遗忘，从模型和外置角度说明
位置编码是什么？扩展有哪些（ROPE 等）？
如何提升模型的上下文理解能力？长序列 attention 方法有哪些类型？如何减少模型推理时延？
现在训练合适的 reward 一般用多少大小的模型？如何设计专业的 reward system？
手撕：最长公共子序列
一面总结：1h 超长面试，聊了很多。

二面

rule-based 和 model-based 的方法做 reward 有什么区别？说一下合适场景
reward model 的设计是怎样的，为什么要用 72b 的模型
internvl 和 qwen 的 chat template 有哪些不同？为什么这样设计？
拟人化 Memory 设计技巧，常见 memory 有哪几种？实现方式是什么？
GRPO 均值怎么算的？为什么这样设计？
MOE 如何训的？为什么要用 metragon-swift 和一般 ms-swift 区别是什么？ ep 如何实现的？
长度不一致的数据如何避免 padding 过长？
手撕：股票最佳时机

技术面结束，沟通说面评好大领导没时间不面了直接hr，自此校招完美谢幕，校招BAT基本都拿了。

我想起了暑期实习第一场也是鹅捞的我，然后首先OC，那校招终点会去企鹅吗？（想起了我宿舍的生日鹅，偷鹅，实习蓝鹅，长鹅）

新鲜面经——腾讯wxg大模型算法实习

一面：

自我介绍
讲一下最想讲的项目（提问了项目细节）
reward model的训练数据一般怎么构建
最近几个月，有了解过最新的reward model有新的范式吗？
想做一个更通用的reward model？可以怎么设计呢？（不只是任务通用也可以是模型通用）
介绍最近在做的研究工作
了解online Distillation吗
讲下多模态模型？qwen3 vl的image encoder是什么？
无code

二面：

自我介绍
实习项目哪些是你完成的？输入输出是啥，项目细节询问（数据构造细节、为啥要用dpo）？
qwen之前也做过类似的，你认为为什么在你这里结论有区别？
dpo、grpo、dapo的区别？
ppo的critic model是怎么训的？作用是什么？
科研项目概诉
现在在做的研究
无code

wxg多模态日常实习面经

3.2一面

3.4二面

3.17三面

目前页面面试链接消失，但是还是复试中，等待希望能过。

比起字节来说，鹅的面试体验不要好太多。

一面：自我介绍，详细问我上段实习经历，然后问qwen2.5vl和qwen3vl的技术，然后问强化学习ppo/dpo/grpo，然后聊了一下之前实习时长为啥不长，以及学业/实习等问题，无手撕。

二面：自我介绍，还是详细问我上段实习，问数据构造，问qwen2.5vl和qwen3vl的技术，问grpo，问实习时长，手撕是mha，原本准备手撕两道，第一道是自注意力机制，我直接写了mha，然后就不用写第二道了。

三面：自我介绍，详细先问我学业/实习时长/课程/论文的问题，详细问上段实习，同一二面的qwenvl系列技术，然后考查了一些基础知识点，但是我之前都复习过，vit架构，vit的图像是怎么处理传入的(我之前记得是按patch划分，展平，代码技术上过了一层卷积，16*16*3就变成了768的向量)，qwenvl的动态分辨率怎么实现(最近考的真多，xhs和字节也问到了)。最后20分钟手撕一道，给定字符串求有多少种划分正确ip地址的题目，我dfs写出。总的来说，前两面很顺利，三面主管面，有点磕磕绊绊的，总是很在意实习时长和课程学业的是否冲突。希望最后能过。

吐槽一下，最近xhs给我约面，还有之前的几次字节，还有鹅，总会有面试官问我来实习，也有同学会问我，学校课程怎么办，大四的实习是因为没课了，研一的实习课程怎么办，翘了呗，或者请代课，能怎么办，现在大环境这么卷，人家暑期秋招的时候不都是几段大厂实习或者几篇论文，自己实验室没能力出论文，那就多挤出时间去实习呗。现在大厂的面试官，他们当时应届的时候没实习也能进大厂吧，那时候一段实习可能就够了，现在又要学历又要实习又要论文，卷死我也，也有可能是自己对自己要求比较高吧，不过多去实习多去魅也是好事。

后续再更一下xhs社区搜索的面经，字节的不想写了，又面挂了，跟字节有仇似的[完啦R]

update：3.31HR面，面完后云证，系统进入录用评估页面。

腾讯wxg暑期大模型算法一面凉经

面试官介绍业务，问base广州能不能接受
介绍一下实习的工作
介绍一下内部评价指标，怎么设计的
内部评价指标是否合理，怎么证明（面试官认为评价指标不合理，指出我对业务理解不深）
SFT怎么做的
偏好数据集怎么收集的
multi-agent系统怎么实现的
Qwen3-30B-A3B是个什么样的模型（迷惑）
讲一下自己对风控业务的理解（穿插介绍了他们组的工作）
手撕：旋转数组最小值（leetcode easy），岛屿数量（leetcode middle）
反问：组里工作，是不是kpi面
3个工作日后一面挂
后续过了一周多被捞到边缘部门面试（应该是面评不好），拒了以后回到初试流程，总台hr给我打电话被拦截了，遂中止