6 京东大模型算法实习面经

参考链接：

https://www.xiaohongshu.com/explore/69c507bc000000001a029456?xsec_token=ABl72lig8NFW4_Mi9fBmSRoK6dm4TxQeXFjdWxpaK3R8U=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/696aefd2000000000903b640?xsec_token=ABHVRh7k6ykKuroZgT4rRst2bYAf-9COgaMoJOb-DXKXI=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/696e072900000000220339e7?xsec_token=ABnl6ILMRDqetQo5FUdEDu4leH42fKUUxUTZVjy7vkI0k=&xsec_source=pc_search&source=web_search_result_notes

第一弹

自我介绍：开始吟唱没有问题
拷打八股文：
- 介绍一下Qwen系列模型的架构，训练方法。
- 讲一下PPO、DPO和GRPO的区别。③讲一下熵、交叉熵和KL散度的联系。
- 讲一下DeepSpeed，DDP和FlashAttention。
- 讲一下你为什么分类不用MSE。
- 计算一下Qwen3-8b推理的时候需要多少的显存。
- 讲一下RAG的流程以及可以优化的策略。
- 讲一下PPO中优势是如何计算的。critic模型是如何更新的。
拷打实习：奖励函数是如何设计的呢？GRPO前有没有冷启动过程。
手撕GQA

第二弹

能实习多久，什么时候能到岗？
本专业的课程涉及大模型方面吗？
介绍一下项目的背景。
如何召回？
为什么要选择这个模型。
讲一下rag的流程。
rag过程中哪些点可以优化。
用什么方式什么训练框架训练模型。
讲两个自认为掌握比较好的大模型相关知识，模型结构推理训练都行。
为啥ppo叫ppo？
为什么策略更新幅度大了就会不好？
grpo与ppo的区别？
机器学习的相关概念有了解吗？
为什么要有残差连接？
token在ppo和grpo当中是如何被计算的？
poo的价值函数如何进行价值估计？
预训练的过程是什么样的？
从数学层面解释梯度下降？
对模型量化部署有了解吗？
对bert模型的了解。
注意力怎么算？
grpo训练最开始的时候为什么loss会是0？
去实习的话导师同意吗？
手撕：给一个数组和一个目标值，返回所有和为目标值的子序列。
手撕：两数之和。

第三弹

bg：探索研究院，这个似乎是很纯正的研究型部门，总时长50min左右，面试官会经常打断（可能时间有限），然后对你回答里的某个点追问；大部分是在问项目，顺带问一些八股，算法题送分

简短自我介绍
常见的的大模型，或者说VLM这块的模型，了解过哪些？
Qwen 2.5 VL相对Qwen 2 VL做了哪些改进？
因为 q3 我答了有 M-RoPE（实际这个应该 Qwen 2 就有了 hhh），所以追问了 M-RoPE 比原来的 RoPE 有什么改进？有什么优点？
原来的 RoPE 在升级成 M-RoPE 之前，它是怎么处理视频的？具体来说，对于每一个每一帧或者说每一个 patch，是怎么处理的？
然后互相聊了不少项目，偏聊天风格，基本都是 short talk，并不都是问答
项目：主要想解决的核心问题是什么？
项目：既然是一个垂类的一个场景，为什么要去用通用场景下的 VLM 来做？为什么不用已经具有领域知识的一些模型？
项目：为什么你的 VLM 是输出点的坐标，而不输出 bbox 呢，bbox 按道理比点的坐标具有更多的图像信息吧？
讲一下 SAM2 分割模型的原理
项目：SFT框架用的是什么？
项目：SFT数据的合成pipeline，详细讲解一下
项目：数据是用算法生成的，你们怎么判断这一批数据是好的还是不好的呢？
算法题：lc70爬楼梯（送分，3分钟写出滚动数组优化）
反问