6 京东大模型算法实习面经
参考链接:
https://www.xiaohongshu.com/explore/69c507bc000000001a029456?xsec_token=ABl72lig8NFW4_Mi9fBmSRoK6dm4TxQeXFjdWxpaK3R8U=&xsec_source=pc_search&source=web_search_result_notes
https://www.xiaohongshu.com/explore/696aefd2000000000903b640?xsec_token=ABHVRh7k6ykKuroZgT4rRst2bYAf-9COgaMoJOb-DXKXI=&xsec_source=pc_search&source=web_search_result_notes
https://www.xiaohongshu.com/explore/696e072900000000220339e7?xsec_token=ABnl6ILMRDqetQo5FUdEDu4leH42fKUUxUTZVjy7vkI0k=&xsec_source=pc_search&source=web_search_result_notes
第一弹
- 自我介绍:开始吟唱没有问题
- 拷打八股文:
- 介绍一下Qwen系列模型的架构,训练方法。
- 讲一下PPO、DPO和GRPO的区别。③讲一下熵、交叉熵和KL散度的联系。
- 讲一下DeepSpeed,DDP和FlashAttention。
- 讲一下你为什么分类不用MSE。
- 计算一下Qwen3-8b推理的时候需要多少的显存。
- 讲一下RAG的流程以及可以优化的策略。
- 讲一下PPO中优势是如何计算的。critic模型是如何更新的。
- 拷打实习:奖励函数是如何设计的呢?GRPO前有没有冷启动过程。
- 手撕GQA
第二弹
- 能实习多久,什么时候能到岗?
- 本专业的课程涉及大模型方面吗?
- 介绍一下项目的背景。
- 如何召回?
- 为什么要选择这个模型。
- 讲一下rag的流程。
- rag过程中哪些点可以优化。
- 用什么方式什么训练框架训练模型。
- 讲两个自认为掌握比较好的大模型相关知识,模型结构推理训练都行。
- 为啥ppo叫ppo?
- 为什么策略更新幅度大了就会不好?
- grpo与ppo的区别?
- 机器学习的相关概念有了解吗?
- 为什么要有残差连接?
- token在ppo和grpo当中是如何被计算的?
- poo的价值函数如何进行价值估计?
- 预训练的过程是什么样的?
- 从数学层面解释梯度下降?
- 对模型量化部署有了解吗?
- 对bert模型的了解。
- 注意力怎么算?
- grpo训练最开始的时候为什么loss会是0?
- 去实习的话导师同意吗?
- 手撕:给一个数组和一个目标值,返回所有和为目标值的子序列。
- 手撕:两数之和。
第三弹
bg:探索研究院,这个似乎是很纯正的研究型部门,总时长50min左右,面试官会经常打断(可能时间有限),然后对你回答里的某个点追问;大部分是在问项目,顺带问一些八股,算法题送分
- 简短自我介绍
- 常见的的大模型,或者说VLM这块的模型,了解过哪些?
- Qwen 2.5 VL相对Qwen 2 VL做了哪些改进?
- 因为 q3 我答了有 M-RoPE(实际这个应该 Qwen 2 就有了 hhh),所以追问了 M-RoPE 比原来的 RoPE 有什么改进?有什么优点?
- 原来的 RoPE 在升级成 M-RoPE 之前,它是怎么处理视频的?具体来说,对于每一个每一帧或者说每一个 patch,是怎么处理的?
- 然后互相聊了不少项目,偏聊天风格,基本都是 short talk,并不都是问答
- 项目:主要想解决的核心问题是什么?
- 项目:既然是一个垂类的一个场景,为什么要去用通用场景下的 VLM 来做?为什么不用已经具有领域知识的一些模型?
- 项目:为什么你的 VLM 是输出点的坐标,而不输出 bbox 呢,bbox 按道理比点的坐标具有更多的图像信息吧?
- 讲一下 SAM2 分割模型的原理
- 项目:SFT框架用的是什么?
- 项目:SFT数据的合成pipeline,详细讲解一下
- 项目:数据是用算法生成的,你们怎么判断这一批数据是好的还是不好的呢?
- 算法题:lc70爬楼梯(送分,3分钟写出滚动数组优化)
- 反问