14 阿里国际大模型算法面经
参考链接:
https://www.xiaohongshu.com/explore/69dde810000000001e00c07d?xsec_token=ABHw1QcGT8NjKWS31RqIDjffoFcAVLewCh6mj99_IYk7o=&xsec_source=pc_search&source=web_search_result_notes
https://www.xiaohongshu.com/explore/69d0ead0000000002301f45f?xsec_token=ABrAa0dfkNflyWAHTCPYw14kjEktS3ixbUmo96NGsFXtk=&xsec_source=pc_search&source=web_search_result_notes
https://www.xiaohongshu.com/explore/69cfca15000000001a0266ec?xsec_token=ABIReRuNeCJvWAOaDM9pUElKvB_zUw3YxGZJyW16BouIY=&xsec_source=pc_search&source=web_search_result_notes
阿里国际AI应用算法面经
个人背景:双九学历,两段中厂实习,Coding水平为LeetCode Hot 100
-
自我介绍
-
实习相关八股
-
业务场景
- SFT数据如何筛选和采样?有哪些处理?
- 为什么选取GRPO?优化目标是什么?GRPO的数学原理
- 奖励函数如何设计(重点拷问)
- 如何判断模型强化学习训练过程中训练质量达到要求?(未答上,仅说打印reward、人工监控,求评论区解答)
- 有没有出现reward hacking?
- 除了碰巧式的奖励作弊外,还有哪些奖励作弊?
-
了解PPO和DPO吗?(开始吟唱)
-
其它八股
-
Attention计算时间复杂度
- KV Cache原理
- GQA、MLA原理
- vLLM原理
- Flash Attention原理
- 稀疏注意力原理
-
如果模型推理比较慢,如何排查?
-
Coding
-
rand7() 实现 rand10()
- 给定浮点数组,通过向上取整和向下取整构造目标整数,求最小变化之和
- 最长无重复子串
阿里国际大模型暑期面经
阿里这边投的比较晚 很多都在泡池子 只有阿里国际约面了
第一志愿岗位投的是多模态 之前没有多模态的实习经历但背了一些八股 还是被挂了 委婉的问出来面试官想要有实习经历的
一面:
- 详细复盘简历中相关项目,从数据构造、模型选型、训练链路到评估指标全流程?
- GSPO 算法的奖励函数怎么设计?核心逻辑
- 对 LoRA 技术了解多少?原理、实现细节、适用场景是什么?
- GSPO 的损失函数完整公式、计算逻辑是什么?训练中如何调优?
- DAPO 算法原理是什么?与 GSPO 有什么区别?适用哪些多模态场景?
- 处理数据时遇到过哪些质量问题?具体的过滤、验证、去重、降噪流程是什么?
- CLIP、BLIP 多模态模型的核心原理是什么?各自的图文融合方式有哪些差异?
- 多模态融合的常见方法有哪些?
- Multi-Head Attention 中的 KV-Cache、MLA、GQA 原理是什么?如何节省多模态训练/推理的显存?
- Transformer 的位置编码有哪些类型?旋转位置编码(RoPE)的原理是什么?
- 旋转位置编码中,旋转 Q、K 的目的是什么?作用是什么
- 多模态检索场景中,图文 Embedding 如何对齐?怎么保证检索的精准度?
- 多模态模型训练时,显存占用怎么计算?核心构成有哪些?如何优化?
- RAG 有了解吗?核心实现思路、文档切分与检索策略是什么?
- 多模态模型的评估指标有哪些?如何量化模型的图文匹配、生成效果?
阿里国际-大模型 Post Training 一面
很多没答出来面完秒挂
4/3 阿里国际-大模型后训练
压力拉满,考得比较深,答了一个喜欢接着问
问项目:
- 为什么选择GRPO不用SFT,技术选型,什么时候用SFT,什么时候用蒸馏,什么时候用GRPO
- GRPO训练中观察什么指标(我说主要是奖励,奖励的std,熵,KL;然后又问熵变得很小,如何改善)
八股大杂烩:
- GRPO的loss讲讲
- Advantages怎么算的,在整个训练中起什么作用,为什么需要Advantages,直接用奖励去算不行吗?
- 重要性采样,为什么需要。如果一次新策略和旧策略差别很大,那重要性采样还有用吗
- GRPO的KL散度和PPO的KL散度是一模一样的吗
- PPO、GRPO是on-policy还是off-policy
- PPO中advantages是怎么得到的?(我不知道,只说和TD有关;然后接着追问TD和MC的区别,我说确实不知道)
- 信用分配,GRPO中,比如一个采样结果,是序列级别的,如果这个序列的最终奖励高,那么是如何分配到每个token的(我答的就是平均)
- Agent做多轮工具调用和单轮,可能有什么挑战?(我答的过程的重要性,以及信用分配;接着问那为什么单轮过程就不重要呢?)
Code:
- x的平方根(只保留整数部分),二分法写出来之后,要求我用梯度下降方法解