跳转至

14 阿里国际大模型算法面经

参考链接:

https://www.xiaohongshu.com/explore/69dde810000000001e00c07d?xsec_token=ABHw1QcGT8NjKWS31RqIDjffoFcAVLewCh6mj99_IYk7o=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69d0ead0000000002301f45f?xsec_token=ABrAa0dfkNflyWAHTCPYw14kjEktS3ixbUmo96NGsFXtk=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69cfca15000000001a0266ec?xsec_token=ABIReRuNeCJvWAOaDM9pUElKvB_zUw3YxGZJyW16BouIY=&xsec_source=pc_search&source=web_search_result_notes

阿里国际AI应用算法面经

个人背景:双九学历,两段中厂实习,Coding水平为LeetCode Hot 100

  1. 自我介绍

  2. 实习相关八股

  3. 业务场景

  4. SFT数据如何筛选和采样?有哪些处理?
  5. 为什么选取GRPO?优化目标是什么?GRPO的数学原理
  6. 奖励函数如何设计(重点拷问)
  7. 如何判断模型强化学习训练过程中训练质量达到要求?(未答上,仅说打印reward、人工监控,求评论区解答)
  8. 有没有出现reward hacking?
  9. 除了碰巧式的奖励作弊外,还有哪些奖励作弊?
  10. 了解PPO和DPO吗?(开始吟唱)

  11. 其它八股

  12. Attention计算时间复杂度

  13. KV Cache原理
  14. GQA、MLA原理
  15. vLLM原理
  16. Flash Attention原理
  17. 稀疏注意力原理
  18. 如果模型推理比较慢,如何排查?

  19. Coding

  20. rand7() 实现 rand10()

  21. 给定浮点数组,通过向上取整和向下取整构造目标整数,求最小变化之和
  22. 最长无重复子串

阿里国际大模型暑期面经

阿里这边投的比较晚 很多都在泡池子 只有阿里国际约面了

第一志愿岗位投的是多模态 之前没有多模态的实习经历但背了一些八股 还是被挂了 委婉的问出来面试官想要有实习经历的

一面:

  1. 详细复盘简历中相关项目,从数据构造、模型选型、训练链路到评估指标全流程?
  2. GSPO 算法的奖励函数怎么设计?核心逻辑
  3. 对 LoRA 技术了解多少?原理、实现细节、适用场景是什么?
  4. GSPO 的损失函数完整公式、计算逻辑是什么?训练中如何调优?
  5. DAPO 算法原理是什么?与 GSPO 有什么区别?适用哪些多模态场景?
  6. 处理数据时遇到过哪些质量问题?具体的过滤、验证、去重、降噪流程是什么?
  7. CLIP、BLIP 多模态模型的核心原理是什么?各自的图文融合方式有哪些差异?
  8. 多模态融合的常见方法有哪些?
  9. Multi-Head Attention 中的 KV-Cache、MLA、GQA 原理是什么?如何节省多模态训练/推理的显存?
  10. Transformer 的位置编码有哪些类型?旋转位置编码(RoPE)的原理是什么?
  11. 旋转位置编码中,旋转 Q、K 的目的是什么?作用是什么
  12. 多模态检索场景中,图文 Embedding 如何对齐?怎么保证检索的精准度?
  13. 多模态模型训练时,显存占用怎么计算?核心构成有哪些?如何优化?
  14. RAG 有了解吗?核心实现思路、文档切分与检索策略是什么?
  15. 多模态模型的评估指标有哪些?如何量化模型的图文匹配、生成效果?

阿里国际-大模型 Post Training 一面

很多没答出来面完秒挂

4/3 阿里国际-大模型后训练

压力拉满,考得比较深,答了一个喜欢接着问

问项目:

  • 为什么选择GRPO不用SFT,技术选型,什么时候用SFT,什么时候用蒸馏,什么时候用GRPO
  • GRPO训练中观察什么指标(我说主要是奖励,奖励的std,熵,KL;然后又问熵变得很小,如何改善)

八股大杂烩:

  • GRPO的loss讲讲
  • Advantages怎么算的,在整个训练中起什么作用,为什么需要Advantages,直接用奖励去算不行吗?
  • 重要性采样,为什么需要。如果一次新策略和旧策略差别很大,那重要性采样还有用吗
  • GRPO的KL散度和PPO的KL散度是一模一样的吗
  • PPO、GRPO是on-policy还是off-policy
  • PPO中advantages是怎么得到的?(我不知道,只说和TD有关;然后接着追问TD和MC的区别,我说确实不知道)
  • 信用分配,GRPO中,比如一个采样结果,是序列级别的,如果这个序列的最终奖励高,那么是如何分配到每个token的(我答的就是平均)
  • Agent做多轮工具调用和单轮,可能有什么挑战?(我答的过程的重要性,以及信用分配;接着问那为什么单轮过程就不重要呢?)

Code:

  • x的平方根(只保留整数部分),二分法写出来之后,要求我用梯度下降方法解