跳转至

11 阿里高德大模型算法面经

参考链接:

https://www.xiaohongshu.com/explore/69ba0a90000000001e00f34a?xsec_token=ABfHbRhqUKLCZDdlm5XzCO-7N_DVe4d4DmweZowCo2wWA=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69e72beb000000002102c8b1?xsec_token=ABzxLnB61ocLsf8o_rpvGGml79v1pUvrOmBYzekFZBfYE=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69d8cdd3000000001e00e1ea?xsec_token=ABXUBOFfR0YE-a6P5Qz1iKYwoLKUE1ctuNohwzVuhZGM8=&xsec_source=pc_search&source=web_search_result_notes

高德大模型算法暑期实习面经

发面经,攒人品

投递完收到测评和笔试

4月下旬完成2场技术面 无hr面

5月初oc

感谢高德认可

-------一面面经-------

  • 深挖论文和项目
  • 其中一个项目被问是不是课程作业
  • Perplexity定义和公式
  • 多头注意力机制
  • BERT 和 Decoder 掩码机制
  • lora 数学原理
  • 其他大模型评估指标
  • 手撕 softmax 函数及其优化

-------二面面经-------

  • 介绍了一下项目
  • 主要问地理相关
  • 推测某城市的经纬度多少(要求说出原因)
  • 纬度的纬线圈的计算公式
  • 问了一些东南亚国家的地理位置
  • 泰国和老挝的界河
  • 湄公河出海口在哪个城市

研0,无实习,非科班转码,项目基本是toy project。有一些地理常识没答出来,但还是发录用了。非常感谢高德的认可


面经:医学领域大模型微调 + 项目拷打

一、项目拷打(医学领域大模型微调)

  1. 数据是哪里来的?包括 SFT 部分以及 DPO 的数据。
  2. 自己微调的项目有实际的意义吗?有什么应用场景?
  3. 介绍 C-EVAL benchmark,这个数据集中只有医学领域的数据吗?
  4. 文本怎么做聚类?文本是怎么转成向量的(其实就是大模型 embedding 的过程)?
  5. 大模型都怎么做训练?包括哪些流程?
  6. 预训练怎么做?什么样的文本?预训练的 loss 是什么?
  7. 预训练和 SFT 的区别?SFT 的 loss 是什么?
  8. DPO、PPO、GRPO 的区别与联系。
  9. DPO 数据是什么样的?怎么生成的?
  10. DPO 要推理几次才能计算损失?(从来没考虑过这个问题)
  11. DPO 为什么可以节省显存?
  12. GRPO 为什么可以替代 PPO?
  13. 什么是重要性采样?写出数学公式。
  14. 奖励和优势有什么样的关系?
  15. 假如重要性采样值太大了怎么办?用什么方法将其限定在一定范围内?

二、项目拷打(第二组问题)

  1. 你的数据是哪来的?
  2. 做大模型微调、后训练有什么样的心得?
  3. 解释什么是 Agentic RL?怎么让他具备这样的能力?

三、手撕算法

题目 1(非递减数组,两数之和)
- 给定一个非递减数组和一个目标值,返回数组中是否有两个元素的和等于这个目标值。
- 要求:不能开辟一个新的数组(不能用哈希表)。
- 思路:双指针(一个左指针,一个右指针)。

题目 2(序列排序 + 按 pattern 抽取)
- 目标:对 q1 序列排序。
- 给定两个序列,按 q2 pattern 从 q1 中逐次抽取元素到队列 M,最后,不符合的元素追加到 M。注意保持相对顺序稳定。


阿里高德AI应用算法(用户增长)一面

高德地图-AI算法-用户增长方向-研究型实习-可转正

  • 自我介绍
  • 实习介绍
  • 训练奖励模型时的损失函数
  • self-certainty的约束具体做法
  • KL散度公式
  • KL散度和交叉熵的关系
  • GRPO中的各类惩罚怎么设定的
  • RLAIF的prompt最初是怎么设定的
  • RLAIF的迭代过程
  • 迭代时有哪些改进点
  • 觉得项目里最难的点是什么
  • 手撕:有序数组的平方