11 阿里高德大模型算法面经

参考链接：

https://www.xiaohongshu.com/explore/69ba0a90000000001e00f34a?xsec_token=ABfHbRhqUKLCZDdlm5XzCO-7N_DVe4d4DmweZowCo2wWA=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69e72beb000000002102c8b1?xsec_token=ABzxLnB61ocLsf8o_rpvGGml79v1pUvrOmBYzekFZBfYE=&xsec_source=pc_search&source=web_search_result_notes

https://www.xiaohongshu.com/explore/69d8cdd3000000001e00e1ea?xsec_token=ABXUBOFfR0YE-a6P5Qz1iKYwoLKUE1ctuNohwzVuhZGM8=&xsec_source=pc_search&source=web_search_result_notes

高德大模型算法暑期实习面经

发面经，攒人品

投递完收到测评和笔试

4月下旬完成2场技术面无hr面

5月初oc

感谢高德认可

-------一面面经-------

深挖论文和项目
其中一个项目被问是不是课程作业
Perplexity定义和公式
多头注意力机制
BERT 和 Decoder 掩码机制
lora 数学原理
其他大模型评估指标
手撕 softmax 函数及其优化

-------二面面经-------

介绍了一下项目
主要问地理相关
推测某城市的经纬度多少（要求说出原因）
纬度的纬线圈的计算公式
问了一些东南亚国家的地理位置
泰国和老挝的界河
湄公河出海口在哪个城市

研0，无实习，非科班转码，项目基本是toy project。有一些地理常识没答出来，但还是发录用了。非常感谢高德的认可

面经：医学领域大模型微调 + 项目拷打

一、项目拷打（医学领域大模型微调）

数据是哪里来的？包括 SFT 部分以及 DPO 的数据。
自己微调的项目有实际的意义吗？有什么应用场景？
介绍 C-EVAL benchmark，这个数据集中只有医学领域的数据吗？
文本怎么做聚类？文本是怎么转成向量的（其实就是大模型 embedding 的过程）？
大模型都怎么做训练？包括哪些流程？
预训练怎么做？什么样的文本？预训练的 loss 是什么？
预训练和 SFT 的区别？SFT 的 loss 是什么？
DPO、PPO、GRPO 的区别与联系。
DPO 数据是什么样的？怎么生成的？
DPO 要推理几次才能计算损失？（从来没考虑过这个问题）
DPO 为什么可以节省显存？
GRPO 为什么可以替代 PPO？
什么是重要性采样？写出数学公式。
奖励和优势有什么样的关系？
假如重要性采样值太大了怎么办？用什么方法将其限定在一定范围内？

二、项目拷打（第二组问题）

你的数据是哪来的？
做大模型微调、后训练有什么样的心得？
解释什么是 Agentic RL？怎么让他具备这样的能力？

三、手撕算法

题目 1（非递减数组，两数之和）
- 给定一个非递减数组和一个目标值，返回数组中是否有两个元素的和等于这个目标值。
- 要求：不能开辟一个新的数组（不能用哈希表）。
- 思路：双指针（一个左指针，一个右指针）。

题目 2（序列排序 + 按 pattern 抽取）
- 目标：对 q1 序列排序。
- 给定两个序列，按 q2 pattern 从 q1 中逐次抽取元素到队列 M，最后，不符合的元素追加到 M。注意保持相对顺序稳定。

阿里高德AI应用算法(用户增长)一面

高德地图-AI算法-用户增长方向-研究型实习-可转正

自我介绍
实习介绍
训练奖励模型时的损失函数
self-certainty的约束具体做法
KL散度公式
KL散度和交叉熵的关系
GRPO中的各类惩罚怎么设定的
RLAIF的prompt最初是怎么设定的
RLAIF的迭代过程
迭代时有哪些改进点
觉得项目里最难的点是什么
手撕：有序数组的平方