11 阿里高德大模型算法面经
参考链接:
https://www.xiaohongshu.com/explore/69ba0a90000000001e00f34a?xsec_token=ABfHbRhqUKLCZDdlm5XzCO-7N_DVe4d4DmweZowCo2wWA=&xsec_source=pc_search&source=web_search_result_notes
https://www.xiaohongshu.com/explore/69e72beb000000002102c8b1?xsec_token=ABzxLnB61ocLsf8o_rpvGGml79v1pUvrOmBYzekFZBfYE=&xsec_source=pc_search&source=web_search_result_notes
https://www.xiaohongshu.com/explore/69d8cdd3000000001e00e1ea?xsec_token=ABXUBOFfR0YE-a6P5Qz1iKYwoLKUE1ctuNohwzVuhZGM8=&xsec_source=pc_search&source=web_search_result_notes
高德大模型算法暑期实习面经
发面经,攒人品
投递完收到测评和笔试
4月下旬完成2场技术面 无hr面
5月初oc
感谢高德认可
-------一面面经-------
- 深挖论文和项目
- 其中一个项目被问是不是课程作业
- Perplexity定义和公式
- 多头注意力机制
- BERT 和 Decoder 掩码机制
- lora 数学原理
- 其他大模型评估指标
- 手撕 softmax 函数及其优化
-------二面面经-------
- 介绍了一下项目
- 主要问地理相关
- 推测某城市的经纬度多少(要求说出原因)
- 纬度的纬线圈的计算公式
- 问了一些东南亚国家的地理位置
- 泰国和老挝的界河
- 湄公河出海口在哪个城市
研0,无实习,非科班转码,项目基本是toy project。有一些地理常识没答出来,但还是发录用了。非常感谢高德的认可
面经:医学领域大模型微调 + 项目拷打
一、项目拷打(医学领域大模型微调)
- 数据是哪里来的?包括 SFT 部分以及 DPO 的数据。
- 自己微调的项目有实际的意义吗?有什么应用场景?
- 介绍 C-EVAL benchmark,这个数据集中只有医学领域的数据吗?
- 文本怎么做聚类?文本是怎么转成向量的(其实就是大模型 embedding 的过程)?
- 大模型都怎么做训练?包括哪些流程?
- 预训练怎么做?什么样的文本?预训练的 loss 是什么?
- 预训练和 SFT 的区别?SFT 的 loss 是什么?
- DPO、PPO、GRPO 的区别与联系。
- DPO 数据是什么样的?怎么生成的?
- DPO 要推理几次才能计算损失?(从来没考虑过这个问题)
- DPO 为什么可以节省显存?
- GRPO 为什么可以替代 PPO?
- 什么是重要性采样?写出数学公式。
- 奖励和优势有什么样的关系?
- 假如重要性采样值太大了怎么办?用什么方法将其限定在一定范围内?
二、项目拷打(第二组问题)
- 你的数据是哪来的?
- 做大模型微调、后训练有什么样的心得?
- 解释什么是 Agentic RL?怎么让他具备这样的能力?
三、手撕算法
题目 1(非递减数组,两数之和)
- 给定一个非递减数组和一个目标值,返回数组中是否有两个元素的和等于这个目标值。
- 要求:不能开辟一个新的数组(不能用哈希表)。
- 思路:双指针(一个左指针,一个右指针)。
题目 2(序列排序 + 按 pattern 抽取)
- 目标:对 q1 序列排序。
- 给定两个序列,按 q2 pattern 从 q1 中逐次抽取元素到队列 M,最后,不符合的元素追加到 M。注意保持相对顺序稳定。
阿里高德AI应用算法(用户增长)一面
高德地图-AI算法-用户增长方向-研究型实习-可转正
- 自我介绍
- 实习介绍
- 训练奖励模型时的损失函数
- self-certainty的约束具体做法
- KL散度公式
- KL散度和交叉熵的关系
- GRPO中的各类惩罚怎么设定的
- RLAIF的prompt最初是怎么设定的
- RLAIF的迭代过程
- 迭代时有哪些改进点
- 觉得项目里最难的点是什么
- 手撕:有序数组的平方