个人大模型学习路线整理(完整版)
一、算法基础:力扣刷题
重要:记得刷力扣!记得刷力扣!记得刷力扣!重要的事情说三遍。
尤其是力扣 Hot100,面试中出原题的概率极大(字节公司除外)。
推荐学习资源
- 代码随想录:https://www.programmercarl.com/
- 力扣博主 灵茶山艾府 主页:https://leetcode.cn/u/endlesscheng/
面试手册部分 = 力扣题目 + 第九部分的手撕代码。
二、Python 编程基础
如果时间较紧,这部分可以跳过。
2.1 Python 并发编程
- 多线程、多进程、多协程,加速程序运行
- 学习视频:https://www.bilibili.com/video/BV1bk411A7tV/
2.2 Python 面向对象编程
- 学习视频:https://www.bilibili.com/video/BV1U2WmzfEqp/
重点学习内容(不用全看,重点补以下部分)
- 继承和多态
- 魔法方法:
__init__、__call__、__len__、__getitem__、__setitem__- 例如:预训练中 dataset 的构建就需要
__len__和__getitem__ forward方法基于__call__
- 例如:预训练中 dataset 的构建就需要
- 装饰器
- 迭代器和生成器
- 深拷贝和浅拷贝(面试常考题)
三、深度神经网络搭建与 PyTorch 框架实战
建议:尽量不学 TensorFlow,目前用得太少。
- 学习视频:https://www.bilibili.com/video/BV1c5yrBcEEx/
课程内容
- PyTorch 框架
- CNN
- RNN(可跳过,第四部分有更具体的)
四、NLP 基础、Attention、Transformer、预训练与 Hugging Face 入门
- 学习视频:https://www.bilibili.com/video/BV1k44LzPEhU/
课程内容
- 4.1 NLP 基础:分词、RNN、LSTM、GRU
- 4.2 Attention 机制(缺时间的可以直接从这里看起)
- 4.3 Transformer 框架
- 4.4 BERT 框架和 GPT 框架
- 4.5 Hugging Face 入门和预训练部分
- 课程 5 与这部分有些重复,但 map 等细节讲得更细
五、微调
非常重要,学习资料相对较少。当初学习到这里停滞了四五天,主要用于找资料。
难度较高,但知识点较少,视频多实践、理论偏少,可以搜集资料一点一点学。
- 微调实战(包含分布式训练):https://www.bilibili.com/video/BV18N411C71F/
六、对齐
个人感觉这部分是最难的,面试重点考察。
主要算法
- PPO、DPO、GRPO、DSPO(彼此的区别)
- PPO 中的:四个模型、GAE、重要性采样、on/off-policy、损失公式、KL 散度
实践方面
- TRL 和 VRL 工具库
项目推荐
- 封装项目视频:https://www.bilibili.com/video/BV1XQLiz7EvY/
- 文档资料参考:https://wdndev.github.io/llm_interview_note/
这部分在 B 站找视频具体去看,个人零零碎碎看了很多,不好汇总,只记录核心内容。
面试重点问了 PPO,有对应项目最好。
七、MiniMind 架构与 Transformer
7.1 MiniMind 开源资源(动手敲敲)
- 开源代码:https://github.com/jingyaogong/minimind
- 代码讲解视频(理论好,代码逻辑一般,参考性看):
- 稠密模型:https://www.bilibili.com/video/BV1T2k6BaEeC/
- 稀疏模型 MoE:https://www.bilibili.com/video/BV1y3FKzuE4W/
- LoRA 和 SFT:https://www.bilibili.com/video/BV1XWfUBTEHe/
- 模型结构:https://www.cnblogs.com/zbohan/p/19102925
- 训练细节:https://www.cnblogs.com/zbohan/p/19265096
- 原始 Transformer 实现:https://nlp.seas.harvard.edu/annotated-transformer/
7.2 Transformer 核心演进(面试手敲重点)
a. KV Cache / MQA / GQA
- KV Cache:推理时缓存历史 K/V,加速生成,但增加显存
- MQA(多头共享 K/V 头)→ GQA(分组共享 K/V 头):平衡速度与显存
b. FFN、GLU、MoE
- 原始 FFN:使用 ReLU
- GLU(门控线性单元)及变体:SwiGLU、GeGLU
- 门控机制:输入分两支,一支 sigmoid 门控,另一支线性输出
- MoE:将 FFN 拆分为多个专家,动态路由激活部分,扩容降低算力
c. LN → RMSNorm
- RMSNorm 仅用均方根缩放
d. 位置编码 → RoPE + Yarn
- 正弦余弦 → 旋转嵌入
- 矩阵旋转编码相对位置,支持长序列外推
- Yarn:使用旋转嵌入,支持长序列外推
八、Agent 和 RAG
主要学习 LangChain 1.0(不要学 0.3)和 RAG(LlamaIndex 框架)
学习内容
- Agent Skills 是什么?
- 跟 MCP、Workflow、Command、Prompt 有什么关系?
- 系统提示词和用户提示词的区别?
学习资源
- 视频:https://www.bilibili.com/video/BV162cPzhEGU/
- All in RAG 文档:https://datawhalechina.github.io/all-in-rag/
- Hello Agent 文档:https://datawhalechina.github.io/hello-agents/
- LlamaIndex 搭建 RAG 框架:https://www.bilibili.com/video/BV1FPuGzrEXX/
九、面试手撕代码合集(大模型相关)
多看、多记、多理解!
- GitHub 资源:https://github.com/AIR-hl/llm-interview-code
祝学习顺利,面试成功!