个人大模型学习路线整理（完整版）

一、算法基础：力扣刷题

重要：记得刷力扣！记得刷力扣！记得刷力扣！重要的事情说三遍。
尤其是力扣 Hot100，面试中出原题的概率极大（字节公司除外）。

二、Python 编程基础

如果时间较紧，这部分可以跳过。

2.1 Python 并发编程

多线程、多进程、多协程，加速程序运行
学习视频：https://www.bilibili.com/video/BV1bk411A7tV/

2.2 Python 面向对象编程

学习视频：https://www.bilibili.com/video/BV1U2WmzfEqp/

重点学习内容（不用全看，重点补以下部分）

继承和多态
魔法方法：__init__、__call__、__len__、__getitem__、__setitem__
- 例如：预训练中 dataset 的构建就需要 __len__ 和 __getitem__
- forward 方法基于 __call__
装饰器
迭代器和生成器
深拷贝和浅拷贝（面试常考题）

三、深度神经网络搭建与 PyTorch 框架实战

建议：尽量不学 TensorFlow，目前用得太少。

学习视频：https://www.bilibili.com/video/BV1c5yrBcEEx/

课程内容

PyTorch 框架
CNN
RNN（可跳过，第四部分有更具体的）

四、NLP 基础、Attention、Transformer、预训练与 Hugging Face 入门

学习视频：https://www.bilibili.com/video/BV1k44LzPEhU/

课程内容

4.1 NLP 基础：分词、RNN、LSTM、GRU
4.2 Attention 机制（缺时间的可以直接从这里看起）
4.3 Transformer 框架
4.4 BERT 框架和 GPT 框架
4.5 Hugging Face 入门和预训练部分
- 课程 5 与这部分有些重复，但 map 等细节讲得更细

五、微调

非常重要，学习资料相对较少。当初学习到这里停滞了四五天，主要用于找资料。
难度较高，但知识点较少，视频多实践、理论偏少，可以搜集资料一点一点学。

微调实战（包含分布式训练）：https://www.bilibili.com/video/BV18N411C71F/

六、对齐

个人感觉这部分是最难的，面试重点考察。

主要算法

PPO、DPO、GRPO、DSPO（彼此的区别）
PPO 中的：四个模型、GAE、重要性采样、on/off-policy、损失公式、KL 散度

实践方面

TRL 和 VRL 工具库

项目推荐

封装项目视频：https://www.bilibili.com/video/BV1XQLiz7EvY/
文档资料参考：https://wdndev.github.io/llm_interview_note/

这部分在 B 站找视频具体去看，个人零零碎碎看了很多，不好汇总，只记录核心内容。
面试重点问了 PPO，有对应项目最好。

七、MiniMind 架构与 Transformer

7.1 MiniMind 开源资源（动手敲敲）

开源代码：https://github.com/jingyaogong/minimind
代码讲解视频（理论好，代码逻辑一般，参考性看）：
- 稠密模型：https://www.bilibili.com/video/BV1T2k6BaEeC/
- 稀疏模型 MoE：https://www.bilibili.com/video/BV1y3FKzuE4W/
- LoRA 和 SFT：https://www.bilibili.com/video/BV1XWfUBTEHe/
模型结构：https://www.cnblogs.com/zbohan/p/19102925
训练细节：https://www.cnblogs.com/zbohan/p/19265096
原始 Transformer 实现：https://nlp.seas.harvard.edu/annotated-transformer/

7.2 Transformer 核心演进（面试手敲重点）

a. KV Cache / MQA / GQA

KV Cache：推理时缓存历史 K/V，加速生成，但增加显存
MQA（多头共享 K/V 头）→ GQA（分组共享 K/V 头）：平衡速度与显存

b. FFN、GLU、MoE

原始 FFN：使用 ReLU
GLU（门控线性单元）及变体：SwiGLU、GeGLU
- 门控机制：输入分两支，一支 sigmoid 门控，另一支线性输出
MoE：将 FFN 拆分为多个专家，动态路由激活部分，扩容降低算力

c. LN → RMSNorm

RMSNorm 仅用均方根缩放

d. 位置编码 → RoPE + Yarn

正弦余弦 → 旋转嵌入
矩阵旋转编码相对位置，支持长序列外推
Yarn：使用旋转嵌入，支持长序列外推

八、Agent 和 RAG

主要学习 LangChain 1.0（不要学 0.3）和 RAG（LlamaIndex 框架）

学习内容

Agent Skills 是什么？
跟 MCP、Workflow、Command、Prompt 有什么关系？
系统提示词和用户提示词的区别？

学习资源

视频：https://www.bilibili.com/video/BV162cPzhEGU/
All in RAG 文档：https://datawhalechina.github.io/all-in-rag/
Hello Agent 文档：https://datawhalechina.github.io/hello-agents/
LlamaIndex 搭建 RAG 框架：https://www.bilibili.com/video/BV1FPuGzrEXX/

九、面试手撕代码合集（大模型相关）

多看、多记、多理解！

GitHub 资源：https://github.com/AIR-hl/llm-interview-code

祝学习顺利，面试成功！

个人大模型学习路线整理（完整版）

一、算法基础：力扣刷题

推荐学习资源

二、Python 编程基础

2.1 Python 并发编程

2.2 Python 面向对象编程

重点学习内容（不用全看，重点补以下部分）

三、深度神经网络搭建与 PyTorch 框架实战

课程内容

四、NLP 基础、Attention、Transformer、预训练与 Hugging Face 入门

课程内容

五、微调

六、对齐

主要算法

实践方面

项目推荐

七、MiniMind 架构与 Transformer

7.1 MiniMind 开源资源（动手敲敲）

7.2 Transformer 核心演进（面试手敲重点）

a. KV Cache / MQA / GQA

b. FFN、GLU、MoE

c. LN → RMSNorm

d. 位置编码 → RoPE + Yarn

八、Agent 和 RAG

学习内容

学习资源

九、面试手撕代码合集（大模型相关）