小红书博主:怀桢
原文链接:https://www.xiaohongshu.com/explore/69f81436000000003603118f?xsec_token=ABGdDojQxpa9XFWpz_fhZHJd6jPRLaptlImKfoke2bA4I=&xsec_source=pc_search&source=web_search_result_notes
Agent应用与后训练学习路线
我个人学东西,喜欢集中一段时间学完,不喜欢每天都干一部分,以下内容建议一个月之内学完。
短期执行的学习路线:先补 NLP/LLM 基础,再做 LLM 应用与 Agent,再进入后训练,最后项目沉淀,算法题时刻都要刷。
1. 第一阶段:算法、Python 与深度学习基础
推荐内容
- LeetCode:https://leetcode.cn/ (hot100 题即可,优先 easy/medium)
- 代码随想录:https://programmercarl.com/
- CS231n:卷积网络和深度学习基础,适合补反向传播、优化器、训练技巧。 https://cs231n.stanford.edu/
- PyTorch 小土堆入门:https://www.bilibili.com/video/BV1hE411t7RN/
2. 第二阶段:NLP与LLM基础
核心课程
-
CS224N:自然语言处理
https://web.stanford.edu/class/cs224n/ -
CS336:从0构建大模型
https://stanford-cs336.github.io/spring2025/ -
Happy-LLM:中文LLM入门项目,适合快速建立整体认知。
https://github.com/datawhalechina/happy-llm -
李宏毅机器学习/深度学习课程:中文友好,适合补基础。
https://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.php
3. 第三阶段:LLM应用与Agent
这一阶段目标是能做出真正可运行的 LLM 应用,建议和实际项目结合理解,不要单纯看文档,但是官方文档写的真的很详细。
推荐教程与项目
-
Hugging Face Agents Course: Agent 入门最推荐
https://huggingface.co/learn/agents-course -
LangGraph 官方文档:生产级 Agent 编排重点看这个。
https://langchain.ai.github.io/langgraph/ -
LangChain Academy - Introduction to LangGraph
https://academy.langchain.com/courses/intro-to-langgraph -
Model Context Protocol: MCP 官方文档。
https://modelcontextprotocol.io/
4. 第四阶段:后训练基础
这一阶段目标是会用主流框架训练开源模型,并理解每种训练方法适合解决什么问题。
推荐教程与框架
-
Hugging Face TRL: SFT、DPO、PPO、GRPO 等核心训练接口。
https://huggingface.co/docs/trl -
Hugging Face PEFT: LoRA/QLoRA 必看。
https://huggingface.co/docs/peft -
LLaMA-Factory: 配置化训练框架,适合快速做 SFT/DPO 实验。
https://github.com/hiyouga/LLaMA-Factory -
OpenRLHF: 偏大规模 RLHF 工程。
https://github.com/OpenRLHF/OpenRLHF
5. 第五阶段:论文阅读
论文不需要一开始大量泛读,先抓住主线即可。
-
Attention Is All You Need:
https://arxiv.org/abs/1706.03762 -
InstructGPT
https://arxiv.org/abs/2203.02155 -
LoRA: https://arxiv.org/abs/2106.09685
-
QLoRA
https://arxiv.org/abs/2305.14314 -
DPO: https://arxiv.org/abs/2305.18290
-
DeepSeekMath / GRPO
https://arxiv.org/abs/2402.03300 -
DeepSeek-R1
https://arxiv.org/abs/2501.12948 -
ReAct: https://arxiv.org/abs/2210.03629