原文链接:
https://www.xiaohongshu.com/explore/69a01d300000000015030dc2?xsec_token=ABdM3eEMCKYDyO3keJ-pfuHBcAshFeD8Ck4Cp-F6v4c6o=&xsec_source=pc_search&source=web_search_result_notes
SFT、RL完整学习路线(带练手项目)
大模型算法最最重要的就是 SFT 和 RL,几乎可以面所有岗位。
本路线包含理论教材、SFT 路线、RL 路线、练手项目。
一、后训练教材
- 快速看一遍理论:复旦大学《大语言模型从理论到实践》,重点看第5章和第6章
- 遇到不懂的直接问 AI
- 参考教材PDF:https://introllm.github.io/chapter/LLM-TAP-v2.pdf
二、SFT(监督微调)
2.1 框架学习
先熟悉两个框架:
| 框架 | 特点 |
|---|---|
| PEFT | 写代码形式的框架,熟悉微调用到的组件和过程 |
| LLaMA-Factory | 傻瓜式微调框架,改一下 sh 参数即可,带 WebUI 界面 |
大部分框架都是后者这种,大同小异。
业界常用的是阿里的 ms-swift 框架,SFT 和 RL 都可以用这一个框架。
框架不重要,都是傻瓜式操作。
2.2 原理与实操
企业中一般都是全参微调,LoRA 偶尔用但很重要。
做 SFT 最重要的不是模型,而是数据的数量和质量。
- 原理视频:https://www.bilibili.com/video/BV1Xu4y1k7Ls/
- 配套代码:https://github.com/zyds/transformers-code/tree/master/03-PEFT
- LoRA from scratch:https://zhuanlan.zhihu.com/p/702419731
2.3 练手项目(PEFT 实操)
项目一:Chat-甄嬛
- 基于《甄嬛传》剧本中所有关于甄嬛的台词和语句
- 基于大模型进行 LoRA 微调,得到模仿甄嬛语气的聊天模型
- 可以熟悉微调流程
项目二:self-llm 嫚嫚实操
- 链接:https://github.com/datawhalechina/self-llm/blob/master/examples/Chat-%E5%AC%9B%E5%AC%9B/readme.md
2.4 LLaMA-Factory 框架使用
- 框架比较经典,对小白用户更友好
- 因为基于 LLaMA-Factory 的项目比较多,可以先从这个入手
- 视频:使用 Llama Factory 实现中文 Llama3 微调
https://www.bilibili.com/video/BV1uw4m1S7Cd/
2.5 另一个练手项目
- 项目:Qwen3-医疗(全参和 LoRA 都可以做)
- 链接:https://zhuanlan.zhihu.com/p/1903848838214705484
三、RL(强化学习)
RL 只需要掌握 PPO、DPO、GRPO/GSPO。
| 算法 | 定位 |
|---|---|
| PPO | 理论基础,现在没什么人用了,但要懂原理 |
| DPO | 类似于微调,没有奖励函数,用的也不多,但要懂原理 |
| GRPO | 业界最最常用,面试项目也基于它 |
| GSPO/DAPO | GRPO 家族的小改进,区别不大 |
3.1 学习步骤
第一步:读论文
- PPO:https://arxiv.org/abs/1707.06347
- GRPO:https://arxiv.org/abs/2402.03300
不懂的问 AI 或去小红书搜,不用抠很细,都不难。
第二步:看视频
- 视频链接:https://www.bilibili.com/video/BV1XQLiz7EvY/
- 重点看:GRPO 和 GSPO
第三步:跑 demo(ms-swift 框架)
- 熟悉框架和训练流程
- 强烈建议学学文档,看每个参数的含义
- 这个框架以后工作也会用
- 文档:https://swift.readthedocs.io/zh-cn/latest/BestPractices/GRPO.html
3.2 练手项目
项目一:基于小模型(0.5B)复现 DeepSeek-R1 的思维链
- 链接:https://mp.weixin.qq.com/s/PZNBjWooWsZGITInNnQ
项目二:MiniMind
- 链接:https://github.com/jingyaogong/minimind
四、后续计划
后面会出关于 RL 系列的专题文章。