原文链接：

https://www.xiaohongshu.com/explore/69a01d300000000015030dc2?xsec_token=ABdM3eEMCKYDyO3keJ-pfuHBcAshFeD8Ck4Cp-F6v4c6o=&xsec_source=pc_search&source=web_search_result_notes

SFT、RL完整学习路线（带练手项目）

大模型算法最最重要的就是 SFT 和 RL，几乎可以面所有岗位。
本路线包含理论教材、SFT 路线、RL 路线、练手项目。

一、后训练教材

快速看一遍理论：复旦大学《大语言模型从理论到实践》，重点看第5章和第6章
遇到不懂的直接问 AI
参考教材PDF：https://introllm.github.io/chapter/LLM-TAP-v2.pdf

二、SFT（监督微调）

2.1 框架学习

先熟悉两个框架：

框架	特点
PEFT	写代码形式的框架，熟悉微调用到的组件和过程
LLaMA-Factory	傻瓜式微调框架，改一下 sh 参数即可，带 WebUI 界面

大部分框架都是后者这种，大同小异。
业界常用的是阿里的 ms-swift 框架，SFT 和 RL 都可以用这一个框架。
框架不重要，都是傻瓜式操作。

2.2 原理与实操

企业中一般都是全参微调，LoRA 偶尔用但很重要。
做 SFT 最重要的不是模型，而是数据的数量和质量。

原理视频：https://www.bilibili.com/video/BV1Xu4y1k7Ls/
配套代码：https://github.com/zyds/transformers-code/tree/master/03-PEFT
LoRA from scratch：https://zhuanlan.zhihu.com/p/702419731

2.3 练手项目（PEFT 实操）

项目一：Chat-甄嬛

基于《甄嬛传》剧本中所有关于甄嬛的台词和语句
基于大模型进行 LoRA 微调，得到模仿甄嬛语气的聊天模型
可以熟悉微调流程

项目二：self-llm 嫚嫚实操

链接：https://github.com/datawhalechina/self-llm/blob/master/examples/Chat-%E5%AC%9B%E5%AC%9B/readme.md

2.4 LLaMA-Factory 框架使用

框架比较经典，对小白用户更友好
因为基于 LLaMA-Factory 的项目比较多，可以先从这个入手
视频：使用 Llama Factory 实现中文 Llama3 微调
https://www.bilibili.com/video/BV1uw4m1S7Cd/

2.5 另一个练手项目

项目：Qwen3-医疗（全参和 LoRA 都可以做）
链接：https://zhuanlan.zhihu.com/p/1903848838214705484

三、RL（强化学习）

RL 只需要掌握 PPO、DPO、GRPO/GSPO。

算法	定位
PPO	理论基础，现在没什么人用了，但要懂原理
DPO	类似于微调，没有奖励函数，用的也不多，但要懂原理
GRPO	业界最最常用，面试项目也基于它
GSPO/DAPO	GRPO 家族的小改进，区别不大

3.1 学习步骤

第一步：读论文

PPO：https://arxiv.org/abs/1707.06347
GRPO：https://arxiv.org/abs/2402.03300

不懂的问 AI 或去小红书搜，不用抠很细，都不难。

第二步：看视频

视频链接：https://www.bilibili.com/video/BV1XQLiz7EvY/
重点看：GRPO 和 GSPO

第三步：跑 demo（ms-swift 框架）

熟悉框架和训练流程
强烈建议学学文档，看每个参数的含义
这个框架以后工作也会用
文档：https://swift.readthedocs.io/zh-cn/latest/BestPractices/GRPO.html

3.2 练手项目

项目一：基于小模型(0.5B)复现 DeepSeek-R1 的思维链

链接：https://mp.weixin.qq.com/s/PZNBjWooWsZGITInNnQ

项目二：MiniMind

链接：https://github.com/jingyaogong/minimind

四、后续计划

后面会出关于 RL 系列的专题文章。