跳转至

原文链接:

https://www.xiaohongshu.com/explore/69a01d300000000015030dc2?xsec_token=ABdM3eEMCKYDyO3keJ-pfuHBcAshFeD8Ck4Cp-F6v4c6o=&xsec_source=pc_search&source=web_search_result_notes


SFT、RL完整学习路线(带练手项目)

大模型算法最最重要的就是 SFT 和 RL,几乎可以面所有岗位。
本路线包含理论教材、SFT 路线、RL 路线、练手项目。


一、后训练教材

  • 快速看一遍理论:复旦大学《大语言模型从理论到实践》,重点看第5章和第6章
  • 遇到不懂的直接问 AI
  • 参考教材PDF:https://introllm.github.io/chapter/LLM-TAP-v2.pdf

二、SFT(监督微调)

2.1 框架学习

先熟悉两个框架:

框架 特点
PEFT 写代码形式的框架,熟悉微调用到的组件和过程
LLaMA-Factory 傻瓜式微调框架,改一下 sh 参数即可,带 WebUI 界面

大部分框架都是后者这种,大同小异。
业界常用的是阿里的 ms-swift 框架,SFT 和 RL 都可以用这一个框架。
框架不重要,都是傻瓜式操作。

2.2 原理与实操

企业中一般都是全参微调,LoRA 偶尔用但很重要。
做 SFT 最重要的不是模型,而是数据的数量和质量

  • 原理视频:https://www.bilibili.com/video/BV1Xu4y1k7Ls/
  • 配套代码:https://github.com/zyds/transformers-code/tree/master/03-PEFT
  • LoRA from scratch:https://zhuanlan.zhihu.com/p/702419731

2.3 练手项目(PEFT 实操)

项目一:Chat-甄嬛

  • 基于《甄嬛传》剧本中所有关于甄嬛的台词和语句
  • 基于大模型进行 LoRA 微调,得到模仿甄嬛语气的聊天模型
  • 可以熟悉微调流程

项目二:self-llm 嫚嫚实操

  • 链接:https://github.com/datawhalechina/self-llm/blob/master/examples/Chat-%E5%AC%9B%E5%AC%9B/readme.md

2.4 LLaMA-Factory 框架使用

  • 框架比较经典,对小白用户更友好
  • 因为基于 LLaMA-Factory 的项目比较多,可以先从这个入手
  • 视频:使用 Llama Factory 实现中文 Llama3 微调
    https://www.bilibili.com/video/BV1uw4m1S7Cd/

2.5 另一个练手项目

  • 项目:Qwen3-医疗(全参和 LoRA 都可以做)
  • 链接:https://zhuanlan.zhihu.com/p/1903848838214705484

三、RL(强化学习)

RL 只需要掌握 PPO、DPO、GRPO/GSPO。

算法 定位
PPO 理论基础,现在没什么人用了,但要懂原理
DPO 类似于微调,没有奖励函数,用的也不多,但要懂原理
GRPO 业界最最常用,面试项目也基于它
GSPO/DAPO GRPO 家族的小改进,区别不大

3.1 学习步骤

第一步:读论文

  • PPO:https://arxiv.org/abs/1707.06347
  • GRPO:https://arxiv.org/abs/2402.03300

不懂的问 AI 或去小红书搜,不用抠很细,都不难。

第二步:看视频

  • 视频链接:https://www.bilibili.com/video/BV1XQLiz7EvY/
  • 重点看:GRPO 和 GSPO

第三步:跑 demo(ms-swift 框架)

  • 熟悉框架和训练流程
  • 强烈建议学学文档,看每个参数的含义
  • 这个框架以后工作也会用
  • 文档:https://swift.readthedocs.io/zh-cn/latest/BestPractices/GRPO.html

3.2 练手项目

项目一:基于小模型(0.5B)复现 DeepSeek-R1 的思维链

  • 链接:https://mp.weixin.qq.com/s/PZNBjWooWsZGITInNnQ

项目二:MiniMind

  • 链接:https://github.com/jingyaogong/minimind

四、后续计划

后面会出关于 RL 系列的专题文章。