Github上作者就minimind项目延展出的八股
Tokenizer
分词:将连续的文本流转为离散的数字序列。
对于子词的必然选择:
- 词级别分词的局限
- 优点:保留了词的语义完整性
- 缺点:词表爆炸、未登录词问题
- 字符级别尝试:将文本拆解为单个字符
- 优点:词表小、理论上无OOV问题
- 缺点:序列过长导致的训练和推理成本指数级上升、单个字符无法承载独立的语义信息导致的语义稀疏
- 子词分词:常用词保持完整,罕见词拆分为有意义的子部件
- BPE:基于频率的合并策略,GPT系列
- WordPiece:基于概率(似然度)的合并策略,BERT系列
- Unigram:基于概率的剪枝策略,用于SentencePiece
BPE(Byte-Pair Encoding字节对编码):
- 输入数据的本质:我们进行的是字节级别的BPE,而且是文本UTF-8编码后的字节序列。从而保证可以处理任何Unicode字符串,因为一切皆为字节编码。
- 贪婪算法:只要选定了频率最高的Pair,就会进行全局替换。
- 序列变短:每次合并操作都会压缩原本的上下文。目标是最大化数据压缩比。
- 词表大小的权衡:
- 太小:序列过长,模型推理慢,无法捕捉长距离依赖。
- 太大:Embedding矩阵参数量激增,增加训练负担;由于稀有词频次太低,其Embedding可能几乎没有得到训练。
WordPiece:
- BERT模型的核心,也是自底向上合并
- BPE是每次选择频次最高的对进行合并,WordPiece则是选择似然度增加最多的对。
- WordPiece不追求频次最高的从而尽可能压缩,似然度衡量的是在已知数据的情况下,某对可以合并是有多“靠谱”或者“合理”,因此,我们看到采用的是点互信息\(\text{textScore}(A, B) = \frac{P(AB)}{P(A) \times P(B)}\)
- 防止了两个本该独立的高频词被意外合并的情况。
- 倾向于合并那些内在关联性强的词对,而不仅仅是高频词对。
Unigram:
- T5等模型采用,设计思路与前两个完全相反,采用自顶向下。
- 假设每个子词都是独立出现,因此一个句子被切分为某序列的概率等于子词概率的连乘。
- 初始时构建一个极其巨大的词表,包含语料中出现的所有子串。
- 移除那些对于总似然度下降最小的子词,按照上面所说,似然度小代表这对组合并不靠谱,因此可以移除。
- 独特优势?子词正则化
- 正则化 = 给模型/系统加一个“约束”或“扰动”,让它不要走极端,变得更通用、更稳健。
- 这里指的是让模型不要依赖“唯一正确的分词方式”。
- 不是进行传统的确定性分词,而是概率采样,应对不同的切分干扰。
- 为什么有效?
- 模型被迫学习:即使词被"切碎了",我也能认出它是"New York"
- 相当于给输入加了"噪声",但这是语义层面的噪声,比像素噪声更高级
- 训练时见得多,推理时遇到拼写错误、新词、噪声文本就不慌了
- Unigram 的独特价值:
- BPE/WordPiece:只给一个分词结果(没有概率分布)
- Unigram:给所有可能的分词结果 + 各自的概率
- Subword Regularization 的本质:
- 不是改变 Unigram,而是利用 Unigram 的概率分布,在训练 LLM 时故意"不选最优",而是"按概率采样",让模型学会鲁棒性。
- 所以准确说:
- Unigram = 概率模型(提供可能性)
- Subword Regularization = 使用策略(采样而非贪心)
- 两者结合 = 更强的数据增强!
下面的例子有助于理解 Unigram 的子词正则化。
# 同样的 Unigram 概率分布
candidates = {
("New", "York"): 0.85,
("N", "ew", "York"): 0.10,
("New", "Y", "ork"): 0.03,
("N", "e", "w", ...): 0.02
}
# Sampling → 按概率随机采样
output = random.choices(
list(candidates.keys()),
weights=list(candidates.values())
)[0]
# 85% 概率: ("New", "York")
# 10% 概率: ("N", "ew", "York")
# ...
GPT分词器演进:
- 预分词与regex
- 运行BPE之前需要先进行正则表达式匹配切分。
- GPT-2缺陷
- 多空格表现不佳,尤其是代码中的缩进,效率极低
- 大小写处理不够完美,对于大小写的切分不一致
- GPT-4
- 更加复杂的正则表达式
- 大小写不敏感、更加激进的数字切分策略,防止数字串合并为极其稀有的token,导致模型无法理解其数值含义,允许合并更多空格,节省上下文。
- bytes_to_unicode的痛点
- 不可见性和人为调试困难
- 解决方案:为特殊字符穿上“可视化外衣”
- 将不可见字符和非ASCII字符映射到256号可见字符后的区域,通常为拉丁文区域
- 从而实现了完整性、可读性、通用性
- 词表大小越来越大
- 同一个句子被切分为更少的token
- 推理更快:生成的token也更少
- 上下文更“大”:相同token能够塞下实际更多的文本
- 多语言公平性:容纳更多的非英语常用词
- Embedding层参数量膨胀,训练困难
Special Tokens的工程处理:
- 不能将Special Tokens作为普通文本传给BPE算法,切分后无法识别
- 先进行Special Tokens的正则匹配。
分词对于模型性能的影响:
- 算术和数字盲区:连续数字的不同切分导致理解上的不一致性,破碎切分带来的位数价值理解的丢失
- 基于正则限制数字合并,尽可能保证一致性
- 编程语言中缩进处理,浪费大量空格
- 将连续空格进行合并
- 故障Token:
- 先前爬取到的高频加入词表的token,但训练阶段被作为噪声清理,未进行有效训练。
Llama系列模型:
- 采用SentencePiece分词器工具,使用其中的BPE算法。
- SrentenPiece特殊之处在于其空格的处理,将其视为一个普通字符一并处理,通常使用下划线
_表示,从而能够直接处理原始文本,而不需要复杂的正则匹配进行预处理。
Embedding与位置编码
离散到连续:
- Embedding嵌入和Position Encoding位置编码
- 弥合了基于离散表示的线性序列和基于连续的向量空间
- 前者解决意义的度量问题,将毫无关联的符号转换为蕴含关联的向量
- 后者解决秩序的重构问题,注入语言赖以生存的时序逻辑
语义的基石:Embedding与向量空间模型
- One-hot编码缺陷
- 维数灾难、语义正交
- 任意两个不同词向量内积为0,无法感知相似性和区别
- Embedding层:
- 将离散的ID映射到低维、稠密、连续的向量空间。
- 向量的方向和距离不再是随机的,而是编码了词汇的语法和语义特征。
- Embedding核心哲学:你会通过一个词的伴随词来认识它。上下文语境?
- 不断通过反向传播调整矩阵。
- 如果两个词经常出现在相似的上下文中,例如“喝”经常搭配“水”和“茶”,模型为了最小化预测误差,会将这两个词的语义向量推向彼此。
- 国王、王后的经典例子
- 局限性与位置的必要性
- 尽管我们通过Embedding将语义向量化,但其本质上是位置无关的。
- 如果使用词袋模型,简单对于语义向量进行相加或者平均,可能两个包含不同主被动关系的句子的表示完全一致,显然不是我们想看到的。
- RNN按照时间步处理token,隐含位置信息,但是限制了并行计算能力。
- Transformer的自注意力机制打破了线性顺序,我们需要使其能够理解“顺序”,由此需要位置编码。
寻找秩序:位置编码的演进
- 绝对位置编码 Absolute Positional Encoding,APE
- 正弦位置编码:开山之作《Attention Is All You Need》中,提出了一种基于三角函数的固定位置编码。
- 核心思想:利用不同频率的正弦和余弦波来为每个位置生成唯一的指纹。
- 多尺度时钟:想象每个编码位置为转速不同的时钟指针。从低维到高维,频率降低、波长变长。
- 如何理解这里的波长,这是相对于同一编码位置而言的,针对的是一个句子中的不同token在同一个编码位置上的表现。
- 波长长意味着对应不同的
pos,位置编码值几乎无重叠,可用于区分更宏观距离。
- 线性变换属性:两个不同位置的位置编码的点积只与相对位置有关,但在实际训练中,由于还要加上语义向量,这种相对性学习并不容易。
- 下面为DS更加详细的回答:绝对位置编码难以学得相对位置的根本原因是:实际使用时将位置编码与词嵌入相加,导致注意力计算中的内积混合了语义‑绝对位置交叉项,破坏了理论上的纯相对位置性质。同时,模型更容易利用直接可用的绝对位置特征来拟合训练数据,而不需要主动去发现隐含的相对距离关系。
- 比如 Relative Positional Encoding 和 RoPE(旋转位置编码)的设计,直接把相对位置信息注入到注意力计算中(例如在 Query 和 Key 的点积中加入相对位置偏置,或旋转向量使内积隐含相对位置)。这些方法明确告诉模型“注意相对距离”,而不依赖模型从绝对位置中自行发现。
- 加法注入:直接将位置编码加到Token Embedding上,混合了语义空间和位置空间,之所以可行是因为高维空间具有足够的稀疏性,语义信息和位置信息往往分布在近似正交的子空间中?真的往往分布在正交子空间吗?绝对编码与一个经过语义编码的会如此巧合正交吗?
- 下面是DS针对我的问题给出的回答:“语义与位置信息分布在近似正交子空间”是一个过度理想化的传说,并非事实。 更准确的表述是:在足够高维的空间中,两个任意向量不太可能完全平行或完全相同,但远未达到“子空间正交”的程度。加法注入之所以可行,依赖于高维空间的表达冗余性与神经网络的强大解耦学习能力,而不是预先存在的正交性。
- 可学习的绝对位置编码 Learned APE
- GPT-2和BERT的做法。
- 位置向量随着模型一起训练
- 更加能够适应数据集的分布
- 无法外推,如果模型训练时的最大长度是1024,那么它根本就没有位置1025的向量,推理时一旦越界就会直接报错或完全失效。
- 正弦位置编码:开山之作《Attention Is All You Need》中,提出了一种基于三角函数的固定位置编码。
- 相对位置编码 Relative Positional Encoding, RPE
- 自然语言理解中,绝对坐标往往不重要,重要的是相对距离?那为啥模型一般更加关注开头和结尾内容?
- 偏置相加法 Bias Addition
- 计算Attention Score时,加入一个表示相对距离
(i - j)的可学习偏置项\(B_{i-j}\) - T5模型进一步优化,使用对数分桶策略,近距离赋予精确的独立偏置,远距离位置共享同一个桶的偏置,减少参数量同时符合人类认知:近处敏感,远处模糊。
- 计算Attention Score时,加入一个表示相对距离
- ALiBi Attention with Linear Biases
- 听名字也能听出来,Attention分数加上一个线性偏置
- 完全抛弃了可学习的参数,直接减去与距离成正比的惩罚项。
- 强大的外推能力
- 由于基于距离越远关注度越低的绝对假设,限制了模型捕捉长距离依赖的能力,同时无法优雅融入KV Cache的压缩和优化中。
- DS的解释:压缩操作(合并、聚类、低秩近似)会丢失每个 token 的精确距离信息,而 ALiBi 需要精确的距离来计算偏置,导致压缩方案要么不准确,要么需要额外存储复杂的位置元数据。
- 旋转位置编码 RoPE:
- 核心:通过绝对位置的旋转,自然诱导出相对位置的内积性质。
- 传统的APE是做加法,在Token Embedding上加上位置编码,而RoPE则是做乘法,直接给q和k向量乘上旋转因子。如此计算进行过qk查询时,发现\(R_mq_m\)、\(R_nk_n\)赋予了\(q_m\)和\(k_n\)向量绝对位置信息,结果中的\(R_{n-m}\)又使得拥有了相对位置的概念。
- 关键结论:最终的内积结果,位置信息仅仅以
(m-n)形式出现,表明我们尽管进行了绝对位置的旋转,但他们之间的相互作用Attention完全取决于相对距离,称为平移不变性。 - 推广到多维空间,使用巨大的分块矩阵,“分而治之”的策略,将d维向量切分到d / 2个二维子空间。
- 每个子空间分配一个特定的旋转频率,这点与正弦那边基本一致,两个一组。
- 低维度:旋转速度快,负责捕捉高频局部位置信息。
- 高维度:旋转速度慢,负责捕捉低频全局位置信息。
- 依旧“多级时钟”视角看待问题
- 想象每个Token由几百个不同“指针”组成
- 读入文本时,Token推进一步,所有指针转动一次。
- 第一个指针,低维,想象成秒针,转得飞快。前进一步,可能转了很大角度。意味着哪怕位置只差1,该维度上向量夹角变化巨大,可以让模型感知“邻近”关系。
- 最后一个指针,高维,时针甚至年针,转得极慢。可能走了几千步,他只转动了一点,让模型能在长距离上保持位置的连贯性,不会因为距离太远产生相位重叠。
- Attention计算就是比较Query和Key之间所有指针对的相对角度。由于相对角度只取决于
(m−n),所以这套机制完美实现了相对位置编码。距离近低维发挥神通,距离远高维发挥神通,妙哉妙哉。
- RoPE对于KV Cache完美兼容的里有我好像知道了,反正存储的是旋转后的K和V,注入了绝对位置信息,而ALiBi显然除了KV外,还需要存储额外的信息内容进行计算。
- RoPE的一个重要特性是长程衰减(Long-term Decay)。随着相对距离
|m−n|的增加,高频分量的旋转相位差变得随机,内积期望趋向于0。这符合语言模型的局部性原理(Locality),即近处的词通常更重要。这使得RoPE不需要像ALiBi那样硬编码衰减,而是自然涌现出这种性质。这么奇妙的吗?
长上下文的挑战:内插与分辨率的博弈
- 外推失败:
- 训练阶段,模型见过一定范围内的数据,模型在推理阶段长度超过时,进入了模型从未见过的数值区域(Out-of-Distribution, OOD),对应绝对位置编码是绝对位置,对应相对位置编码是相对位置,就会出现Attention Score计算数值异常,导致Softmax分布崩溃,进而模型性能崩溃PPL爆炸。
- 线性插值(Position Interpolation,PI):压缩时空
- 思路简单粗暴:将外面的世界缩小塞进已知的世界中。加上将窗口扩展s倍,位置索引处的m就替换为m/s,这样例如原本
0~8000的范围就被映射回了0~4000,所有旋转角度都在见过的训练分布中。 - 代价:分辨率危机
- 原本高维密集空间中旋转角度就小,如今更小,相邻Token在向量空间靠得太近,难以区分。
- 相当于压缩了原本的高分辨率图像,图像也变得模糊了。
- 由此处理精细的局部关系时模型变得迟钝,短文本性能下降。注意是对于高频低维位置的感知影响更大,下面也会提。
- 思路简单粗暴:将外面的世界缩小塞进已知的世界中。加上将窗口扩展s倍,位置索引处的m就替换为m/s,这样例如原本
- NTK-Aware Scaling:频率感知的非线性缩放
- 神经正切核NTK理论解释网络倾向于优先学习低频函数,难以学习高频剧烈变化函数。
- RoPE语境中,低维度对应于高频,高频对应于区分相邻token的能力,压缩高频无疑抹杀了这种好不容易学习到的区分度,导致模型无法感知局部顺序,高维度低频稍微压缩也关系不大。
- 因此核心思想为:对不同频率的维度应用不同程度的缩放。
- 高频维度不插值,低频维度强插值,因为容易OOD
- 注意:NTK一般是不重新进行微调的,因此才有了我上面说的压缩高频无疑抹杀了这种好不容易学习到的区分度,当然微调后一般如虎添翼。
- 动态NTK
- 静态NTK缩放固定了最大长度,使得输入尽管是一段很短的文本,依然应用了缩放,导致性能略微受损。
- 考虑使用动态NTK,依据推理时实际序列长度动态计算缩放倍数,在训练长度以内就不进行缩放,从而能够保证模型性能,训练长度以外也是平滑加大力度缩放。
集大成者:YaRN(Yet another RoPE extensioN)
- NTK-Aware Scaling在处理超长上下文时仍然存在理论缺陷。
- YaRN是目前最完善的RoPE扩展框架,结合了NTK-by-parts(分段NTK)和熵/温度调节(Temperature Scaling)。
- NTK-by-parts:
- 原本NTK实现已经实现非线性,但还是不够精准。
- 高频段完全不插值,低频段采用线性插值,中频端混合加权的方式。
- 保留局部高精度(高频不插值),又获得全局长视野(低频插值)
- 熵理论与温度缩放(Temperature Scaling):
- 最深刻的理论贡献?
- 通过插值扩展上下文后,Attention的分布熵发生变化。即序列边长,K数量增加,\(QK^T\)分布扩大或者因为距离衰减而变得平坦,由此Softmax后概率分布也比训练时更加平坦,破化了模型原本的注意力机制,模型不知道该更加关心哪一个词——称为分布漂移(Distribution Shift)
- 解决?让分布重新变得尖锐,引入温度系数,
softmax多除以一个数字而已,当扩展倍数 s 很大时,分母变小,相当于升高了Attention Logits的数值,使得softmax更加尖锐,从而保持模型对关键信息的聚焦能力。
- 使得Llama 2等模型仅需使用0.1%的微调数据,就能将上下文从4k完美扩展到128k,且几乎没有短文本性能的衰减。
现代LLM演进:工程视角
- Llama3:大幅提升RoPE的基频参数base,预训练阶段强迫学习超长距离的依赖关系。
- Mistral 7B的滑动窗口注意力:Sliding Window Attention (SWA),针对超长上下文的显存和计算问题,规定每一层只关注最近的W个Token,尽管每层只看这么多,但是通过层与层的堆叠,其实更前面的信息已经被蕴含出来。通过 Transformer 的多层堆叠,顶层 Token 的有效感受野会像 CNN 一样线性增长(L×W),而 RoPE 确保了在这个过程中位置关系的精确传递 —— 即使每一层只看局部窗口,模型也能知道每个遥远 token 到底有多远,从而做出合理的注意力分配。
- M-RoPE:多模态,将Embedding向量切分为三部分:时间、高度、宽度。对于一个视频,三个维度分别应用RoPE,模型就能够理解出这是视频的第几秒、图像的哪个角落,实现时空的统一建模。
- DeepSeek-V2的解耦RoPE:DeepSeek-V2引入了MLA(Multi-Head Latent Attention)以极大地压缩KV Cache。然而,MLA采用了低秩压缩(Low-Rank Compression),这导致RoPE无法直接应用于压缩后的Latent Vector(因为旋转会破坏压缩后的语义空间)。 DeepSeek的解决方案是解耦RoPE(Decoupled RoPE) : 将Query和Key向量显式地拆分为两部分——Content Vector:负责语义,参与压缩,不加RoPE。以及RoPE Vector:负责位置,不参与压缩,直接应用RoPE。
归一化技术
大模型数值稳定性挑战:
- 深度增加带来的梯度反向传播的爆炸或消失
- 深度诅咒
归一化技术的理论基石
- 内部协变量偏移问题
- 深度神经网络训练过程中,前一层参数更新后导致后一层的输入分布剧烈变化
- 对于LLM,分布漂移随着层数增加呈现指数级放大,就比如激活函数的前层更新了,则激活函数的输入的数值范围失控,变得过大(正或负),从而使得激活函数的输入进入饱和区,梯度接近于0,极大延缓了模型收敛速度。
- 归一化技术强制约束输入分布,将数据分布拉回到对于优化器友好的范围
- 从而使得模型训练更稳定
- 允许优化器使用更大的学习率,加快训练速度
- 为什么NLP摒弃了Batch Normalization?
- BN (批归一化):在一个 mini-batch 内,对不同样本的同一特征维度进行归一化
- LN (层归一化):在每个样本内部,对该样本的所有特征维度进行归一化
- 变长序列的处理难题:BN依赖 batch 内所有样本的统计量。然而,NLP任务中的序列长度差异巨大。对于短序列,其添加的
[PAD]填充符会干扰BN的均值和方差统计,导致计算结果不准确(毕竟和一堆空数据进行归一化),破坏归一化的效果。BN在推理时依赖于训练阶段积累的全局统计量。如果训练数据中预设了 max_len,那么推理时序列长度就不能超过它,这极大地限制了模型的灵活性。 - 小批量不稳定:BN的效果高度依赖于 batch size 的大小,当 batch size 较小时(如小于8),统计量会很不稳定,导致模型性能急剧下降。而在LLM训练中,受限于显存,batch size 往往不大。
- 跨样本统计的语义噪音:BN会将不同样本中“同一位置”(如所有句子的第一个词)的向量特征混在一起归一化。但这些词在语义上可能毫无关联(例如“苹果”vs“特朗普”),强行让它们的特征分布对齐,会给模型学习带来很大的噪声。BN 强制在 Batch 维度上进行统计,破坏了 Token 级特征的独立性。
- 不采用Batch Normalization,所以Layer Normalization应运而生。
- LN沿着特征维度对单个样本进行归一化,使得其统计量的计算仅仅依赖于样本本身。
- 这一特性使得LN称为处理变长序列数据和RNN/Transformer架构的天然选择。
标准归一化范式:Layer Normalization(LN)
- 是Transformer的标准配置,也是后续所有变体的基础。
- 对于特征维度为d的输入向量,LN计算包含两个步骤:标准化(Normalization)和仿射变换(Affine Transformation)
- 计算输入向量均值和方差
- 用这两个统计量对输入进行标准化,坟墓上添加一个微小的常数,防止分母为0带来的数值不稳定
- 最后,为了保证模型的表达能力,引入可学习的缩放参数和偏置参数,理论上可以还原出原本输入
- 初始阶段,通常缩放参数设置为1,偏置参数设置为0,使得初始状态LN近似只做标准化。
- 性质?
- 重中心化不变性:对于任意\(\delta\),都有 \(LN(\mathbf{x} + \delta) = LN(\mathbf{x})\)。意味着模型对于输入数据的绝对偏移不敏感,有助于处理不同偏置的输入。其实不难理解,x维度数据整体偏移,均值变化,方差不变,标准化没影响。
- 实际意义:数据预处理中常见偏移、前一层偏置导致的输出数据整体偏移都会被消除,同样意味着反向传播时,梯度不会被极端的均值偏移所主导,更新更加稳定。
- 重缩放不变性(Re-scaling Invariance): 对于任意缩放因子 \(\lambda\),都有 \(LN(\lambda \mathbf{x}) = LN(\mathbf{x})\)。这意味着权重矩阵的模长(Norm)不会影响输出值的幅度。在反向传播中,这一性质使得梯度的大小与权重的模长成反比,隐式地起到了一种类似于学习率衰减(Learning Rate Decay)的调节作用,防止权重无限增长。
- 实际意义:输入整体向量扩大十倍,模型对于输入整体幅度完全不敏感,就比如上一层是线性层
y = Wx,如果W的模长很大,即整体权重矩阵很大,但一旦进行标准化,模场被压缩,因此后续层接受到的永远是尺度稳定的输入,避免了层间幅度的指数级爆炸或消失。 - 隐式的学习率调整?方向传播会经过LN的缩放因子\(1/\delta\),
W模长大,则\(1/\delta\)小,所以权重变得很大时,梯度自动减小,阻止进一步放大。权重很小,梯度自动变大,鼓励权重增长。
- 实际意义:输入整体向量扩大十倍,模型对于输入整体幅度完全不敏感,就比如上一层是线性层
- 尽管表现优异,但需要进行减法操作,引入额外计算开销和存储访问,基于此提出RMSNorm。
- 重中心化不变性:对于任意\(\delta\),都有 \(LN(\mathbf{x} + \delta) = LN(\mathbf{x})\)。意味着模型对于输入数据的绝对偏移不敏感,有助于处理不同偏置的输入。其实不难理解,x维度数据整体偏移,均值变化,方差不变,标准化没影响。
架构位置的演进:Post-Norm与Pre-Norm的博弈
- 归一化层位置的选择直接决定模型的训练稳定性、收敛速度以及最终性能上限。
- Post-Norm:经典但脆弱的原始设计
- 最初论文以及BERT模型中,采用的是Post-Norm结构,即归一化层被放置在残差连接之后。
- Post-Norm的特性:
- 梯度爆炸/消失风险:反向传播时,每一层都会引入一个缩放因子\(1/\delta\),这些因子的连乘会导致整体梯度的指数级衰减或爆炸。Post-Norm结构中的梯度范数在靠近输出层时较大,而在靠近输入层时迅速衰减(梯度消失)或在某些初始化下剧烈震荡(梯度爆炸)。
- Warm-up的必要性:由于初始截断梯度极其不稳定,我们必须使用学习率预热(Warm-up)策略,即在训练初期使用极小的学习率,优化器稳定后再逐步增加。没有Warm-up,Post-Norm往往训练初期就会发散。
- 性能上限:但由于这样严格的要求,每步都要求学生回到标准姿势,虽然过程痛苦且容易摔倒,但一旦练成,基本功更加扎实。
- Pre-Norm:现代大模型的稳定性基石
- 主流大模型转向了Pre-Norm结构,即归一化层被放置在子层的输入端,且位于残差分支内部。
- 动力学特性分析:
- 高速公路效应?,存在一条恒等传播路径,使得梯度可以不依赖于子层的表现而直接到达浅层。就类似于纯粹的残差,反向传播时,一部分梯度可以直接沿着这条主干路无损地传导,而不需要经过非线性化的归一层,使得训练超深网络成为可能。
- 移除Warm-up:由于梯度稳定,可以采用更加激进的学习率策略,显著缩短训练初期“爬坡”时间。
- “深层诅咒”?深层残差分支对于主干的贡献权重会被隐式缩小?\(1/L\),非常深的网络,深层网络可能已经退化为恒等映射,对于表征学习贡献微乎其微。
- Pre‑Norm:紧急通道永远开放。你可以直接从楼顶跑到一楼,不经过任何工作间。即使所有工作间都关门(梯度为零),你也能轻松下楼。
- Post‑Norm:没有紧急通道。每下一层都必须经过一个旋转门(LayerNorm),如果你不走工作间,也得被旋转门卡一下。工作间一堵,下楼就难了。
- 大模型对于稳定性的极高要求,Pre-Norm已成为默认选择,为了弥补其性能和深层退化问题,其他方案应运而生。
RMSNorm:极简主义的效率革命?
- Root Mean Square Normalization(RMSNorm)基于对LayerNorm的“去中心化”理念,成为LLaMA等的标准配置
- 核心理念:去中心化的归一化
- LayerNorm的成功主要归结于重缩放不变性,而非重中心化不变性。
- 强制中心化的收益微乎其微,但计算均值却引入了额外的操作,增加了时间复杂度。
- RMSNorm的数学形式与变体
- RMSNorm省略了均值计算,直接使用均方根(Root Mean Square)进行归一化。
- 去掉了仿射变换中的偏置项,仅仅保留可学习的缩放参数
- 效率优势分析:内存带宽与计算的权衡
- 理论浮点运算次数上来看,减少微不足道,但在实际硬件上,RMSNorm带来了显著的速度提升
- 差异的根源在于LN是带宽受限的操作
- LN需要两次全向量扫描分别计算均值和方差(因为方差的计算还得依靠均值),需要频繁从显存中读取数据并进行同步。
- RMSNorm只需要一次扫描计算平方和,显著降低了内存访问开销,在显存带宽通常是瓶颈的推理阶段,这种优化的收益被放大
- 此外,RMSNorm间接性利于算子融合,在高性能推理框架中通常被深度优化,速度进一步提升。
DeepNorm:打破深度极限的缩放法则?
- Pre-Norm解决了基本的稳定性问题,但其深层退化问题限制了模型层数的进一步扩展。
- DeepNorm旨在结合Post-Norm的高性能和Pre-Norm的稳定性,构建超深的Transformer。
- 理论核心:无论模型多深,每一步的模型更新量的期望值都可以被约束在一个常数范围内。
- 本质上是一种改进的Post-Norm策略
- 其实似乎好像也就是在Post-Norm基础上加了一个大于1的常数,用于放大残差主干路径的信号。
- 放大了主干公路,也就间接抑制了子层的输出的相对幅度,从而控制了梯度的方差,避免了梯度爆炸问题。
- DeepNorm成功严重依赖于特定的初始化规则,即相关参数的大小。
- 总之,最后实验证明DeepNorm不仅解决了深层模型的训练收敛问题,还有效避免了Pre-Norm中的层级退化问题,使得深层参数能真正贡献于表征学习。
驯服注意力机制:QK-Norm与熵坍塌
- 模型规模进一步扩大,Attention模块引入了新的不稳定性来源——Attention Logits的数值爆炸。
- 现象:注意力熵坍塌
- Q*K结果数值会变得极大,达到很高的数量级
- 巨大的Logits值会使得Softmax函数进入极端饱和区,所有数值都很大且彼此差异巨大。softmax所有数值都很大会导致梯度消失?即使所有logits都乘以同一个很大的数字,softmax的输出也会变成几乎one-hot,即某一个位置概率为1,其余为0,这种现象被称为注意力熵坍塌。梯度消失了。反向传播时,Attention 层几乎不更新,模型停止学习。你无法再通过调整 Q 和 K 来改变那个微小的“相对比例”,因为所有方向的导数都是 0。
- Softmax对于差值极其敏感。
- 解决方案:QK-Norm
- 计算点积之前,分别对于Query和Key向量进行归一化。
- 可以采用LN或者其他归一化方式。
- 作用机制:
- 通过对于Q和K进行归一化,QK-Norm强制约束了两个向量的模长,这直接限制了Attention Logits的数值范围,防止其随深度或训练步数无限增长。
- 允许模型使用更大的学习率,显著减少了训练过程中的Loss尖峰。
- 变体:QKV-Norm和Softmax Capping
- 对于V也进行归一化?
专用化变体:Sandwich-Norm和NormFormer
- 生图模型在处理图像数据时会出现数值溢出,对于数值的敏感度远高于纯文本任务,提出三明治归一化,在Pre-Norm基础上,残差分支再额外套一层LN,也就相当于LN-Sublayer-LN这种结构。
- 通过对于残差信号二次归一化,严格限制每一层输入的数值分布,消除梯度爆炸和数值溢出风险
- NormFormer:通过“过归一化”加速收敛
- 更为激进的归一化策略,每一个Transformer层中插入三个归一化操作
- Pre-LN:标准的子层输入归一化
- Post-Attention LN:在Self-Attention输出后理解加一个LN
- Head-Scaling:对Attention的每个Head输出进行可学习的标量缩放
- 适度“过归一化”有助于优化器更快找到下降方向?尤其是训练的早期阶段。
最常见的大模型优化方法:从KV Cache到FlashAttention
本文基于Minimind所使用到的优化技术,对KV Cache、Attention变体(MQA/GQA)以及Falsh Attention进行梳理和总结。
- KV Cache是实现实时自回归生成的必要前提,但其引入的显存线性增长问题迫使架构设计从MHA转变
- Falsh-Attention通过算法层面的IO感知,打破传统注意力机制的二次方复杂度存储瓶颈
自回归推理的物理约束与计算瓶颈
- 基于Decoder-only架构的自回归生成模式,下一个Token的生成严格依赖于所有历史Token
- 分为两个阶段:预填充阶段和解码阶段
- 预填充阶段所有Token并行计算,主要受限于GPU算力
- 解码阶段是逐个生成Token阶段,每次需要加载全部模型权重并只进行一次前向计算,算术强度低,硬件性能受限于显存带宽。
- 内存墙是制约LLM推理速度的根本物理障碍
- 注意:解码时一个标记的注意力仅仅取决于其前面的标记,所以其实我们每次其实只计算新标记的注意力就好了
注意力机制的二次方困境
- 计算 \(QK^T\) 会生成一个 \(L \times L\) 的注意力分数矩阵。
- 时间复杂度:\(O(L^2)\)
- 空间复杂度:\(O(L^2)\)
- 随着上下文长度的增加,显存占用呈二次方爆炸式增长。
- 传统方式需要频繁写入注意力矩阵并计算,频繁读写不仅耗时而且容易OOM
KV Cache:自回归推理的基石
- 键值缓存时推理中最基础的优化技术,目的是以空间换时间,消除自回归生成中的冗余计算
- 通过缓存之前的键值对,我们可以专注于计算新token的注意力。
- 为什么不缓存Q?
- Q代表当前关注点,随着生成的推进而不断变化。
- Query向量在每一步都是全新的,必须重新计算
- KV Cache避免了重复计算K/V,但也引入了巨大的显存开销
- KV Cache的体积最终往往甚至会超过模型权重本身,成为限制并发量的主要瓶颈,催生了注意力架构的演进。
注意力架构的演进:MHA、MQA与GQA
- 为了缓解上述缓存压力,提出了一系列改进的注意力机制,本质是在模型表现力与显存效率寻找平衡点。
- MHA:
- Multi-Head Attention (MHA):多头注意力
- 拥有\(H\)个Query头,\(H\)个Key头,和\(H\)个Value头。
- MQA:
- Multi-Query Attention (MQA):多查询注意力
- 保留\(H\)个Query头,但所有Query头共享同一个Key头和同一个Value头。
- KV Cache的大小直接缩小了H倍。如果模型有32个头,KV Cache仅为MHA的1/32。
- 显存占用大大减少。
- 精度损失:由于所有Query头只能在同一个Key-Value子空间中进行注意力检索,模型的表达能力受到限制,容易导致生成质量下降。
- GQA:
- Grouped-Query Attention (GQA):分组查询注意力
- 折中方案,目前LLM的标配。
- 将Query头分成G个组(Group),每组包含H/G个Query头。每个组共享一个Key头和一个Value头。
Query : Key : Value = H : G : G。- 精度接近MHA,速度接近MQA
- Minimind中实现GQA和MQA,会使用repeat_kv()函数来重复,在和Q进行相乘进行注意力计算
Flash Attention:IO层面的优化
- GQA减少了KV Cache的存储量,但Flash Attention解决的是注意力计算过程中的数据传输效率问题,这是从GPU硬件特性出发的优化。
- GPU内存结构:
- SRAM:速度极快、容量极小
- HBM:速度较慢、容量较大
- 标准Attention视线中,会频繁进行HBM读写占据大部分运算时间,而非矩阵乘法本身
- Flash Attention V1 & V2核心原理
- 提出一种IO感知算法,通过分块和重计算技术
- 分块:通过将Q、K、V矩阵分成能放入SRAM的小块,在SRAM内部完成矩阵乘法、Softmax等操作
- 中间巨大的\(N*N\)注意力矩阵从未完整写入HBM,直接在SRAM中被消耗
- 重计算:方向传播阶段,为了计算梯度,需要前向传播的注意力矩阵,Falsh Attention由于没有存储该矩阵,所以选择重新计算一遍
- 虽然计算量增加,但减少了极慢的HBM访问,反而大幅缩短时间
- V2的改进
- 进一步优化了并行策略,引入序列维度并行,同时调整了循环顺序,减少了写入HBM的同步开销
Flash Decoding:推理专用的优化
- Flash Attention主要优化是训练和预填充阶段,生成阶段Decoding,由于Query长度通常为1,GPU利用率极低。
- Flash Decoding专门针对此场景:
- Split-K:将长序列的KV Cache切分为多个块
- 并行计算:启动多个CUDA并行计算Query和这些KV块的注意力分数
- 规约Reduction:最后通过一个Reduce操作合并各个块的结果
- 效果:充分利用GPU的SM核心,而不是让大部分空闲
关于显存的计算
- 模型权重 + KV Cache + 激活值
- 推理阶段激活值相对较小,主要由权重和KV Cache主导,长序列下KV Cache占主导
- 显存的计算:
- GQA为什么比MHA省显存?
- 计算并发极限?需要计算装入模型权重后剩余可用显存,保守计算可能还要预留一些空间给上下文和激活值,再计算单个用户的KV开销,由此就能够得到最大batch size,也就是同时能够并发服务多少用户。
- 分析长文本为什么生成慢?首先是KV Cache爆表,会爆显存。其次每次都需要搬运这些KV Cache进入计算核心,每生成一个字,GPU都要花费很多时间去“搬砖”。使用了Flash Decoding后切分分发计算,提高了读取和计算的并行度。
其他
- DeepSeek的Multi-Head Latent Attention (MLA) 。MLA 通过低秩矩阵分解技术,将 Key-Value 压缩为一个极小的 Latent Vector。压缩了每个头的内部的数据表示。
- PagedAttention用于解决物理显存碎片化问题,类似于操作系统的虚拟内存分页。
通过GQA和Flash Attention,我们驯服了显存与计算的复杂度。但是传统架构依然每次推理都需要全员出动激活所有参数,这无疑也是一种巨大的算力浪费。下一张对准FFN层,剖析SwiGLU和Hybrid MoE的结合,探究Minimind只在需要时激活特定专家神经元。
混合专家模型(MoE)深度技术分析
稀疏网络
- 传统稠密模型架构中,每输入一个Token,网络中每一个参数都必须参与计算
- 为了打破“参数量即计算量”的线性约束,混合专家MoE架构应运而生。
- 还是对于生物神经网络的仿生学思考,稀疏激活以及条件计算
- MoE实际上是一个极其复杂的系统工程,除了模型架构,更为重要的是工业级MoE模型在训练和部署中的各种训练和推理优化。
MoE的核心理念与理论基础
- 稀疏激活
- 稀疏激活是MoE架构和稠密模型最大的区别。
- 稠密模型中,前馈神经网络FFN层是一个全局共享的巨大矩阵,处理所有输入数据。
- MoE架构中,FFN层被拆解为多个独立的子网络,称为专家
- 对于任意输入向量(通常是Attention层经过LN后的向量),MoE层输出y不再是单一网络的映射,而是多个专家输出的加权和。
- 加权通过门控网络或路由器得到输出向量,表示每个专家对于当前输入x的重要性加权。为了降低计算量,我们会强制该向量具有稀疏性,即大多数元素为0。
- 两个关键的参数度量维度
- 总参数量:模型包含的所有权重之和,表示总知识量
- 激活参数量:处理单个Token时实际参与计算的参数量
- DeepSeek-V3总参数量为671B,激活参数量为37B,稀疏比大约为5.5%
- 条件计算
- 条件计算只网络根据输入数据特性动态决定执行哪部分计算图的机制
- 在MoE中,每个Token的计算路径时动态变化的,不同专家专精于不同领域知识
- 尽管推理时只需要一小部分参数,但是MoE模型还是需要将所有参数加载到显存中。
基础组件详解:从SwiGLU到投影层
- 现在MoE模型普遍采用SwiGLU作为专家网络的核心激活单元。
- 注意上面的稀疏激活是选择特定专家,而这里的SwiGLU函数是在每个专家内部的组件
- SwiGLU激活函数
- 激活函数扮演着神经元“开关”的角色。
- 早期ReLU简单粗暴,解决了梯度消失问题
- 随后的GeLU在BERT和GPT-2中引入概率思想
- MoE时代,SwiGLU成为新架构的首选
- SwiGLU的优越性:
- 从“单行道”到“双车道”?
- 传统模式ReLU那些:单行道 + 收费站
- 激活函数相当于收费站
- 逻辑是:正数放行,负数拦截置为0
- 硬拦截导致信息的永久丢失,即神经元死亡,且无法根据上下文灵活调整通过的比例
- SwiGLU模式:双车道 + 智能阀门
- 引入了GLU(门控线性单元)机制,将输入信号复制一份,分流到两条并行路径上
- 实值路径和门控路径:一个负责搬运实际信息内容,一个负责计算一个0-1之间的阀门开度
- 如此,模型可以自己学习对于当前输入,应该保留某个特征的多少,而不是死板地一刀切
- 数学定义与结构拆解
- SwiGLU全称是Swish-Gated Linear Unit,是Swish激活函数与GLU门控结构的组合。
- Swish激活函数,“门”不是简单的Sigmoid函数
- 是一条平滑曲线,负半轴允许微小的负值存在,且函数光滑可导,使得深层网络的梯度传播极其顺畅。
- 计算过程:\(\text{FFN}_{\text{SwiGLU}}(x) = (\underbrace{\text{Swish}(x W_g)}_{\text{门控信号}} \odot \underbrace{(x W_u)}_{\text{内容信息}}) W_d\)
- \(x\):输入向量。
- \(W_g\) (Gate):门控投影矩阵,负责计算“通过率”。
- \(W_u\) (Up):升维投影矩阵,负责变换“内容”。
- \(\odot\):逐元素乘法(Hadamard Product),即“门”与“内容”的结合。
- \(W_d\) (Down):降维投影矩阵,负责将结果映射回原维度。
- 物理意义与性能优势
- 为什么这种复杂结构比简单的ReLU更好?
- 仔细看上述公式,其实引入了x的二次方级别的高阶特征,由此能够捕捉到特征之间更加复杂的关系。
- 梯度的稳定性,激活函数本身包含x和Sigmoid的导数项,且处处光滑,保证了梯度信号的清晰传播。
- 工程权衡:2/3系数
- SwiGLU相较于标准FFN多了\(W_{gate}\)矩阵,相同隐藏层宽度下参数量和计算量会增长50%,因此为了恢复预算,我们需要缩减隐藏层宽度。
- 不难计算得出隐藏层宽度需要被设置为标准宽度的2/3。
- 标准Transformer中,隐藏层宽度h通常为输入维度的4倍,即\(4d\),因此Llama等模型中,SwiGLU宽度设定为\(\frac{8}{3}d\)。
- 投影层的深层解析
- 投影层Projections三个向量
- Gate Projection和Up Projection负责将输入Token从模型维度映射到更高维度的中间特征空间
- Up Projection 提供了丰富的信息内容(Value)。
- Gate Projection 提供了选择信息的控制信号(Attention/Gating)。
- 这种分离的设计允许模型独立地学习“内容”和“控制”,类似于LSTM中的门控逻辑,但在前馈网络中以并行方式实现高效计算。
- Down Projection负责将高维的中间特征“压缩”回模型维度
- 这一步不仅仅是降维,更是特征的融合(Aggregation)。经过门控筛选和非线性变换后的特征在这里被线性组合,形成该专家对Token的最终处理结果。
- 在量化(Quantization)研究中发现,Down Projection 对数值精度极为敏感,通常不能过度量化,而Up Projection 相对鲁棒。
MoE架构形态的探索
- DeepSeekMoE:细粒度专家与知识解耦
- 传统MoE面临的两个核心问题:专家粒度过粗导致的知识混合以及路由坍缩导致的参数冗余
- 细粒度专家分割
- 增加专家数量,减小中间维度
- 将大专家切碎为小专家,从而更加灵活地组合,增加了表达能力
- 共享专家从而进行知识解耦
- 传统MoE中,所有专家都需要通过路由竞争被激活
- 每个专家都需要学习公共知识,重复存储,造成了参数冗余
- DeepSeek将一部分专家固定为“共享专家”,总是被激活,不参与路由竞争
- 解放了路由专家,专注于捕获长尾知识或特定领域知识
- 传统MoE中,所有专家都需要通过路由竞争被激活
路由机制:MoE的“大脑”
- 专家网络是执行任务的“手脚”,路由器是指挥调度的“大脑”
- Top-K路由机制
- 最经典的路由机制是基于Softmax的Top-K Gating。
- 输入向量x与一组可学习的路由权重矩阵计算亲和度分数,表示输入x与每个专家的匹配程度
- Top-K截断:为了保持稀疏性,只保留分数最高的K个值,其余置为负无穷
- Softmax归一化:也就得到了最终的门控权重,K个元素非0,且和为1
- 负载均衡与辅助损失
- 专家坍缩问题
- 赢家通吃现象,初始化时,某些专家可能因随机噪声获得稍高的权重,导致更多数据被路由给它。
- 该专家因此获得更多梯度更新,变得更强,进而吸引更多数据。最终,少数几个专家处理了所有数据,而其余专家处于“死亡”状态(Dead Experts),模型退化为一个小型的稠密模型,浪费了大量参数容量。
- 传统辅助损失
- 引入了负载均衡辅助损失
- 强制要求接近于均匀分布,这虽然解决了坍缩问题,但也带来了副作用:模型被迫为了“均衡”而将Token路由给次优的专家,这种刚性约束损害了模型的主任务性能。
- DeepSeek的创新:无辅助损失负载均衡(Auxiliary-Loss-Free)
- 使用偏置的方法,这个\(b_i\)不参与梯度下降,而是通过一种类似PID控制的机制动态更新。
- 专家过载就减小偏置降低重要性分数,反之拔高
- 这种方法的精妙之处在于解耦:
- 权重\(W_r\)仅由主任务(Cross-Entropy Loss)优化,负责学习“哪个专家最适合处理这个Token”。
- 偏置\(b_i\)仅由负载情况调整,负责“交通管制”。由于Aux Loss被移除,梯度的方向不再受制于人为的均衡目标。
- 专家坍缩问题
训练与工程优化
- MoE模型的训练难度远高于稠密模型,主要体现在分布式并行的通信开销、显存管理以及训练稳定性上。
- 专家并行EP
- 当模型规模超过单个GPU显存时,必须使用并行技术。
- 数据并行(DP):复制模型,划分数据。对MoE不适用,因为MoE模型总参数太大,单卡放不下。
- 张量并行(TP):切分矩阵计算。适用于Attention层。
- 专家并行(EP):将不同的专家放置在不同的GPU上。例如,GPU 0持有专家1-64,GPU 1持有专家65-128。
- All-to-All通信挑战
- Token分片到GPU 0和GPU 1
- 各自Router计算:每个GPU上都有一个独立的Router副本,负责计算当前GPU上的Token该去往哪一个专家
- All-to-All dispatch:Router决定Token A要去专家5(在GPU 1上)。此时,GPU 0必须将Token A的数据发送给GPU 1。由于每个GPU都要向其他所有GPU发送数据,这构成了一个All-to-All通信模式。
- 专家计算
- All-to-All combine:GPU 1上的专家5处理完Token A后,必须将结果发回GPU 0(Token A的原始位置),再次进行All-to-All通信。
- DS-V3通过优化CUDA内核并利用NVLink的高带宽,实现了通信与计算的重叠。
- 混合精度训练:FP8的突破
- DS-V3是首个大规模使用FP8(8位浮点数)进行预训练的开源模型
- FP8相比BF16/FP16:
- 显存占用减少50%。
- 数据传输带宽需求减少50%。
- 计算速度(Tensor Core)提升2倍(理论值)。
模型推理与训练优化
计算范式转移与物理瓶颈
- 模型参数暴涨、上下文窗口扩大
- 计算墙与存储墙
- 处理并行输入,性能主要受限于计算墙
- 解码阶段,由于自回归生成是串行过程,但每次都需要之前所有token的KV Cache和模型权重,性能受限于存储墙
- 优化机制
- 注意力架构优化:算法层面降低计算复杂度和显存占用,MQA、GQA、MLA
- 内核级计算优化:CUDA内核提升IO效率和并行度,FlashAttention、FlashDecoding
- 系统级显存管理:显存碎片化问题和调度效率问题,PagedAttention、Continuous Batching
- 模型结构与推理策略:稀疏化(MoE)、线性化(Mamba)以及非自回归加速(Speculative Decoding)
键值缓存与注意力机制的演进
键值缓存取决于:
- 2:分别存储Key和Value
- L(Layers):模型层数
- H(Heads):每层注意力头数
- \(D_h\)(Head Dimension):每个头的维数
- B(Batch Size):并发请求数
- S(Sequence Length):序列长度?这里应该是使用上下文窗口长度估算的?
- P(Precision):数据精度(如FP16为2字节)。
从MHA到MQA:激进的压缩
- 标准MHA
- 每个Query头都有对应的Key和Value头
- MQA:多查询注意力 Multi-Query Attention
- 每层的Query头共享同一组Key和Value头
- 由此KV Cache消耗直接减少H倍
- 代价:压缩了语义空间、模型捕获信息的能力下降,导致困惑度上升,训练变得不稳定。
GQA:Llama时代的黄金标准
- GQA:分组查询注意力 Grouped-Query Attention
- 平衡效率和性能的折中
- MHA和MQA的插值方案,将Query头分为G个组,每个组共享一对Key/Value头。
- G为1,退化为MQA
- G为H,退化为MHA
- 保持接近MHA性能的同时,获得了接近MQA的推理速度
- 已有MHA模型可以通过少量训练参数微调转化为GQA
DeepSeek MLA:极致压缩与解耦RoPE
- MLA:多头潜在注意力 Multi-Head Latent Attention
- 核心思想:低秩键值联合压缩
- 将高维的Key和Value矩阵压缩到低维的潜在向量空间
- 如此,推理时KV Cache仅仅需要存储高密度的低维向量
- 挑战:RoPE的位置敏感性
- 旋转操作的非线性,导致无法直接应用于压缩后的潜在向量
- 解决方案:解耦
- 将Attention的Query和Key分解为两个独立部分
- 内容部分,承担语义,应用低秩压缩MLA。
- 位置部分:携带位置信息,不进行压缩,直接应用RoPE。
内核级优化:IO感知算法革命
算法层面优化减少了数据的存储量,内核层面致力于提升数据传输效率。
FlashAttention:打破IO瓶颈
- 目前高性能LLM推理引擎标配。
- 经典Attention计算过程,可以看到不仅有巨大的矩阵占用显存,还会进行频繁的HBM读写
- FlashAttention的关键技术:
- Tiling(分块)与Recomputation(重计算)
- 分块是将Q、K、V切分到能够在GPU Cache上放下的小块
- 关键点在于中间巨大的注意力矩阵永远不会完整写入HBM
- 而是在SRAM中计算即用即弃
- 大幅度降低了HBM的读写量
- 重计算是在训练反向传播阶段,由于前向传播没有保存注意力矩阵S
- 需要重新计算,虽然增大了计算量,但减少了IO量
- 总速度反而提升
- V2版本引入序列长度维度并行化
- V3版本针对特定架构进一步优化
FlashDecoding:解码阶段的特化方案
- FlashAttention在自回归生成的Decode阶段,显存密集型场景下一般
- Prefill 阶段:输入完整 prompt,一次计算所有 token 的注意力,此时 Query 长度等于 prompt 长度(例如 128、2048)。
- Decode 阶段:模型每步只生成下一个 token,因此:
- Query 来自上一步新生成的 token(当前步的输入),长度 = 1。
- Key / Value 来自历史所有 token(已缓存的 KV Cache),长度 = 当前总序列长度 N
- N(包括 prompt + 已生成的 token)。
- Decode 阶段困境
- Query 长度为 1,KV 长度为 N(历史上下文)。
- 若 Batch=1,仅能按 Head 数(如 32)并行,A100 的 108 个 SM 中仅 32 个工作,其余闲置 → GPU 利用率极低。
- FlashDecoding 方案:Split-K
- 将长 KV 序列切分为多个块(Chunks)。
- 各 SM 并行计算 Query 与部分 KV 的局部注意力。
- 最后增加归约(Reduction)步骤,汇总局部结果并计算全局 Softmax。
- FlashDecoding++ 优化
- 异步 Softmax:统一最大值,避免同步开销。
- 双缓冲优化:针对扁平矩阵(Flat GEMM)。
- 效果:Batch=1 超长上下文场景下,推理速度提升 8 倍以上。
系统级显存管理
PagedAttention与Continuous Batching
- 上文Flash相关是在优化“单个请求”的计算效率,PagedAttention与Continuous Batching则是在优化“多个请求”的系统吞吐量。
- PagedAttention:LLM的虚拟内存技术
- 早期KV Cache显存分配是静态且连续的,系统必须按照最大可能的序列长度预分配显存。
- 显存碎片化,产生内部碎片、外部碎片以及预留浪费
- 块表(Block Table)机制
- 借鉴操作系统的虚拟内存分页机制
- 分页存储,将KV Cache切分为固定大小的块,例如每个块存储16个token
- 非连续存储:物理块不需要连续,可以分散
- 虚拟映射:借助Table,记录逻辑块与物理块的映射关系
- 优势
- 消除外部碎片
- 减小内部碎片
- 多个候选序列可共享相同的物理KV Block,生成不同Token时才赋值新的物理块,节省了显存。
- 早期KV Cache显存分配是静态且连续的,系统必须按照最大可能的序列长度预分配显存。
- Continuous Batching:迭代级调度
- 传统Static Batching静态批处理的问题:一个Batch内所有请求必须等子哦慢的请求完成后才能一起返回,短请求完成后,算例闲置浪费。
- Continuous Batching(连续批处理):
- 动态插入:每次生成一个Token,检查是否生成EOS Token。
- 即时释放:一旦生成完毕,释放显存槽位。
- 新请求填补:等待队列中拉取新的请求填充
- 使得GPU始终处于满载状态
- vLLM:以 PagedAttention 为核心,拥有最佳的动态 Batching 能力和易用性,适合处理请求长度差异巨大的高并发流量。
推理加速策略
投机解码(Speculative Decoding):
- 打破自回归的串行枷锁?
- 自回归生成必须一个接一个地生成 token,速度慢、延迟高。投机解码的思路是:用小模型快速猜多个 token,大模型一次性验证这些 token 对不对。验证比生成快(因为可以并行计算),且最终结果和只用大模型一模一样。
- 投机解码的基本流程
- 小模型(草稿模型)一口气生成 K 个候选 token → 大模型并行验证这 K 个 token 的概率 → 保留通过验证的部分,拒绝不符合的。这样一次可能“跳过多步”,打破串行枷锁。
- Medusa:不要独立的小模型
- 在大模型的最后一层加几个额外的“头”,每个头负责预测未来不同位置的 token(比如头1预测 t+1,头2预测 t+2)。用树状结构组织候选,一次前向传播就能验证所有分支,省去了额外加载草稿模型的开销。
- EAGLE:在特征层做预测
- 预测离散 token 很难(选项太多),但预测模型内部的“特征向量”更平滑、更准。EAGLE 训练一个极轻量的网络,输入当前层的特征,输出下一时刻的特征,再解码成 token。准确率高 → 接受率高 → 加速效果更好。
- DeepSeek-V3 的 MTP:把投机解码融入训练
- 预训练时就让模型顺便学习“预测后续多个 token”(多 token 预测目标)。这样模型自己就长出了草稿能力,推理时直接用这些内置模块做猜测,不需要额外模型。实测加速约 1.8 倍。
稀疏化与线性化:架构层面的颠覆
- MoE(混合专家模型):每个 token 只激活少数专家(如 Top-2),而不是全部参数。Mixtral 8x7B 总参数 47B,实际激活 13B → 推理快,知识容量大。
- 负载均衡的难点:Router 容易坍缩(总选少数专家)。传统辅助损失会干扰主任务。DeepSeek 方案:动态调整 Bias,过载的专家降 Bias、空闲的升 Bias,不产生梯度干扰,同时保证负载均衡和性能。
- 线性注意力(Mamba):用状态空间模型(SSM),复杂度 O(N) 而非 O(N²),推理显存 O(1) 恒定。
- Jamba(混合架构):Transformer 层(处理复杂短期依赖) + Mamba 层(超长距离依赖、低显存)。再配合 MoE,实现 256K 上下文的高效推理。
量化技术:精度与效率的极限压榨
- GPTQ(权重量化):只量化权重(如 W4A16),用 Hessian 矩阵补偿误差,适合消费级显卡(RTX 4090 跑大模型)。
- AWQ(激活感知量化):保留处理大激活值的 1% 权重为 FP16,其余 99% 量化到 INT4,硬件友好、无需反向传播。
- SmoothQuant(全链路 INT8):引入平滑因子 s,将激活中的极端异常值“压平”,同时放大权重。使激活易量化,实现 W8A8 的 INT8 矩阵乘法加速。
- FP8(H100 原生):非线性分布更贴合权重正态分布,两种格式(E4M3 用于推理,E5M2 用于训练),吞吐量是 BF16 的 2 倍。
- FP4(Blackwell B200 即将支持):配合块级二阶缩放(Block-wise Scaling),推理性能再翻倍,万亿参数模型实时推理的物理基础。
附录
| 技术领域 | 核心技术 | 解决瓶颈 | 核心机制 | 代表模型/框架 |
|---|---|---|---|---|
| Attention | GQA | 显存容量/带宽 | 分组共享 KV Heads | Llama 2/3, Qwen 1.5 |
| Attention | MLA | 显存容量 (极致) | 低秩压缩 + 解耦 RoPE | DeepSeek-V2/V3 |
| Kernel | FlashAttention | 计算/IO 效率 | Tiling + Recomputation | 几乎所有现代 LLM |
| Kernel | FlashDecoding | Decode 并行度 | Split-K 并行 + 归约 | vLLM, TensorRT-LLM |
| Memory | PagedAttention | 显存碎片 | 虚拟内存分页 (Block Table) | vLLM |
| System | Continuous Batching | 算力气泡 (Padding) | 迭代级动态调度 | vLLM, TGI, TRT-LLM |
| Speedup | Speculative Decoding | 串行生成延迟 | Draft-Verify 拒绝采样 | Medusa, EAGLE, MTP |
| Arch | MoE | 模型容量 vs 成本 | 稀疏激活 (Top-K Routing) | Mixtral, DeepSeek, Switch |
| Quant | SmoothQuant | 激活异常值 | 迁移量化难度到权重 | W8A8 全链路推理 |
预训练算法
Minimind的Pretrain:
- 预训练数据集
PretrainDataset:读取 JSONL 文本,分词后添加 BOS/EOS,统一 padding 到max_length;标签与 input_ids 相同,但将 padding 位置设为-100以忽略损失;数据实际为 QA 对话(含<|im_end|>),属于指令预训练/继续预训练。 SFTDataset和DPODataset仅提及,核心是 Loss Masking(只对助手回答计算损失)和成对的偏好数据,后续章节详解。- 检查点管理
lm_checkpoint:区分保存仅权重文件(半精度+CPU)和完整恢复文件(含优化器、scaler、epoch、step、wandb_id);原子化保存(先存.tmp再os.replace);支持 GPU 数量变化时自动换算 step。 SkipBatchSampler:实现精确到 step 的断点续训,跳过已训练的 batch 索引,避免数据重复。get_model_params:统计总参数量,支持 MoE 并额外计算推理时的激活参数(Active Params)。- 学习率调度
get_lr:单周期余弦退火,学习率从lr单调递减到0.1*lr,下降曲线平滑。 - 训练主流程:分布式初始化,每张卡随机种子设为
42+rank以保证随机多样性;配置MiniMindConfig(含 MoE 选项);支持断点恢复(from_resume=1);混合精度(autocast+ GradScaler);DDP 封装时忽略 RoPE 缓存参数。 - 训练循环
train_epoch:每步动态更新学习率;前向得到res.loss和res.aux_loss(MoE 辅助损失),总损失除以累积步数;反向传播使用scaler.scale;每accumulation_steps步执行梯度裁剪、优化器 step、scaler update、梯度清零。 - 日志与保存:主进程定期记录 loss、lr、ETA;保存权重(半精度+CPU)和完整 checkpoint;每一步后显式删除中间变量以释放显存。
- 关键设计细节:预训练数据虽是对话但不做 loss masking,让模型学习完整概率分布;余弦退火+梯度累积适应小显存;原子化保存 + GPU 数量自适应换算保障断点续训鲁棒性;DDP 下不同卡不同种子增加训练多样性。
SFT
Minimind的SFT:
- SFT 训练主流程与预训练基本一致,核心差异在于数据集和损失掩码(Loss Masking)。
- SFT 数据格式为
{"conversations": [{"role": "user/assistant", "content": "..."}]},多轮对话按时间顺序排列,训练时会被“压扁”成一条长序列,并用特殊标记<|im_start|>、<|im_end|>分隔角色。 create_chat_prompt使用 tokenizer 的apply_chat_template将多轮对话渲染为纯文本字符串,不进行分词。- Loss Masking 的核心实现:
generate_labels通过滑动匹配bos_id(即tokenizer.bos_token + "assistant\n"的 token 序列)和eos_id(tokenizer.eos_token + "\n"),定位每个 assistant 回复的起止位置,仅将这些位置的标签设为真实 token ID,其余位置(user 内容、padding、系统提示)设为-100。 - 添加
add_special_tokens=False是为了精确获得匹配子串的 token 序列,防止 tokenizer 自动插入额外的 BOS/EOS 导致匹配失败。 - Padding 操作和预训练一致:将长度不足
max_length的样本用pad_token_id补齐,标签中 padding 位置同样设为-100。 - SFT 训练使用更小的学习率(默认 1e-6),更少的 epoch(默认 2),以轻微调整模型参数适应指令格式,避免灾难性遗忘。
- 其余工程细节(分布式初始化、混合精度、梯度累积、检查点管理、SkipBatchSampler 等)与预训练完全相同,复用
trainer_utils.py。 - 预训练让模型学习语言统计分布和世界知识,SFT 通过掩码让模型只学习回答部分,将续写模型转变为对话助手。
- RL(PPO/DPO/GRPO)是下一阶段,旨在突破 SFT 的模仿上限,提升对齐性、推理能力和鲁棒性,但当前研究质疑 RL 是否真正提升了模型的推理能力,还是仅提高了采样效率。
强化学习概览
- 强化学习在 LLM 中的作用
- 预训练模型只会“续写文本”,不懂指令、不会推理。
- RL 后训练通过奖励信号引导模型生成符合人类偏好、逻辑严谨的回答。
- TRPO(信任域策略优化)
- 核心思想:限制新旧策略的 KL 散度(行为分布差异),保证每次改进不崩溃。
- 数学形式:最大化代理目标,约束 KL 散度 ≤ δ。
- 缺点:需要计算海森矩阵(二阶导),对 LLM 不可行 → 被 PPO 取代。
- PPO(近端策略优化)
- 用裁剪(clip)代替 KL 约束,只使用一阶梯度,计算高效。
- 裁剪公式:
L_clip = min(r*A, clip(r,1-ε,1+ε)*A),其中r = π_new/π_old。 - 直观理解(你问过的“护住上下界”):
- 好动作(A>0):限制 r ≤ 1+ε(防止概率提高太多)
- 坏动作(A<0):限制 r ≥ 1-ε(防止概率降低太多)
min自动实现这两个方向的保护。
- 坏动作且 r 超过 1+ε 时为什么取原始项?
- 因为 A<0,
r*A比(1+ε)*A更负,min选更负的原始项,需要施加一个更大的惩罚才能把r拉下来。
- 因为 A<0,
- PPO 的四个模型:Actor(训练)、Critic(训练)、Reference(冻结)、Reward Model(冻结),显存压力大。
- PPO的核心是最大化收益的同时进行收益截断
- 想象进行爬山,没有Clip时,发现一条好路,就拼命往上爬(r变大),收益
r*A无限增加,但这会导致步子迈的太大,下次环境一变化可能就会掉下悬崖。 - 有Clip,min函数就像悬崖边的护栏,当你爬到\(1+\epsilon\)高度时,使用护栏挡住你,你继续爬(r继续变大),但海拔高度(收益)被卡在护栏不动了。收益不再增加,梯度变为0,模型也就不会更新参数。
- 想象进行爬山,没有Clip时,发现一条好路,就拼命往上爬(r变大),收益
- 好动作 (\(A > 0\)):我们希望 \(r\) 变大(提高概率)
- 正常情况 (\(r < 1+\epsilon\)):没碰到护栏。\(r \cdot A < (1+\epsilon) \cdot A\)。\(\min\) 取 \(r \cdot A\)。梯度正常,鼓励你继续增大 \(r\)。
- 用力过猛 (\(r \ge 1+\epsilon\)):碰到护栏了。\(r \cdot A \ge (1+\epsilon) \cdot A\)。\(\min\) 取了 \((1+\epsilon) \cdot A\)。
- 结果:\(r\) 再大,目标函数值也不变了,梯度为 0。(这就是你说的“护住上界”,防止好动作概率无限增大)。
- 坏动作 (\(A < 0\)):我们希望 \(r\) 变小(降低概率)
- 正常情况 (\(r > 1-\epsilon\)):没碰到护栏。\(r \cdot A < (1-\epsilon) \cdot A\) (注意:\(A\)是负数,\(r\)越大乘积越小)。\(\min\) 取 \(r \cdot A\)。梯度正常,鼓励你继续减小 \(r\)。
- 用力过猛 (\(r \le 1-\epsilon\)):碰到护栏了。\(r\) 太小,导致 \(r \cdot A \ge (1-\epsilon) \cdot A\) (负数乘更小的正数,结果反而变大了)。\(\min\) 取了 \((1-\epsilon) \cdot A\)。
- 结果:\(r\) 再小,目标函数值卡在 \((1-\epsilon) \cdot A\) 不动了,梯度为 0。(这就护住了下界,防止坏动作概率被直接干到 0,给模型留点探索的余地)。
- loss 标量如何更新参数?
loss.backward()利用计算图自动求导,loss 数值本身不直接使用,但 loss 函数的形式(含 min、clip)决定了梯度方向。- 优化器读取
.grad更新参数。
- REINFORCE 类算法(去掉 Critic)
- ReMax:用贪婪解码结果作为基线,不需要 Critic。
- RLOO:对同一 prompt 采样多个回答,用留一均值(除自身外其他回答奖励的平均值)作为基线。
- Reinforce++:将 PPO 的工程技巧(梯度裁剪、优势归一化)搬回 REINFORCE,效果匹敌 PPO。
- RL-Free 算法(去掉奖励模型)
- DPO(直接偏好优化)
- 推导:将 RLHF 最优策略解代入 Bradley-Terry 模型,消去配分函数,得到只依赖 π_θ 和 π_ref 的损失。
- 最终损失:
L_DPO = -log σ(β log(π_θ(y_w)/π_ref(y_w)) - β log(π_θ(y_l)/π_ref(y_l))) - 优点:无采样、无奖励模型、训练稳定。
- 缺点:离线(依赖固定数据集)、易模式坍塌。
- 分布偏移:如果偏好数据集中的回复分布与当前模型的生成能力差异过大,DPO效果会打折扣。
- 模式坍塌:DPO容易导致输出多样性下降。
- 缺乏探索:由于没有在线采样,DPO无法发现数据集中未出现的“更好解”
- IPO:用 MSE 控制偏好差距,防止过拟合。
- KTO:只需要点赞/点踩,引入损失厌恶。使得模型对“避免生成坏结果”的敏感度高于“生成好结果”
- ORPO:在 SFT 阶段直接加偏好惩罚,无需参考模型。目标是最大化“胜出回复”的赔率与“落败回复”的赔率之比。
- DPO(直接偏好优化)
- GRPO(群体相对策略优化)
- 去掉 Critic,用组内相对优势代替:
A_i = (r_i - mean(r)) / (std(r)+ε),对每个 prompt 采样 G 个回答。 - 流程:采样 → 规则打分(答案对错、格式)→ 标准化优势 → 用 PPO 裁剪目标更新。
- 优势:显存减半、无需奖励模型、适合数学/代码推理。
- 能激发“顿悟”的原因:即使全错,相对优势也能让表现稍好的回答获得正梯度,鼓励探索推理步骤。
- 去掉 Critic,用组内相对优势代替:
- GRPO 进阶变体
- Dr. GRPO:修正统计偏差(留一均值、长度归一化、历史感知锚点)。
- GRPO的关键偏差:
- 基线偏差:使用包含自身的样本均值作为基线是有偏的。
- 长度偏差:序列级优势分配给每一个Token,不加归一化,长回复会积累更多梯度,导致模型倾向于生成极长或极短回复,具体是鼓励长回复还是抑制长回复取决于优势的正负。
- 标准差归一化优势,会拉平简单问题和困难问题的梯度贡献,实际上简单问题(全对)和极难问题(全错)提供的学习信号应当较弱,处于“学习区”的问题应当提供更强的信号。
- GRPO的关键偏差:
- DAPO:
- 非对称裁剪:放宽上限(允许好回答更大更新),防止熵坍塌,即防止模型过早收敛到单一解,背模板不敢尝试。
- 动态采样:过滤全对/全错 prompt,提升样本效率。
- GSPO(针对 MoE):序列级裁剪(整个回答的联合概率比一起裁剪),避免 token 级裁剪因专家路由不同导致的不稳定。
- 由于采样噪声,某个token的r可能忽大忽小,一个token被疯狂裁剪,其他token正常。
- 推理逻辑中,前后token一般强相关,如果前token被裁剪、后token没被裁剪,整个句子更新步调不一致,模型学到的可能是碎片化的规则。
- MoE重,每个Token可能路由到不同的专家子网络,每个token独立裁剪,可能导致某些专家更新幅度大、某些专家更新幅度小,负载不均衡,甚至某些专家梯度爆炸或者消失。
- SAPO:软门控(连续衰减函数替代硬裁剪),提供平滑信任区域。
- 硬裁剪是一个非连续操作:一旦越界,梯度突然截断为0。
- GTPO:将策略熵作为额外奖励,鼓励关键决策点探索。
- Group Token Policy Optimization
- 对于成功的回复,某个Token的熵高,说明模型在这里“冒险”尝试并成功,应当给予额外的熵奖励。
- 对于失败的回复,如果熵低(也就是确定性更高输出这个Token,属于一种导致失败的盲目自信),给予更大的惩罚。
- Dr. GRPO:修正统计偏差(留一均值、长度归一化、历史感知锚点)。
- 过程监督与自举
- PRM(过程奖励模型):对推理每一步打分,提供密集奖励信号。
- Process Reward Model:像老师批改作业一样,对于推理的每一步进行打分。
- STaR(自举推理):拿正确答案微调,错题给提示后反推 → 自我进化。如果错误的题目模型在拿到答案后能够成功反推出正确的解题过程,也将该数据加入训练集。
- PRM(过程奖励模型):对推理每一步打分,提供密集奖励信号。
- 梯度裁剪(gradient clipping)
- 将梯度的 L2 范数限制在阈值内(如 1.0),防止梯度爆炸,训练更稳定。
- 在 PPO 中通常配合
scaler.unscale_(optimizer)后使用。
- 算法选择建议
- 显存极度受限 → DPO / ORPO
- 有偏好配对数据,想要稳定 → DPO / IPO
- 有结果验证(数学、代码),追求推理能力 → GRPO / DAPO
- MoE 或超长文本 → GSPO / SAPO
- 只有点赞/点踩数据 → KTO
不同算法的比较概览:
| 算法 | 是否需要 Critic | 显存占用 | 适用场景 | 核心优势 |
|---|---|---|---|---|
| PPO | 是 | 极高 | 通用 RLHF,机器人控制 | 在线探索,理论成熟,极其稳定 |
| ReMax | 否 | 中 | LLM 微调 | 极简实现,去 Critic,效果持平 PPO |
| DPO | 否 | 低 | 通用对话,指令跟随 | 极其稳定,实现简单,无采样开销 |
| ORPO | 否 | 极低 | SFT+RL 一步到位 | 训练速度快,显存最友好 |
| GRPO | 否 | 中低 | 数学/代码推理 | 适合大规模采样,自适应基线,DeepSeek 首选 |
| GSPO | 否 | 中低 | MoE/长文本 | 序列级一致性,防止长链条崩塌 |
| DAPO | 否 | 中低 | 大规模推理训练 | 动态采样提升效率,非对称 Clip 鼓励探索 |
| SAPO | 否 | 中低 | 多模态/复杂推理 | 软门控提供连续信任区域,平滑优化 |
“PPO 的核心公式 \(L = \min(rA, \text{clip}(r)A)\) 看起来是在求最小值,但它的本质是最大化目标收益。
\(\min\) 函数的作用不是为了‘加大惩罚’,而是为了截断收益的上限。
当 \(A>0\) 时,它限制了概率比 \(r\) 向上突破 \(1+\epsilon\),防止策略对好动作过度自信; 当 \(A<0\) 时,它限制了概率比 \(r\) 向下突破 \(1-\epsilon\),防止策略把坏动作的概率直接降到 0,保留了探索空间。
而如果模型在错误的方向上更新(比如 \(A<0\) 时反而增大 \(r\)),\(\min\) 函数会故意不触发 Clip,直接暴露巨大的负收益,从而产生大梯度将模型强行拉回正确方向。这就是 PPO 既能保证训练稳定(Clip 保护),又能快速纠正错误(不 Clip 错误方向)的精妙之处。”
Minimind的DPO
- DPO数据由偏序对组成,chosen和rejected分别表示我们认为好的回答和坏的回答。
- 核心是告诉模型:在面对同样的输入时,回答A比回答B更好。
- chosen和rejected的用户输入必须完全一致。
- 模型的回复是DPO算法主要学习差异的地方。
Minimind的PPO
- 正式进入不使用监督学习方法,而使用强化学习方法来提升模型能力的范畴
- PPO数据格式与SFT数据格式相同,因为本来就可以从SFT模型获得,但assistant部分并不需要内容
- 因为训练过程中完全由策略模型实时采样生成模型回答
- 训练过程中,模型会基于user的问题生成回答,而后由奖励函数/模型对回答打分,分数高的回答会被鼓励,增加策略概率,分数低的回答会被抑制,降低策略概率。
- 上面这个打分、调整循环就是强化学习的核心。
- 四个模型
- 分为两组,分别是正在训练的模型和冻结参数的模型
- Actor Model:策略模型,可训练
- 初始化为SFT后的模型
- 这就是我们最终想要得到的模型
- 负责根据输入的prompt生成回答,训练过程中,参数不断更新,目的是使得生成的回答获得更高的奖励分数
- Critic Model:评论家模型/价值模型,可训练
- 通常初始化自Reward Model或者SFT模型(将最后的输出层改为标量回归头)
- 是一个价值函数估计器,接收当前输入(prompt+Actor生成的部分回答),预估当前状态未来能够获得多少总收益(Value)
- 核心功能是用于计算优势函数,告诉Actor这一步是走得好于预期还是差于预期,从而指导Actor梯度更新方向。
- Reward Model:奖励模型,冻结参数
- 在此之前使用人类偏好数据训练出来的模型
- 作为裁判,当Actor生成完整回答后,给回答生成一个分数,反映回答符合人类偏好的程度。
- Reference Model:参考模型,冻结参数
- Actor Model在PPO训练之前的完全拷贝,即SFT模型
- 用于计算KL散度,防止模型崩坏
- Minimind中的Critic模型
- 为每个Token计算出一个价值,但在实际训练中只使用了最后一个token的value代表整个回答的价值。
- 标准的复杂PPO实现中,通常会利用完整value输出计算基于Token的广义优势估计GAE。
- 但MiniMind代码为了极简,将整个过程视为了一步,所以只使用了最后一个Token的价值对齐。
- 标准PPO的Critic模型
- 将奖励分配到每个Token,除了最后一个Token获取到Reward模型的分数,所有Token奖励都是KL散度惩罚。注意这一步是奖励模型。
- 获取Critic的每一个预测值,预测从这个Token开始直到句子结束,模型还能够获得多少奖励。
- 计算Token级别的优势GAE
- Actor计算Token级别的Loss并更新,这里会用到比率以及PPO的Clip
Minimind的GRPO及其变体
引言
- 随着Agentic和Reasoning模型崛起,传统的PPO由于依赖庞大且难以训练的Critic模型,在极高现存开销和稀疏奖励评估难的问题上面临巨大瓶颈。
- GRPO横空出世,彻底移除了Critic模型,通过同prompt下的组内相对得分评估优势,不仅大幅降低了训练成本,更是在数学推理和代码生成等客观评判任务中展现出惊人的潜力。
- GRPO并非银弹,在长思维链和混合专家架构中,暴露了长度惩罚偏误、方差爆炸、探索能力衰退等局限性,衍生了一系列改进算法
- Dr. GRPO:从数学底层修正了基线与长度偏差,防止模型“靠凑字数作弊”;
- DAPO:通过解耦裁剪释放了长文本的探索潜力,缓解策略坍塌;
- GSPO:将重要性采样提升至序列级,稳住了 MoE 架构极易崩溃的训练方差;
- SAPO:用温度控制的软门控机制榨干了每一次采样的梯度价值;
- GTPO:利用策略熵实现了无过程奖励模型下的精细化信用分配。
- 此外,PRM(过程奖励模型)与 STaR(自学推理者)等机制的引入,更是补齐了复杂推理数据冷启动与步骤级验证的短板。
数据准备
- GRPO数据集和PPO完全一样
GRPO流程详解
- GRPO核心输入与设置
- 输入提示词 (Prompt/Query, q):来自训练数据集的用户问题或指令。
- 策略模型 (Actor Model, \(π_θ\)):当前正在训练的大语言模型,负责生成回答。
- 参考模型 (Reference Model, \(π_ref\)):策略模型在强化学习前的快照(通常是 SFT 阶段的模型),其参数在训练过程中被冻结,用于限制策略模型的更新幅度,防止模型“遗忘”原有能力。
- 奖励模型 (Reward Model, RM) 或规则系统:用于对生成的回答进行打分。在代码或数学场景下,这也可以是一个基于规则的校验器(Rule-based Verifier)。
- 采样组大小 (G):一个超参数,表示针对同一个提示词q,策略模型需要生成的独立回答数量。
- GRPO核心流程
- GRPO核心思想是通过组内比较来确定哪些回答更好,而不是依赖一个全局的绝对基准。
- 类似于推荐系统中的列表级排序,相对优劣比绝对分值更指导模型的进化。
- 训练流程:
- 群体采样:给定一个提示词生成G个不用的输出
- 奖励计算:奖励模型或规则验证器对G个输出进行评估,得到对应的绝对奖励分数
- 计算相对优势:对上面的一组绝对奖励进行标准化处理,计算每个输出的相对优势,优势大于0表示该回答在同组中表现高于平均水平,应当被鼓励,否则被抑制。
- 计算KL散度惩罚:为了防止偏离参考模型太远,GRPO每个生成的Token级别计算直接的KL散度估计,并将其作为惩罚项加入。
- 策略更新:模型通过最大化以下目标函数来更新参数,结合了截断机制和KL散度
- GRPO vs PPO流程的主要区别
- PPO依赖于额外的Critic(价值模型)来预测绝对baseline,GRPO则巧妙剔除了这个庞大的组件
- 由此GRPO直接砍掉了Critic模型,节省了一整个LLM的显存开销
- GRPO只需要做Actor的前向和反向传播,推理和训练速度更快
- 训练代码主体
- calculate_rewards函数:
- 接收模型生成的回复,并计算出一个综合得分(Reward张量),告诉策略模型这次回答得有多好。
- Minimind主要拆解为两个主要流程:规则奖励以及模型打分奖励,而后进行加权融合
- grpo_train_epoch函数,用于训练:
- 数据准备与Prompt Token化:从DataLoader中取出一个批次的用户提示词
- 使用
padding_size="left"进行左填充保证右侧是对齐的。
- 使用
- 策略模型生成回复(Rollout阶段):纯生成阶段,不需要计算偷渡,对于B个问题,模型生成
B*G个不同的回答
- 数据准备与Prompt Token化:从DataLoader中取出一个批次的用户提示词
- 计算对数概率(Log Probabilities):给定 token 序列,计算模型生成这些 token 的对数概率,也就是模型生成这些回复的自信程度。
- 计算当前策略生成这些字的概率需要开启梯度计算,因为这是我们需要优化的对象。
- 计算参考模型,也就是未经过微调的老模型生成一模一样子的概率不需要计算梯度,只是作为锚点
- 计算获得KL散度,防止模型走火入魔
- 奖励结算与相对优势计算:GRPO的灵魂
- 计算组内优势
- 计算KL散度
- 计算最终Loss并反向传播
- 优化器步进与日志更新
- calculate_rewards函数:
-
- 总结: grpo_train_epoch 就像是一个严谨的流水线:出题 (Prompt) -> 答题 (Rollout) -> 打分 (Reward) -> 组内排名 (Advantage) -> 分析得失 (Loss & KL) -> 自我反省并进步 (Backward & Step)。
关于GRPO的一些讨论
- GRPO的核心流程与连坐机制
- GRPO的基础流程非常直接:多生几个->算算平均分->谁在平均分之上就学谁
- 十分适合结果导向的任务,只要结果对了,我们就可以通过对比,自动筛选出那些导致正确结果的推理步骤,不需要一个极其聪明而且昂贵的Critic模型来一步步指导。
- 优势值的整句统一
- 标准GRPO中,优势通常不是逐个Token变化的,而是整句统一的,也就是不同位置的Token被分配的优势值完全一样。
- 信用分配难题
- 假设我写了 100 行代码,只错了一个变量名导致运行失败,会给这 100 行代码全部打低分(负优势)。那模型岂不是把前面 99 行正确的逻辑也“冤枉”了?
- GRPO的解法:采样与统计平均
- 回答 1 (失败):前面逻辑对,第 99 步错了 → 全体负分
- 回答 2 (成功):前面逻辑对,第 99 步也对 → 全体正分
- 回答 3 (失败):第一步就错了 → 全体负分
- 对于“前面的正确逻辑”:它在“回答 1”中被惩罚,但在“回答 2”中被奖励。如果采样的样本够多,只要它是导致成功的必要条件,它总会更有可能出现在高分样本中。平均下来,它的概率会被推高。
- 对于“第 99 步的错误”:它主要出现在负分样本中,所以会被抑制。
- 结论: GRPO 虽然单次看是“连坐”(一人犯错,全句受罚),但通过大量数据的统计,模型最终能学会区分“哪些 Token 是真正导致成功的关键”。
- 为什么Agentic RL这么爱GRPO
- GRPO vs. PPO:为了去肥与摆脱Critic
- GRPO vs. DPO:为了“探索”与“无中生有”
- DPO:需要预先准备好成对的数据(好回答 vs 坏回答)。模型只是在学习“模仿好的,远离坏的”,无法让模型学会它没见过的东西。
- GRPO:典型的在线强化学习。模型在训练过程中不断尝试(Sample),一旦它偶然做对了一次(Aha Moment),奖励函数就会给予高分,模型就会强化这条路径。非常适合结合 Rule-based Reward(规则奖励)。在代码场景中,我们可以定义详细规则(通过编译 0.2 分,测试用例过半 0.5 分,全对 1.0 分)。GRPO 会在一组生成中,自动分析哪些特征导致了更高分数,精细化优化策略,也就是具备处理部分正确的能力。
GRPO的一些改进算法:
- Dr. GRPO:修正 GRPO 的内在优化偏差 (GRPO Done Right)
- 面试考点:为什么标准 GRPO 会导致模型越回答越长(尤其是答错的时候)?如何修正?
- 痛点分析:标准GRPO的数学偏差
- 基线偏差:计算相对优势时,选取均值作为baseline,实际包含了当前这一条
- 相应长度偏差:对于正确答案,优势为正,模型会觉得用更少的字拿到同样的正向优势更加划算,这在无意中过度惩罚了正确思维链的长度,抑制了模型进行长程探索和深度思考的能力。对于错误答案,除以长度会稀释负面惩罚,模型很快会发现一个漏洞:“只要我回答错误,我就尽可能瞎扯得很长,这样每个 Token 分摊到的惩罚系数就变小了”。这就是为什么很多使用原生 GRPO 训练的模型在遇到难题时,会陷入“无限复读”或输出极长且无意义废话的根本原因。
- 核心改进:
- 无偏优势估计、剔除不合理的长度除法
- DAPO:Decoupled Clip and Dynamic sAmpling Policy Optimization
- GRPO在实际进行 Long-CoT(长思维链)训练时,暴露出以下几个致命痛点:
- 优势为零时的算力浪费(无效采样),全错或者全对
- 熵坍塌与探索能力受限(对称裁剪问题),由于上限被死死卡在1.2,模型对这个好方向的鼓励被过早截断(Capped early)。这会导致模型倾向于只输出安全、重复的废话,系统多样性丧失,发生熵坍塌(Entropy Collapse)。
- 长度偏置(样本级 Loss 的天然缺陷),原生的 GRPO 计算 Loss 是在样本级别(Sample-level)。它先计算每个回复序列内部所有 Token 的平均 Loss,然后再把多个样本的 Loss 平均。这就导致了一个严重问题:一条包含 1000 个 Token 的高质量长推理,和一条只有 10 个 Token 的短回复,在全局梯度更新时的权重是一样的。这变相惩罚了模型去进行复杂的长推理。
- 截断带来的奖励噪声(Reward Noise),训练时为了防止 OOM,通常会设置最大生成长度。如果模型还没输出完就被强行截断,规则奖励系统(Rule-based RM)通常会直接给低分。但模型无法区分“我是因为逻辑错了被扣分”还是“我是因为话没说完被扣分”,这引入了巨大的噪声。
- 核心改进:
- Dynamic Sampling(动态采样)—— 解决算力浪费,在生成数据后,DAPO 会动态检查这一组数据的奖励标准差。如果std=0(全对或全错,没有相对优势),直接丢弃(Skip)这组数据,不参与计算。确保每次反向传播都在做有效更新。
- Clip-Higher(解耦的非对称裁剪)—— 解决熵坍塌,既然好 Token 的概率上升空间被限制,DAPO 提出了非对称裁剪(Asymmetric Clipping),解耦了上下限。
- Token-Level Policy Gradient Loss(Token 级损失)—— 解决长度偏置,DAPO 将 GRPO 的样本级归一化改成了 Token 级归一化。它不再先求单条样本的均值,而是把 Batch 内所有样本的所有 Token 拉平,直接在这个巨大的 Token 集合上计算策略梯度 Loss。长度越长、思考越深入的高质量回答,在 Loss 中占据的权重就越大,从底层逻辑上鼓励模型在必要时进行 Long-CoT 推理。
- Overlong Filtering & Shaping(超长过滤与软惩罚)—— 解决截断噪声。
- 过滤(Filtering): 如果一条数据是因为达到最大长度被截断的,DAPO 会在计算 Loss 时直接 Mask 掉它,避免模型学到错误的截断逻辑。
- 软惩罚(Soft Overlong Punishment): 为了防止模型为了水字数而无限循环(比如像死循环一样的无意义重复思考),DAPO 引入了长度感知惩罚。如果回复过长,会在原本的奖励基础上扣除一个随长度增长的惩罚值。
- GRPO在实际进行 Long-CoT(长思维链)训练时,暴露出以下几个致命痛点:
- GSPO:序列级组相对策略优化 (Group Sequence Policy Optimization)
- 虽然 GRPO 去掉了 Critic 模型,极大降低了显存开销,但在面对超长逻辑推理(Long-CoT)和超大规模的混合专家模型(MoE)时,它暴露出一个底层设计上的致命缺陷:Token 级的优化与 Sequence 级的奖励不匹配。
- Token 级重要性采样带来的“高方差与梯度爆炸” GRPO 在计算新旧策略的差异时,是计算每一个 Token 的概率比(Importance Ratio)。但在强化学习中,一个 Token 在一次生成中只被采样一次。在长达几千字的长思考序列中,个别极其生僻或概率波动极大的 Token 会导致整个重要性采样的乘积剧烈震荡。这种高方差的噪声很容易导致梯度不稳定,甚至训练直接崩溃。
- 奖励与优化的粒度错位(Mismatch) 我们在训练推理模型时,奖励(Reward)通常是给整个句子的(比如:这道数学题最终做对了得 1 分,做错了得 0 分)。这是一个 Sequence-level(序列级) 的信号。但是,GRPO 却把这个宏观的奖励,强行分配给每一个 Token,并在 Token-level(Token 级) 上进行裁剪和优化。
- MoE 架构下的路由崩溃(Routing Drift) 在训练大规模 MoE 模型(如 DeepSeek-V3 或 Qwen 系列)时,由于 GRPO Token 级的梯度噪声太大,会导致 MoE 的路由网络(Router)在每次更新后发生剧烈偏移。为了防止专家负载不均衡或模型崩盘,GRPO 往往需要引入非常复杂且极其消耗算力的工程 Hack 手段,比如 Routing Replay(路由重放),这让训练成本再次飙升。
- 对工程框架的精度极度敏感 因为 GRPO 优化到 Token 级别,训练引擎(如 Megatron)和推理引擎(如 vLLM)在底层浮点数计算上的微小精度差异,都会在长序列中被无限放大,导致新旧策略概率比(Logprob ratio)计算失准。
- 核心改进
- 1.序列级概率比与长度归一化(Sequence-Level Likelihood Ratio)
- GSPO 不再挨个计算 Token 的概率比,而是直接计算整个回答序列在新旧策略下的似然比。
- 为了防止长序列导致这个比值呈指数级爆炸或趋于零,GSPO 极其巧妙地引入了长度归一化(取几何平均)。
- 彻底消除了单个 Token 带来的剧烈方差噪声,让重要性采样变得极其平滑和稳定。
- 2.序列级裁剪(Sequence-Level Clipping)
- 对序列权重而非裁剪单个Token的概率比,完美对齐了“序列级奖励”和“序列级优化”。模型不再因为某几个异常 Token 而被过度惩罚或鼓励,整体逻辑链条的连贯性得到了更好的保护。
- 3.原生稳定的 MoE 训练(抛弃 Routing Replay)
- 得益于序列级更新带来的极低方差和极高稳定性,GSPO 的梯度信号变得非常清晰。使用 GSPO 训练庞大的 MoE 模型时,路由网络不再发生剧烈漂移。因此,可以完全废弃掉昂贵的 Routing Replay 机制,模型依然能稳定收敛,大幅提升了训练吞吐量。
- 1.序列级概率比与长度归一化(Sequence-Level Likelihood Ratio)
- 虽然 GRPO 去掉了 Critic 模型,极大降低了显存开销,但在面对超长逻辑推理(Long-CoT)和超大规模的混合专家模型(MoE)时,它暴露出一个底层设计上的致命缺陷:Token 级的优化与 Sequence 级的奖励不匹配。
- SAPO:平滑软优势策略优化 (Soft Advantage Policy Optimization)
- SAPO 解决的核心痛点之一,恰恰是在给带有复杂路由的 MoE 模型做 RL 时极易引发的崩溃问题。
- 痛点分析:硬截断的资源浪费,某个极具创造性的 Token 概率翻倍了(比如\(r_t=2.0\)),超出了1.2的上限,GRPO 会直接把它的梯度抹零。这意味着模型不仅没有被鼓励,反而白白浪费了一次宝贵的探索。在动辄几千 Token 的推理链中,大量的有效梯度因为“出界”而被直接丢弃,导致样本效率极低。在包含海量专家的 MoE 模型中,新旧模型哪怕只发生了一点点路由变化(Routing Heterogeneity),同一个 Token 的输出概率也可能产生天壤之别,导致概率比\(r_t\)极不稳定。裁剪区间太窄或太宽都不太行,GSPO 为了解决这个问题,把粒度提升到了“序列级”。但 GSPO 也有副作用——如果一个几千字的优秀推理序列里只混进了几个极其离谱的错误 Token,GSPO 会把整条序列的梯度都压制掉,这属于“连坐惩罚”。
- 核心改进
- 1.温度控制的软门控机制(Soft Gate Function),SAPO 用一个基于 Sigmoid 的连续动态门控函数替换了 GRPO 那个带棱角的 Clip 截断。永远不会一刀切变成0。
- 2.非对称温度调节(Asymmetric Temperature)。在 RL 训练中,“鼓励好行为”和“惩罚坏行为”的风险是不一样的,优势为负时,在庞大的词表中,压低一个 Token,往往意味着其他成千上万个垃圾 Token 的 Logits 会被动上升,这极其容易引发模型输出乱码或退化。赋予了负优势更高的温度(更陡峭的衰减)。也就是说,在惩罚坏 Token 时,SAPO 的态度更加保守和谨慎,防止因为惩罚力度过大而把其他无关的词表概率搞崩。
- GTPO:组 Token 级策略优化 (Group Token Policy Optimization)
- 面试考点:没有过程奖励(PRM),如何在极长的思考过程中进行精准的信用分配?
- 痛点分析:GRPO 本质上是基于结果的(Outcome-based),即常说的 ORM(Outcome Reward Model)。这就导致了一个“连坐”问题:模型写了 1000 字的思维链(CoT),最后答案蒙对了,GRPO 就会把这 1000 个字统一赋予正向 Advantage。但实际上,这 1000 字里可能包含了一段完全错误的逻辑。这就是经典的“稀疏信用分配”难题。
- 核心改进:动态熵权重
- 1.将“策略熵(Policy Entropy)”作为重要性探针,GTPO 提出了一个极其聪明且直觉的假设:在正确的推理序列中,模型表现出高熵(高不确定性、在多个选项中纠结)的位置,往往就是推理链条中最关键的“决策点(Decision Points)”或认知努力最大的地方。
- 2.Token 级的动态奖励再分配,GTPO 不再把全局优势平均分给所有 Token,会根据内部熵计算动态权重,彻底打破了平均主义!如果模型最终答对了题,那么在生成过程中那些让模型“绞尽脑汁、高度不确定”的关键 Token,会分到最大比例的奖励;而那些水到渠成、闭着眼睛都能生成的低熵 Token,只分到很小的奖励。
- 3.负向序列的防崩溃机制,对于回答错误的序列(负面奖励),GTPO 的处理非常谨慎。因为错误可能是由某一个致命的“愚蠢决定”导致的,但高熵并不一定代表那个致命错误发生的位置。因此,在处理负向 Advantage 时,GTPO 通常会回退到更平缓的分配方式,或者结合我们上文提到的 SAPO 类似的软截断,防止误伤无辜 Token。
- 4.“白嫖”的伪过程奖励,GTPO 最惊艳的一点在于,策略熵(Logits 的分布情况)是模型在 Forward(前向传播)生成文本时天然就会计算出来的副产物。GTPO 巧妙地“白嫖”了这个内部信号,完全不需要引入外部的 PRM 网络,就实现了类似过程奖励的效果,极大地提升了样本利用率和上限(Ceiling)。
PRM:过程奖励模型 (Process Reward Model)
- 面试考点:为什么解数学题和写代码,PRM 比 ORM 更重要?
- 虽然前文提到的算法都在试图弥补只看结果的缺陷,但在攻克极度复杂的数学定理证明或大型工程代码时,PRM(过程奖励模型) 依然是不可逾越的护城河(如 DeepSeek-Math 的成功就高度依赖 PRM)。
- ORM vs PRM
- ORM (Outcome Reward Model):只看最终结果。优点是数据好获取(比如代码是否通过测试用例),缺点是反馈极其稀疏,模型不知道中间哪一步走错了。
- PRM (Process Reward Model):看过程。优点是数据量大(比如代码生成过程中,每个步骤的输出结果),缺点是反馈不那么及时。
- PRM 的价值与挑战
- 在基于 PPO 或 GRPO 的架构中挂载 PRM 后,模型在生成推理轨迹时,可以获得密集的正负反馈。如果第 3 步算错了,PRM 立即给负分,后续生成的优势值 A 就会被切断,逼迫模型学习正确的中间逻辑。 难点:PRM 的标注成本极其高昂。目前主流的做法是结合蒙特卡洛树搜索(MCTS)自动生成大量的逻辑分支,或者利用基于规则的验证器(代码编译器、符号学工具)来自动化构建 PRM 的训练数据。
STaR:自学推理者 (Self-Taught Reasoner)
- 面试考点:什么是大模型的“左脚踩右脚”起飞?(推理数据的冷启动机制)
- 在聊完 RL 算法后,必须了解一个前置概念:STaR。它虽然不是严格意义上的 RL 策略梯度算法,但它是目前所有推理模型(包括 OpenAI o1, DeepSeek-R1 早期冷启动)生成高质量训练数据的核心思想。
- 运行逻辑
- 假设我们只有问题和最终答案(只有题干和选项),没有中间的推导过程。STaR 提出了一个极具优雅的 Bootstrapping(自举)循环:
- 生成 (Generate):让当前语言模型针对问题生成思维链(Rationale)和答案。
- 过滤 (Filter):比对最终答案。把做对的那些样本(连同它的思维链)直接加入到微调数据集中。
- 合理化补充 (Rationalization):对于做错的问题,把正确的答案直接告诉模型(作为 Hint),命令模型:“答案是 X,请你倒推并写出为什么是 X 的思维链”。如果这次推导逻辑通顺,也将其加入数据集。
- 微调 (Fine-tune):使用这批自己生成的、包含正确逻辑的高质量数据对模型进行 SFT(监督微调)。
- 循环:拿着变聪明的模型,重新回到第 1 步。
- 假设我们只有问题和最终答案(只有题干和选项),没有中间的推导过程。STaR 提出了一个极具优雅的 Bootstrapping(自举)循环:
- STaR 在 RL 体系中的地位
- 强化学习(GRPO/PPO)需要模型本身具备一定的基础概率去命中正确答案,否则就会陷入“永远得不到正奖励”的死循环。STaR 通过“生成-过滤-反思”机制,用极低的成本为大模型注入了初始的 CoT(思维链)能力,为后续接入 GRPO 算法进行无止境的上限探索铺平了道路。