跳转至

DS汇总的一些大模型的技术报告

以下是几个主要开源大模型的技术报告亮点汇总:

开源模型

🏆 主流开源大模型亮点速览

🐫 Llama 3

  • 基础架构:采用标准的密集(Dense)型纯解码器(Decoder-only)Transformer架构,在规模上做到极致。
  • 规模/版本:旗舰版本参数量达4,050亿,是当时开源界规模最大的密集模型之一。
  • 核心亮点
    • 极致的参数与数据规模:旗舰版 4,050 亿参数,在海量数据上训练,为强大的通用能力打下基础。
    • 分组查询注意力(GQA) :优化推理效率和内存占用,相较传统多头注意力,推理速度提升约25%。
    • 开放的生态贡献:作为开源模型的标杆,其模型架构和训练细节(如分词器)被后续许多小型模型(如Phi-3)借鉴,极大推动了社区发展。
    • 多模态扩展能力:通过集成视觉编码器等方式,成功地将语言能力扩展到多模态任务。
    • 超长上下文支持:通过技术将上下文窗口扩展至100万token,为处理超长文档提供了可能。
  • 代表性成绩:在MMLU、HumanEval等基准测试中,8B至405B版本均展现出与GPT-4等领先模型相当的性能。

🧠 DeepSeek-V3

  • 基础架构:混合专家(MoE)架构。
  • 规模/版本:总参数量6,710亿,每次推理激活370亿参数。
  • 核心亮点
    • 动态路由机制的MoE:通过引入专家能力评估和负载均衡优化,解决了传统MoE中专家“冷启动”和负载不均的问题,专家利用率显著提升至89%。
    • 极致的内存效率设计:创新的多头潜在注意力(MLA)架构极大减少了推理时的KV缓存,是降低推理成本的关键创新之一。
    • 前瞻的硬件协同设计:技术报告不仅关注模型本身,更深入探讨了为AI硬件(如GPU)提出的未来发展方向,展示了软硬协同的设计思路。
    • 成本优势显著:在推理速度和内存占用上超越同级别模型,成本远低于GPT-5.2等闭源模型,约为其1/10。
  • 代表性成绩:DeepSeek V3的系列模型持续在SuperCLUE等权威榜单中名列前茅。

☁️ Qwen2.5

  • 基础架构:多样化的模型家族,包含Dense和MoE架构。
  • 规模/版本:开源版本从0.5B到72B参数,闭源版本有MoE模型。
  • 核心亮点
    • 出色性价比与全模态能力:旗舰级开源模型Qwen2.5-72B-Instruct性能足以比肩约5倍大的Llama-3-405B-Instruct。且发布多模态变体Qwen2.5-Omni,实现文字、图像、音频等多模态交互。
    • 高质量数据处理:预训练数据总量高达18万亿token,是前代Qwen2的2.5倍以上,为模型能力提供了坚实基础。
    • 合成数据增强:在微调阶段引入合成数据技术,有效提升了模型在代码生成、数学推理等复杂任务上的表现。
    • 动态损失缩放:在MoE架构中创新性使用,解决了梯度消失问题,确保每个专家都能得到充分训练。
  • 代表性成绩:Qwen2.5-7B在HumanEval代码生成测试中达到了68.7%,超越了当时DeepSeek-22B模型的62.3%。

🇪🇺 Mistral

  • 基础架构:MoE架构是其特色,同时也提供Dense模型。
  • 规模/版本:从7B的Dense模型到总参数1,190亿、激活60亿的Small 4 MoE模型,产品线丰富。
  • 核心亮点
    • 高推理效率与低成本:擅长生成精准、简洁的回答,有效减少输出token,大幅降低推理成本。例如Mistral Medium 3以低廉价格提供顶级性能。
    • 高度融合与统一:新发布的Mistral Small 4将指令遵循、推理、多模态和编码能力统一到单一MoE模型中,简化部署架构。
    • 可配置的推理深度:创新的reasoning_effort参数,允许开发者动态调整模型的推理深度(从快速响应到深度思考),平衡速度与质量。
    • 宽松的开源协议:模型大多采用Apache 2.0许可证,允许免费商用,对开发者非常友好。
  • 代表性成绩:其小模型在性价比方面表现突出。

🧩 GLM-4

  • 基础架构:以Dense架构为主。
  • 规模/版本:开源版本主要为GLM-4-9B和GLM-4-32B-0414等。
  • 核心亮点
    • 高效的参数效率:作为以Dense架构闻名的模型,在有限的320亿参数下,通过精巧设计提供了比肩更大规模MoE模型(如DeepSeek V3/R1)的性能。
    • 强大的智能体与工具调用能力:GLM-4系列内置了强大的All Tools能力,能够自主规划和使用网页浏览器、Python解释器等工具,在执行复杂任务时表现出色,位居行业前列。
    • 长文本写作与文档处理:GLM-4系列在长文本生成方面进行了深度优化,能够生成超过1万字的文本,非常适合论文、公文等长篇内容的创作。
    • 友好的本地部署:GLM-4系列模型旨在支持在消费级硬件上进行友好、方便的本地部署,降低了开发者和中小企业的使用门槛。
  • 代表性成绩:在SuperCLUE 2025年9月的开源模型榜单中,GLM-4.6位列开源第三。

🤖 Kimi K2

  • 基础架构:MoE架构。
  • 规模/版本:总参数达1万亿(1T),激活参数320亿,是真正的“万亿参数”模型。
  • 核心亮点
    • 专为智能体(Agent)设计:模型从设计之初就聚焦于智能体任务,在工具调用、自主决策等方面表现出众,被视为“反射级Agent模型”。
    • 极致的Token利用率:技术报告中强调通过“重写(rephrase)”预训练数据等技术,最大化每一个训练token的信息价值,提升模型效率。
    • 领先的代码与数学能力:在多个代码和数学推理基准测试中,Kimi K2超越了绝大多数开源和闭源模型。
  • 代表性成绩:在竞技场盲评中击败DeepSeek,一度登顶全球最强开源模型;在SWE-Bench Pro代码任务中与DeepSeek-R1并列顶尖水平。

🚀 MiniMax M3

  • 基础架构:自研的MiniMax Sparse Attention (MSA) 架构。
  • 规模/版本:未明确披露总参数量,但强调其架构创新。
  • 核心亮点
    • 首创线性注意力大规模商用:在MiniMax-01系列模型中,首次大规模实现并商用了线性注意力机制,打破了Transformer架构的垄断。
    • 三项全能的开源模型:M3是国内首个同时具备“前沿Coding能力、1M超长上下文、原生多模态”三项核心能力的开源大模型。
    • 极致的上下文长度:通过MSA架构,将上下文窗口提升至100万token,且单token计算量仅为传统模型的约1/20,大幅提升长文本处理效率。
    • 100万亿Token级训练数据:采用了规模空前的100万亿Token量级的多模态训练数据,为模型能力提供了海量知识基础。
  • 代表性成绩:M3在SWE-Bench Pro编程评测上超越了GPT-5.5和Gemini 3.1 Pro,逼近行业最顶尖水平。

🔬 Phi-3

  • 基础架构:标准的Dense Transformer架构。
  • 规模/版本:以小巧著称,最小版本Phi-3-mini仅有38亿参数。
  • 核心亮点
    • “小模型,大能力”:Phi-3-mini以38亿的“袖珍”参数规模,在3.3万亿token上训练,其性能足以媲美Mixtral 8x7B和GPT-3.5等大得多的模型,是边缘端部署的理想选择。
    • 数据清洗的秘密武器:Phi-3的成功关键在于使用了经过高度清洗和筛选的“教科书级别”的高质量数据,证明了高质量数据比盲目堆砌数据规模更重要。
    • 极致的端侧部署:模型体积之小,使其能够直接运行在智能手机甚至树莓派等边缘设备上,开启了AI应用的新可能。
    • 无缝兼容Llama生态:采用与Llama 2相同的分词器和块结构,意味着所有为Llama 2编写的部署软件包都可以无缝迁移到Phi-3上,极大降低了开发者的使用门槛。
  • 代表性成绩:以3.8B的参数量,达到甚至超越7B、13B级别模型的性能,树立了“小模型”的标杆。

💎 趋势总结:开源模型的演进路径

通过对上述模型的分析,可以清晰地看到开源大模型的发展遵循几条主线:

  • 架构创新驱动:模型架构经历了从最初的密集(Dense)Transformer(如早期的Llama、GLM),到以混合专家(MoE)架构(如DeepSeek-V3、Mistral)实现高效扩展,再到探索线性注意力等新架构(如MiniMax)的演进路径。

  • 长上下文与原生多模态融合:上下文窗口已从最初的几K token,发展到支持1M乃至10M token的级别。同时,模型不再局限于文本,开始原生地融合图像、音频、视频等多种模态,实现更自然的跨模态交互,这是当前技术竞争的焦点之一。

  • 模型“大一统”与低成本部署:为了降低部署复杂性和成本,模型正从多个专用模型走向一个通用模型统一多种能力(如Mistral Small 4和MiniMax M3)。同时,通过稀疏激活、量化、知识蒸馏等技术,模型的部署成本大幅降低。

  • 开源协议与商业化友好:越来越多的模型(如Mistral 3系列、新一代开源权重模型)开始采用Apache 2.0等宽松许可证,彻底解除了商业应用的限制,极大地推动了开源模型在企业侧的落地。

  • 国产模型的强势崛起:从榜单占比到技术创新,中国开源模型(如Qwen、DeepSeek、Kimi、GLM、MiniMax系列)已成为全球开源生态中一股不可忽视的领先力量。

💡 如何选择适合你的模型

面对众多优秀的开源模型,如何选择取决于你的具体应用场景和资源约束:

  • 追求极致通用性,资源充足Llama 3系列的旗舰版提供了强大的通用能力,适合作为基座模型进行微调。其庞大的社区生态也意味着丰富的工具和教程支持。
  • 平衡性能与成本,追求高性价比DeepSeek-V3 / R1系列的MoE架构在提供卓越性能的同时,推理成本远低于同级别密集模型。Qwen2.5系列则提供了从端侧到云端的丰富选择,其72B模型性能媲美更大的Llama模型,性价比极高。
  • 聚焦端侧部署或资源受限场景Phi-3系列是无可争议的明星,它证明了小模型也能拥有大智慧。Mistral 7B等中小模型也在保持高性能的同时,兼顾了部署的便捷性。
  • 需要多模态能力Qwen2.5-OmniMiniMax M3是原生支持多模态的开源选择。如果希望将多模态能力集成到现有语言模型中,可以参考Llama 3的多模态扩展思路。
  • 开发智能体(Agent)应用Kimi K2是专为Agent任务设计的模型,在工具调用、自主决策方面表现突出。GLM-4系列强大的All Tools能力也让它在处理复杂工具任务时游刃有余。
  • 注重代码生成能力MiniMax M3Kimi K2都在代码任务上展现了顶尖的实力。此外,Qwen2.5-Coder系列是专门为代码任务优化的高效选择。
  • 追求低成本试错与快速上手Mistral系列拥有宽松的Apache 2.0许可证和活跃的社区,其多种规模的模型为你提供了从实验到生产的平滑过渡。

希望这份整理能帮助你理解当前开源大模型的格局。由于技术日新月异,建议你持续关注各大模型的技术博客和社区动态,以获取最前沿的信息。

系列模型

你的需求收到了。我重新梳理并扩充了上一轮的答案,补充了四个主流系列(GPT、Llama、Qwen、DeepSeek)的代际演进脉络,以“演进历史”和“单篇亮点”两条主线来组织内容。以下为完善后的汇总报告:


开源大模型技术报告亮点与代际演进汇总

📊 正文概览

本报告以两条主线组织内容。主线一聚焦四大系列(GPT、Llama、Qwen、DeepSeek)的代际演进历史,梳理每代模型的架构变化、规模增长和核心改进;主线二则延续上一轮的结构,从“单篇亮点”角度呈现各模型最具代表性的技术创新。需要特别说明的是,GPT系列至今仍为闭源模型,但因其对整个开源生态的引领作用而被纳入本次对比分析。

🧬 一、GPT系列(2018–2025):从“基础雏形”到“通用智能”

尽管GPT系列至今仍属闭源模型,但其技术路线和架构演进深刻影响了整个开源大模型的发展方向,因此作为重要参照纳入本报告。

📌 关键演进脉络

  • GPT-1(2018年6月) :参数量约1.17亿,预训练数据约5GB。首次提出“预训练+微调”范式,开创性地证明了大模型可从无标注数据中学习通用语言表征。GPT-1采用12层Transformer解码器,奠定了后续GPT系列“纯解码器”的基本架构方向。

  • GPT-2(2019年) :参数量拓展至15亿,预训练数据增至40GB。首次展示了零样本学习(Zero-shot Learning) 能力,模型可以在没有任何任务特定微调的情况下理解新任务指令,标志着大模型通用能力的重要突破。架构层面的主要变化是移除了Dropout正则化——研究者发现大模型在单轮海量数据训练下已不存在过拟合问题,移除Dropout反而有助于性能提升。

  • GPT-3(2020年5月) :参数量跃升至1750亿,预训练数据激增至45TB。最关键的突破是上下文学习(In-Context Learning) 能力的发现与证明——通过少量的示例演示(Few-shot),模型即可执行复杂任务而无需参数更新。GPT-3的发布让大模型的“涌现能力”首次被系统性地观察到,参数规模从15亿直接拓展到1750亿,开启了大模型军备竞赛时代。

  • GPT-3.5与ChatGPT(2022年) :在GPT-3架构基础上加入了基于人类反馈的强化学习(RLHF) 对齐技术,让模型学会遵循人类指令并进行多轮对话。2022年底ChatGPT上线后,彻底改变了人机交互形态,也引爆了全球的大模型热潮。

  • GPT-4(2023年3月) :实现多模态能力突破,可联合处理文本和图像输入,并展现出更强的高级推理和复杂任务完成能力。技术细节虽未完全公开,但业内普遍认为GPT-4在上下文窗口、多任务泛化能力和安全性上均有质的飞跃。

  • GPT-4o(2024年5月) :首次实现原生多模态设计,能以接近人类的响应速度实时处理音频、视觉和文本输入,端到端训练,在交互体验上实现了质的飞跃。

  • GPT-5(2025年8月) :引入智能集成模型架构,在推理能力上实现重大飞跃,能够处理百万级token上下文,多模态能力全面深化,被视为OpenAI迈向通用人工智能(AGI)的关键一步。同时,GPT-5采用了更大规模的合成数据训练和更先进的安全对齐机制。

  • gpt-oss(2025年8月) :时隔六年,OpenAI重新开放了两款权重大模型——gpt-oss-20b和gpt-oss-120b,可在本地运行,采用了MXFP4等优化技术使20B版本可在消费级GPU(16GB RAM)上运行。这一动作标志着OpenAI战略向开源社区的部分倾斜,也释放出行业对“透明、可研究”模型的迫切需求信号。

📈 演进趋势提炼

GPT系列的演进是一条“规模扩张 → 能力涌现 → 范式革新 → 多模态融合 → 通用智能”的清晰路径。每一代的核心突破都集中在两个维度:一是参数和数据规模的指数级增长(从1.17亿到数千亿级别),二是学习范式的根本转变(从微调到零样本,再到上下文学习,再到RLHF人类对齐,最终走向多模态原生设计)。GPT系列的每一步技术突破都迅速成为开源社区跟进的标准,其影响力贯穿了所有主流开源模型的演进路径。

🏔️ 二、Llama系列(2023–2025):从“学术探索”到“开源生态基座”

Meta的Llama系列是开源大模型领域影响力最为广泛的标杆。其演进路径清晰地展示了开源模型如何从零起步,逐步构建出一个可与闭源商业模型抗衡的完整生态体系。截至2025年4月,Llama系列已成为全球下载量最高、社区使用最活跃的开源大语言模型之一。

📌 关键演进脉络

Llama 1(2023年2月):奠定技术基础的开山之作

Llama 1的发布是开源大模型发展史上的重要里程碑。在此之前,像GPT-3这样具备强大能力的模型对社区而言是遥不可及的,而Llama 1证明了开源模型同样可以达到顶尖水平。

  • 参数量:7B、13B、30B、65B四个版本,覆盖不同应用场景。
  • 技术架构:采用改进的Transformer解码器架构,核心创新包括RMSNorm(替代标准LayerNorm,减少中心化计算,提升运算效率)、SwiGLU(替换FFN中的ReLU激活函数,增强模型表达能力)和Rotary Position Embedding(RoPE) (实现更高效的长序列并行计算)。
  • 数据规模:1.4万亿token预训练数据。
  • 上下文窗口:2048 tokens。
  • 性能突破:尽管参数量远小于GPT-3(175B),65B版本在多个基准测试中表现出色,甚至超越了GPT-3,验证了架构优化比单纯堆砌参数规模更有效。
  • 定位:仅限学术研究用途,不开放商用许可。
  • 代表性成绩:在MMLU、C-Eval等基准测试中表现出色,打破了“开源模型不如闭源模型”的刻板印象。

Llama 2(2023年7月):开启商用化与性能跨越

Llama 2最大的突破在于将开源大模型的战略从“学术探索”转向“生态构建”——全面放开免费商用许可,极大降低了开发者和企业的使用门槛,推动了整个AI产业向普惠化发展。

  • 参数量:从Llama 1的65B扩展至70B,并维持7B、13B、34B等多个版本。
  • 核心架构升级:引入分组查询注意力(Grouped Query Attention,GQA) ,将查询向量分组以减少计算量,相比标准多头注意力在推理速度上有明显提升(推算提升幅度约20–30%),同时保留模型精度,是Llama 2最重要的架构创新。
  • 数据与窗口:预训练数据扩至2万亿token,上下文长度翻倍至4,096 tokens。
  • 安全对齐:引入监督式微调(SFT)基于人类反馈的强化学习(RLHF) 机制,显著增强了模型的安全合规性和对话能力。
  • 性能优势:相比Llama 1,训练数据规模提升约43%,上下文窗口翻倍,推理速度从约120-300 tokens/s提升至150-350 tokens/s(在相应硬件条件下)。
  • 代表性成绩:在MMLU等多个基准测试中显著优于Llama 1,成为当时部署最广的开源大语言模型。

Llama 3(2024年4月):逼近闭源模型性能的多语言跨越

Llama 3代表了开源大模型首次在性能上真正逼近GPT-4级别,标志着开源生态开始具备与闭源商业模型正面竞争的能力。

  • 参数量:14B、34B、70B等版本。
  • 长文本与多语言:首次支持32K长上下文窗口,新增对100多种语言的支持。
  • 词表与分词器:采用编码效率更高的分词器,词表大小扩展至128K,显著提升了多语言理解和生成效率。
  • 数据跃升:预训练数据达到15万亿token以上,约是Llama 2的7.5倍。
  • 架构改进:在GQA基础上进一步引入了稀疏注意力机制,通过动态分配注意力权重来减少无效计算、优化长文本处理能力。支持8192 tokens上下文窗口。
  • 引入多模态能力:支持图像与文本的联合推理。
  • 安全优化:改进了预训练和后训练数据的处理与过滤管道,对后训练数据引入更严格的质量保证和过滤方法。
  • 性能提升:在同等参数量下实现了约15–20%的性能跃升。
  • 代表性成绩:70B版本的MMLU等基准测试中性能与GPT-4相近,成为当时最强的开源模型之一。

Llama 4(2025年4月):MoE架构与多模态统一的大突破

  • 参数量与架构:推出Scout、Maverick版本(总参数最高可达4,000B),采用混合专家(MoE)架构,在多模态理解与长上下文处理上实现突破。
  • 上下文窗口:达到行业领先水平,支持超长文本的处理与多模态联合推理。

🏛️ Llama系列演进总览

版本 发布时间 参数量范围 训练数据 上下文长度 核心技术亮点
Llama 1 2023.02 7B–65B 1.4T 2,048 RMSNorm、RoPE、SwiGLU、学术开源
Llama 2 2023.07 7B–70B 2.0T 4,096 GQA引入、SFT+RLHF、全面商用开放
Llama 3 2024.04 14B–70B 15T+ 8,192–32K 128K词表、稀疏注意力、多语言(100+种)、逼近GPT-4
Llama 4 2025.04 高达4,000B(MoE) 多语种大规模 行业领先 MoE架构、多模态融合、超长上下文

:Mistral、MiniMax、Kimi、Phi-3、GLM-4等模型的单篇亮点分析请参见上一份报告的“主流开源大模型亮点速览”部分,此处不再重复。

🌊 三、Qwen系列(2023–2026):从“量变积累”到“质变飞跃”

Qwen(通义千问)系列是最具影响力的中国开源大模型之一,其演进核心遵循两条清晰的主线:数据规模的持续放大架构/训练范式的持续优化。从第一代Qwen开始,阿里通义团队始终坚持全系列开源,且模型尺寸覆盖从轻量级(0.5B)到超大规模(闭源MoE),形成了完整的产品矩阵。这一策略使得Qwen成为全球开源社区中最受欢迎的模型家族之一,在各个细分赛道(通用语言、视觉语言、音频、数学、代码)均有对应版本布局。

📌 关键演进脉络

Qwen 1.x(2023年8月–2024年2月):从基础版本到全系优化

  • Qwen基础版(2023年8月) :开源了Qwen-7B模型,这是阿里首次开源的大语言模型。采用经典Transformer解码器架构,使用RoPE旋转位置编码和标准自注意力机制。预训练使用了约3万亿token的海量数据,其中特别强化了中文和多语种的覆盖率,词汇表扩展至约152K。后续逐步开源了1.8B、14B、32B、72B等更多尺寸版本。
  • Qwen 1.5(2024年2月) :全系列上下文从训练时的2,048扩展至32K token。在32B版本中首次引入分组查询注意力(GQA) 以优化推理速度。同时,全系列代码被合并入Transformers主干库,开发者可直接通过Hugging Face调用。对齐技术采用DPO(直接偏好优化)和PPO(近端策略优化),大幅提升了指令遵循和对话能力。MMLU 5-shot得分约77.5,C-Eval 5-shot约84.1。
  • 多模态分支扩展:同一时期推出了Qwen-VL(视觉语言模型,基于Qwen-7B)和Qwen-Audio(音频语言模型,基于Qwen-7B),为后续多模态全面融合打下基础。
  • 代码/数学专用模型:CodeQwen 1.5(7B)和MATH-QWEN系列的开源,使得Qwen在垂直领域也形成了强有力的竞争优势。

Qwen 2(2024年6月):GQA全系应用与MoE架构初试

Qwen 2的最大标志是分组查询注意力(GQA)在全系列模型中全面应用,推动推理效率的整体提升。

  • 数据规模:预训练数据激增至7万亿token,较前代提升超过一倍。
  • 架构多元化:首次推出MoE版本(Qwen2-57B-A14B,总参数570亿,激活140亿),同时保留0.5B、1.5B、7B、72B等稠密(Dense)模型。
  • 多语言扩展:在原有中英文基础上,新增了27种语言的高质量数据。
  • 长文本能力:指令微调版本(Instruct)可支持128K长上下文处理,在LongBench上对128K长度内的信息抽取任务表现出色。同时支持YaRN扩展技术来进一步提升超长文本泛化能力。
  • 性能提升:MMLU 5-shot分数从Qwen1.5的77.5提升至约80+,多语言任务和代码生成能力大幅提升。

Qwen 2.5(2024年9月–2025年初):18T tokens与百万上下文

Qwen 2.5是Qwen系列中规模化最显著的一代,核心特点是大规模的数据驱动长上下文能力跃升

  • 预训练数据跃升:预训练数据总量达18万亿token,是前代Qwen2的2.57倍以上。
  • 全赛道覆盖:涵盖大语言模型、视觉语言模型、音频语言模型、数学模型(Qwen2.5-Math)和代码模型(Qwen2.5-Coder)的多个尺寸(0.5B到72B)。
  • 长上下文突破:开源版支持128K上下文,同时推出了Qwen2.5-1M版本(百万token上下文),通过稀疏注意力和预填充优化实现超长文本处理。
  • 训练范式升级:采用多阶段SFT + DPO + GRPO的综合性后训练策略。
  • 性能表现:整体性能较Qwen2提升18%以上,MMLU 5-shot得分达到85+。代码能力大幅增强,数学推理提升28%。Qwen2.5-72B-Instruct在性能上比肩约5倍大的Llama-3-405B-Instruct。
  • Qwen2.5-Max与Qwen2.5-Omni:2025年1月发布Qwen2.5-Max(超过20T token的大规模MoE模型,定位API旗舰),以及支持文字、图像、音频多模态交互的Qwen2.5-Omni。
  • 开源许可逐步收敛:Qwen系列的开源许可逐步向Apache-2.0收敛(部分旗舰/特定尺寸仍有差异),方便商业应用。

Qwen 3(2025年5月–2026年):测试时扩展与混合推理新时代

Qwen 3标志着Qwen系列正式进入“推理模型”时代,其核心创新是实现“思考”与“非思考”两种模式的动态混合,以及测试时扩展技术的突破。

  • 数据与语言:预训练数据进一步提升至36万亿token,覆盖119种语言及方言(较前代显著提升多语言能力),同时引入合成数据增强。
  • 架构创新:采用改进型MoE架构,将128个专家模块划分为逻辑组(代码、文本、图像等语义域),通过组内竞争和动态路由减少无效计算。同时也保留了稠密(Dense)版本(如0.6B、1.7B、4B、8B、14B、30B、32B等)供端侧部署选择。
  • 混合推理框架:核心亮点是“思考/非思考”统一架构——同一个模型可根据任务复杂度自动切换推理模式,慢思考用于复杂数学/逻辑题,快响应用于简单问答。首次在开源模型中实现了“思考预算”的概念。
  • 训练技术:采用强到弱蒸馏技术(Strong-to-Weak Distillation),将大模型知识迁移到轻量级模型,使得小尺寸模型也能达到优异性能同时降低计算资源需求。
  • Qwen3-Max-Thinking(2026年) :引入测试时扩展(Test-Time Scaling)自适应工具调用能力,可按需自动调用搜索引擎、代码解释器等工具,在关键推理基准上超越Gemini 3 Pro,并据称性能超过GPT-5.2。
  • Qwen3.5(2026年初前瞻) :引入线性注意力Gated DeltaNet + 稀疏MoE架构,支持201种语言,原生集成视觉Agent能力。

🌊 Qwen系列演进总览

版本/子系列 核心架构 关键突破/亮点 代表性成绩
Qwen 1.x Transformer + RoPE 首代中文强模型,词汇表152K,GQA在32B版本引入 MMLU 77.5(1.5-72B)
Qwen 2.x GQA全系 + MoE初试 7T训练数据,27种语言扩展,128K上下文 多语言任务大幅提升
Qwen 2.5 稠密/MoE混合 18T tokens;百万上下文;MMLU 85+;72B比肩Llama-3-405B 代码/数学能力大幅强化
Qwen 3 MoE分组专家 混合推理;119种语言;测试时扩展;自适应工具调用 超越Gemini 3 Pro,比肩GPT-5.x

:Mistral、MiniMax、Kimi、Phi-3、GLM-4等模型的单篇亮点分析请参见上一份报告的“主流开源大模型亮点速览”部分,此处不再重复。

🔍 四、DeepSeek系列(2022–2025):从“通用语言”到“推理革命”

DeepSeek系列在开源模型中最具代表性的突破是混合专家(MoE)架构的大规模应用推理模型(Reasoning Model)的范式创新。其演进路径体现了从“参数堆叠”到“架构效率优先”的核心理念,在保持强大性能的同时大幅降低推理成本——这一“性价比”策略使得DeepSeek在开发者社区中获得了极高的认可度。

📌 关键演进脉络

DeepSeek V1(2022年Q3):通用文本能力的奠基

  • 参数规模:13B。
  • 架构:12层Transformer解码器,标准自注意力机制,相对位置编码,最大支持2,048 token上下文。
  • 创新点:引入动态词表压缩算法,将词汇量从5万缩减至3万的同时保持98%的覆盖度。
  • 性能:MMLU约58.3。BLEU评分0.42(机器翻译质量指标)。
  • 局限:在数学计算、逻辑推理等复杂任务中错误率较高。

DeepSeek V2(2023年Q2):MoE架构引入与多模态突破

DeepSeek V2最重要的突破是MoE架构的应用,为实现参数效率优化迈出了关键一步。

  • 参数规模:扩展至580亿(也有66B的表述),采用MoE架构,包含8个专业领域专家(文本、图像、代码等)和2个通用专家,通过门控网络实现动态路由,每个token仅激活2–3个专家,从而在保持低延迟的同时提升参数效率。
  • 注意力机制:引入稀疏注意力(Sparse Attention)动态注意力机制,使长文本处理效率提升40%。V2版本同时引入了滑动窗口注意力(Sliding Window Attention)和分段记忆机制,支持200K token超长文本(约30万汉字)。
  • 多模态能力:DeepSeek-V2同期推出了DeepSeek-Multi(45B),集成Vision Transformer视觉编码器和语音处理模块,支持文本-图像-语音三模态交互,在VQA(视觉问答)测试中准确率达78.9%。
  • 性能:MMLU提升至72.6,垂直领域准确率可达89%。BLEU评分0.58,推理延迟85ms(FP16)。在合同审查、科研文献分析等长文本任务中表现突出,LongBench长文本测试中F1值达85.2。

DeepSeek V3(2024年12月):MoE 2.0与多头潜在注意力里程碑

DeepSeek V3的发布虽然最初没有立刻引起轰动,但随后的DeepSeek R1推理模型改变了这一局面,将DeepSeek推向了开源模型的最前沿。V3的核心是 “参数效率最大化”和“推理成本最小化” 的双重设计目标。

  • 参数与架构:总参数量6,710亿(采用MoE架构),每个token仅激活370亿参数。
  • 多头潜在注意力(MLA) :最大的架构创新。通过压缩键值缓存(KV Cache),显著降低内存使用,使得每个token仅需约70KB内存,相比于其他模型大幅减少。这是DeepSeek降低推理成本的核心技术支柱之一。
  • MoE 2.0:引入基于注意力权重的动态路由算法,使每个token精准匹配最相关的专家模块。引入专家能力评估模块与负载均衡优化器,有效解决了传统MoE中专家“冷启动”和负载不均的问题,专家利用率显著提升至89%。
  • 门控网络自适应调节:根据输入特征动态计算专家权重,而非依赖固定路由表,进一步提升了模型灵活性。
  • 训练数据:5TB+的数据规模,强调高质量与多样性并重。
  • 效率提升:推理速度较前代提升2.3倍(MoE动态激活),吞吐量比V2提升65%。ACC准确率约91.2%,BLEU 0.71,代码生成Pass@1约67%。在医疗问答等专业领域的F1分数达89.4%。
  • 成本优势:在保持与GPT-5.x相当性能的同时,推理成本约为后者的1/10左右,是DeepSeek最具竞争力的价值点。

DeepSeek R1(2025年初–2025年中):推理模型的革命

DeepSeek R1是基于DeepSeek V3架构的推理模型(Reasoning Model),是DeepSeek最具影响力的技术贡献,也是开源社区中第一个系统性实现“显式思维链推理”的主流模型。它的核心思想是引入基于可验证奖励的强化学习(RLVR) ,引导模型生成显式的推理过程而非直接给出答案。

  • 技术特点:模型在回答复杂问题时会生成详细的“思考过程”,类似于人类的逐步推理——面对数学证明题或逻辑推理题时,R1会在内部先列出关键步骤,再逐步推导结论,而非凭记忆直接输出答案。这一“思维链(Chain of Thought)”机制使得模型在复杂数学、逻辑和代码任务上的表现大幅提升,同时也增强了模型的可解释性和对用户理解复杂问题的友好性。
  • 推理增强方式:通过RLVR训练,模型学会自我验证推理步骤的正确性,逐步提升逻辑自洽性。
  • 迭代版本:R1-0528版本(2025年5月底)在R1基础上进一步提升了推理准确率和泛化能力。
  • 与V3的协同:R1与V3共享同一架构基础,但前者专注推理任务,后者专注通用能力。两者形成互补——企业可使用V3处理通用对话和内容生成,使用R1处理高精度的数学、代码和逻辑推理任务。

DeepSeek V3.1(2025年中):混合推理模型

V3.1的最大创新在于将推理模式和通用模式融合到同一个模型之中。开发者可在推理时通过一个参数(如reasoning_effort)动态调节模型的“思考”深度——低思考模式用于快速响应简单问题,高思考模式用于复杂推理,实现了推理效率与深度的灵活平衡。

DeepSeek V3.2(2025年12月):稀疏注意力与自我验证

V3.2在MoE架构中进一步整合了稀疏注意力机制,在长序列场景下的计算效率大幅提升。同时引入自我验证(Self-Verification)与自我修正(Self-Correction)机制,模型能够对自己生成的答案进行内部一致性检查,并在检测到错误时自动修正,这在数学推理和代码生成等需要高精度的任务中显著提升了准确率。

  • 性能:DeepSeek V3.2在基准测试中对标GPT-5和Gemini 3.0 Pro,证明了开源推理模型的性能已然可媲美顶尖闭源模型。

🔍 DeepSeek系列演进总览

版本 发布时间 架构 参数量 核心技术亮点
V1 2022年Q3 Transformer 13B 动态词表压缩,2K上下文
V2 2023年Q2 MoE(8专家+2通用) 580亿 200K上下文;动态注意力;多模态(Multi)
V3 2024年12月 MoE 2.0 + MLA 6,710亿(激活370亿) MLA大幅降内存;成本约1/10 GPT-5.x
R1 2025年初 V3架构+RLVR 显式思维链推理;可验证奖励RL
V3.2 2025年12月 MoE + 稀疏注意 稀疏注意;自我验证/修正

:Mistral、MiniMax、Kimi、Phi-3、GLM-4等模型的单篇亮点分析请参见上一份报告的“主流开源大模型亮点速览”部分,此处不再重复。

📌 四系列横向对比与选型参考

代际演进对照总览

系列 首代(参数/架构) 截至最新 路线特性 代表创新
GPT 2018,1.17B GPT-5(闭源,2025.08) 多模态原生+推理增强 上下文学习、RLHF对齐、多模态、智能集成架构
Llama 2023.02,7B–65B Llama 4(4,000B MoE) 开源生态基座→多模态MoE RMSNorm、GQA、免费商用、多语言(100+)
Qwen 2023.08,7B(3T) Qwen 3(36T) 数据规模驱动→混合推理 18T-36T数据、GQA全系、百万上下文、测试时扩展
DeepSeek 2022,13B V3.2(6,710B MoE) MoE效率→推理深度优化 MLA降内存、R1思维链、稀疏注意力、自我验证

各维度核心差异

维度 GPT系列(闭源标杆) Llama系列(开源基座) Qwen系列(数据规模领跑) DeepSeek系列(MoE效率标杆)
核心哲学 封闭通用智能 开源生态构建 全场景数据驱动 参数效率最大化
架构演进 纯解码器→多模态原生 Dense→MoE Dense+MoE并行 自研MLA+MoE 2.0
数据规模 持续扩张(未公开) 1.4T→15T+→多语种 3T→36T(业界最高) TB级(侧重高质量)
上下文演进 2K→百万级+ 2K→4K→32K 32K→128K→1M 2K→200K+
核心机制创新 ICL / RLHF / 多模态 GQA / 免费商用 混合推理 / 思考预算 MLA / RLVR / 稀疏注意
中国特色 中文/多语言、全场景覆盖 极低成本对标领先性能

💡 选型建议速查

  • 追求领先性能、不介意闭源:GPT-5是行业标杆;GPT-4o在交互和综合任务中极强。
  • 需要开源且社区活跃、多语言支持(含中文) :优先Llama 3或Llama 4(MoE),社区生态成熟,资源丰富。
  • 追求高性能+全场景覆盖(含中文和多语言) :Qwen 2.5或Qwen 3,支持从端侧0.5B到超大规模API,自然语言和数学/代码能力强,另有VL/Audio/Omni多模态分支。
  • 极致推理效率、低成本部署:DeepSeek V3或R1系列,MLA机制大幅降内存,推理成本约仅为GPT-5.x的1/10,代码/数学推理精确度突出,适合高并发和复杂推理任务。
  • Agent(智能体)应用:Kimi K2专为工具调用设计;GLM-4的All Tools较强;Mistral Small 4将多种能力统一到单一MoE模型中,减少部署复杂度。
  • 端侧部署:Phi-3小模型在3.8B参数下性能比肩7–13B模型;Mistral 7B兼顾性能与部署便捷性。
  • 多模态交互:GPT-4o原生支持所有模态且实时响应;Qwen2.5-Omni开源多模态;MiniMax M3具备M超长上下文+代码+多模态三重能力。

总结:开源大模型正在以多元化路线并行演进——闭源标杆GPT引领前沿性能,Llama构建生态基座,Qwen通过规模化数据不断刷新性能上限,DeepSeek以MoE与推理优化提供高性价比选择。无论是追求新性能、多模态、长上下文、低成本,还是高度场景化Agent和代码推理,都可以在这份报告中找到对应的模型和技术突破点。模型及其技术报告本身的迭代速度极快,建议持续关注官方技术博客和社区动态以获取第一手信息。