DS汇总的一些大模型的技术报告

以下是几个主要开源大模型的技术报告亮点汇总：

开源模型

🏆 主流开源大模型亮点速览

🐫 Llama 3

基础架构：采用标准的密集（Dense）型纯解码器（Decoder-only）Transformer架构，在规模上做到极致。
规模/版本：旗舰版本参数量达4,050亿，是当时开源界规模最大的密集模型之一。
核心亮点：
- 极致的参数与数据规模：旗舰版 4,050 亿参数，在海量数据上训练，为强大的通用能力打下基础。
- 分组查询注意力（GQA） ：优化推理效率和内存占用，相较传统多头注意力，推理速度提升约25%。
- 开放的生态贡献：作为开源模型的标杆，其模型架构和训练细节（如分词器）被后续许多小型模型（如Phi-3）借鉴，极大推动了社区发展。
- 多模态扩展能力：通过集成视觉编码器等方式，成功地将语言能力扩展到多模态任务。
- 超长上下文支持：通过技术将上下文窗口扩展至100万token，为处理超长文档提供了可能。
代表性成绩：在MMLU、HumanEval等基准测试中，8B至405B版本均展现出与GPT-4等领先模型相当的性能。

🧠 DeepSeek-V3

基础架构：混合专家（MoE）架构。
规模/版本：总参数量6,710亿，每次推理激活370亿参数。
核心亮点：
- 动态路由机制的MoE：通过引入专家能力评估和负载均衡优化，解决了传统MoE中专家“冷启动”和负载不均的问题，专家利用率显著提升至89%。
- 极致的内存效率设计：创新的多头潜在注意力（MLA）架构极大减少了推理时的KV缓存，是降低推理成本的关键创新之一。
- 前瞻的硬件协同设计：技术报告不仅关注模型本身，更深入探讨了为AI硬件（如GPU）提出的未来发展方向，展示了软硬协同的设计思路。
- 成本优势显著：在推理速度和内存占用上超越同级别模型，成本远低于GPT-5.2等闭源模型，约为其1/10。
代表性成绩：DeepSeek V3的系列模型持续在SuperCLUE等权威榜单中名列前茅。

☁️ Qwen2.5

基础架构：多样化的模型家族，包含Dense和MoE架构。
规模/版本：开源版本从0.5B到72B参数，闭源版本有MoE模型。
核心亮点：
- 出色性价比与全模态能力：旗舰级开源模型Qwen2.5-72B-Instruct性能足以比肩约5倍大的Llama-3-405B-Instruct。且发布多模态变体Qwen2.5-Omni，实现文字、图像、音频等多模态交互。
- 高质量数据处理：预训练数据总量高达18万亿token，是前代Qwen2的2.5倍以上，为模型能力提供了坚实基础。
- 合成数据增强：在微调阶段引入合成数据技术，有效提升了模型在代码生成、数学推理等复杂任务上的表现。
- 动态损失缩放：在MoE架构中创新性使用，解决了梯度消失问题，确保每个专家都能得到充分训练。
代表性成绩：Qwen2.5-7B在HumanEval代码生成测试中达到了68.7%，超越了当时DeepSeek-22B模型的62.3%。

🇪🇺 Mistral

基础架构：MoE架构是其特色，同时也提供Dense模型。
规模/版本：从7B的Dense模型到总参数1,190亿、激活60亿的Small 4 MoE模型，产品线丰富。
核心亮点：
- 高推理效率与低成本：擅长生成精准、简洁的回答，有效减少输出token，大幅降低推理成本。例如Mistral Medium 3以低廉价格提供顶级性能。
- 高度融合与统一：新发布的Mistral Small 4将指令遵循、推理、多模态和编码能力统一到单一MoE模型中，简化部署架构。
- 可配置的推理深度：创新的reasoning_effort参数，允许开发者动态调整模型的推理深度（从快速响应到深度思考），平衡速度与质量。
- 宽松的开源协议：模型大多采用Apache 2.0许可证，允许免费商用，对开发者非常友好。
代表性成绩：其小模型在性价比方面表现突出。

🧩 GLM-4

基础架构：以Dense架构为主。
规模/版本：开源版本主要为GLM-4-9B和GLM-4-32B-0414等。
核心亮点：
- 高效的参数效率：作为以Dense架构闻名的模型，在有限的320亿参数下，通过精巧设计提供了比肩更大规模MoE模型（如DeepSeek V3/R1）的性能。
- 强大的智能体与工具调用能力：GLM-4系列内置了强大的All Tools能力，能够自主规划和使用网页浏览器、Python解释器等工具，在执行复杂任务时表现出色，位居行业前列。
- 长文本写作与文档处理：GLM-4系列在长文本生成方面进行了深度优化，能够生成超过1万字的文本，非常适合论文、公文等长篇内容的创作。
- 友好的本地部署：GLM-4系列模型旨在支持在消费级硬件上进行友好、方便的本地部署，降低了开发者和中小企业的使用门槛。
代表性成绩：在SuperCLUE 2025年9月的开源模型榜单中，GLM-4.6位列开源第三。

🤖 Kimi K2

基础架构：MoE架构。
规模/版本：总参数达1万亿（1T），激活参数320亿，是真正的“万亿参数”模型。
核心亮点：
- 专为智能体（Agent）设计：模型从设计之初就聚焦于智能体任务，在工具调用、自主决策等方面表现出众，被视为“反射级Agent模型”。
- 极致的Token利用率：技术报告中强调通过“重写（rephrase）”预训练数据等技术，最大化每一个训练token的信息价值，提升模型效率。
- 领先的代码与数学能力：在多个代码和数学推理基准测试中，Kimi K2超越了绝大多数开源和闭源模型。
代表性成绩：在竞技场盲评中击败DeepSeek，一度登顶全球最强开源模型；在SWE-Bench Pro代码任务中与DeepSeek-R1并列顶尖水平。

🚀 MiniMax M3

基础架构：自研的MiniMax Sparse Attention (MSA) 架构。
规模/版本：未明确披露总参数量，但强调其架构创新。
核心亮点：
- 首创线性注意力大规模商用：在MiniMax-01系列模型中，首次大规模实现并商用了线性注意力机制，打破了Transformer架构的垄断。
- 三项全能的开源模型：M3是国内首个同时具备“前沿Coding能力、1M超长上下文、原生多模态”三项核心能力的开源大模型。
- 极致的上下文长度：通过MSA架构，将上下文窗口提升至100万token，且单token计算量仅为传统模型的约1/20，大幅提升长文本处理效率。
- 100万亿Token级训练数据：采用了规模空前的100万亿Token量级的多模态训练数据，为模型能力提供了海量知识基础。
代表性成绩：M3在SWE-Bench Pro编程评测上超越了GPT-5.5和Gemini 3.1 Pro，逼近行业最顶尖水平。

🔬 Phi-3

基础架构：标准的Dense Transformer架构。
规模/版本：以小巧著称，最小版本Phi-3-mini仅有38亿参数。
核心亮点：
- “小模型，大能力”：Phi-3-mini以38亿的“袖珍”参数规模，在3.3万亿token上训练，其性能足以媲美Mixtral 8x7B和GPT-3.5等大得多的模型，是边缘端部署的理想选择。
- 数据清洗的秘密武器：Phi-3的成功关键在于使用了经过高度清洗和筛选的“教科书级别”的高质量数据，证明了高质量数据比盲目堆砌数据规模更重要。
- 极致的端侧部署：模型体积之小，使其能够直接运行在智能手机甚至树莓派等边缘设备上，开启了AI应用的新可能。
- 无缝兼容Llama生态：采用与Llama 2相同的分词器和块结构，意味着所有为Llama 2编写的部署软件包都可以无缝迁移到Phi-3上，极大降低了开发者的使用门槛。
代表性成绩：以3.8B的参数量，达到甚至超越7B、13B级别模型的性能，树立了“小模型”的标杆。

💎 趋势总结：开源模型的演进路径

通过对上述模型的分析，可以清晰地看到开源大模型的发展遵循几条主线：

架构创新驱动：模型架构经历了从最初的密集（Dense）Transformer（如早期的Llama、GLM），到以混合专家（MoE）架构（如DeepSeek-V3、Mistral）实现高效扩展，再到探索线性注意力等新架构（如MiniMax）的演进路径。
长上下文与原生多模态融合：上下文窗口已从最初的几K token，发展到支持1M乃至10M token的级别。同时，模型不再局限于文本，开始原生地融合图像、音频、视频等多种模态，实现更自然的跨模态交互，这是当前技术竞争的焦点之一。
模型“大一统”与低成本部署：为了降低部署复杂性和成本，模型正从多个专用模型走向一个通用模型统一多种能力（如Mistral Small 4和MiniMax M3）。同时，通过稀疏激活、量化、知识蒸馏等技术，模型的部署成本大幅降低。
开源协议与商业化友好：越来越多的模型（如Mistral 3系列、新一代开源权重模型）开始采用Apache 2.0等宽松许可证，彻底解除了商业应用的限制，极大地推动了开源模型在企业侧的落地。
国产模型的强势崛起：从榜单占比到技术创新，中国开源模型（如Qwen、DeepSeek、Kimi、GLM、MiniMax系列）已成为全球开源生态中一股不可忽视的领先力量。

💡 如何选择适合你的模型

面对众多优秀的开源模型，如何选择取决于你的具体应用场景和资源约束：

追求极致通用性，资源充足：Llama 3系列的旗舰版提供了强大的通用能力，适合作为基座模型进行微调。其庞大的社区生态也意味着丰富的工具和教程支持。
平衡性能与成本，追求高性价比：DeepSeek-V3 / R1系列的MoE架构在提供卓越性能的同时，推理成本远低于同级别密集模型。Qwen2.5系列则提供了从端侧到云端的丰富选择，其72B模型性能媲美更大的Llama模型，性价比极高。
聚焦端侧部署或资源受限场景：Phi-3系列是无可争议的明星，它证明了小模型也能拥有大智慧。Mistral 7B等中小模型也在保持高性能的同时，兼顾了部署的便捷性。
需要多模态能力：Qwen2.5-Omni和MiniMax M3是原生支持多模态的开源选择。如果希望将多模态能力集成到现有语言模型中，可以参考Llama 3的多模态扩展思路。
开发智能体(Agent)应用：Kimi K2是专为Agent任务设计的模型，在工具调用、自主决策方面表现突出。GLM-4系列强大的All Tools能力也让它在处理复杂工具任务时游刃有余。
注重代码生成能力：MiniMax M3和Kimi K2都在代码任务上展现了顶尖的实力。此外，Qwen2.5-Coder系列是专门为代码任务优化的高效选择。
追求低成本试错与快速上手：Mistral系列拥有宽松的Apache 2.0许可证和活跃的社区，其多种规模的模型为你提供了从实验到生产的平滑过渡。

希望这份整理能帮助你理解当前开源大模型的格局。由于技术日新月异，建议你持续关注各大模型的技术博客和社区动态，以获取最前沿的信息。

系列模型

你的需求收到了。我重新梳理并扩充了上一轮的答案，补充了四个主流系列（GPT、Llama、Qwen、DeepSeek）的代际演进脉络，以“演进历史”和“单篇亮点”两条主线来组织内容。以下为完善后的汇总报告：

开源大模型技术报告亮点与代际演进汇总

📊 正文概览

本报告以两条主线组织内容。主线一聚焦四大系列（GPT、Llama、Qwen、DeepSeek）的代际演进历史，梳理每代模型的架构变化、规模增长和核心改进；主线二则延续上一轮的结构，从“单篇亮点”角度呈现各模型最具代表性的技术创新。需要特别说明的是，GPT系列至今仍为闭源模型，但因其对整个开源生态的引领作用而被纳入本次对比分析。

🧬 一、GPT系列（2018–2025）：从“基础雏形”到“通用智能”

尽管GPT系列至今仍属闭源模型，但其技术路线和架构演进深刻影响了整个开源大模型的发展方向，因此作为重要参照纳入本报告。

📌 关键演进脉络

GPT-1（2018年6月） ：参数量约1.17亿，预训练数据约5GB。首次提出“预训练+微调”范式，开创性地证明了大模型可从无标注数据中学习通用语言表征。GPT-1采用12层Transformer解码器，奠定了后续GPT系列“纯解码器”的基本架构方向。
GPT-2（2019年） ：参数量拓展至15亿，预训练数据增至40GB。首次展示了零样本学习（Zero-shot Learning） 能力，模型可以在没有任何任务特定微调的情况下理解新任务指令，标志着大模型通用能力的重要突破。架构层面的主要变化是移除了Dropout正则化——研究者发现大模型在单轮海量数据训练下已不存在过拟合问题，移除Dropout反而有助于性能提升。
GPT-3（2020年5月） ：参数量跃升至1750亿，预训练数据激增至45TB。最关键的突破是上下文学习（In-Context Learning） 能力的发现与证明——通过少量的示例演示（Few-shot），模型即可执行复杂任务而无需参数更新。GPT-3的发布让大模型的“涌现能力”首次被系统性地观察到，参数规模从15亿直接拓展到1750亿，开启了大模型军备竞赛时代。
GPT-3.5与ChatGPT（2022年） ：在GPT-3架构基础上加入了基于人类反馈的强化学习（RLHF） 对齐技术，让模型学会遵循人类指令并进行多轮对话。2022年底ChatGPT上线后，彻底改变了人机交互形态，也引爆了全球的大模型热潮。
GPT-4（2023年3月） ：实现多模态能力突破，可联合处理文本和图像输入，并展现出更强的高级推理和复杂任务完成能力。技术细节虽未完全公开，但业内普遍认为GPT-4在上下文窗口、多任务泛化能力和安全性上均有质的飞跃。
GPT-4o（2024年5月） ：首次实现原生多模态设计，能以接近人类的响应速度实时处理音频、视觉和文本输入，端到端训练，在交互体验上实现了质的飞跃。
GPT-5（2025年8月） ：引入智能集成模型架构，在推理能力上实现重大飞跃，能够处理百万级token上下文，多模态能力全面深化，被视为OpenAI迈向通用人工智能（AGI）的关键一步。同时，GPT-5采用了更大规模的合成数据训练和更先进的安全对齐机制。
gpt-oss（2025年8月） ：时隔六年，OpenAI重新开放了两款权重大模型——gpt-oss-20b和gpt-oss-120b，可在本地运行，采用了MXFP4等优化技术使20B版本可在消费级GPU（16GB RAM）上运行。这一动作标志着OpenAI战略向开源社区的部分倾斜，也释放出行业对“透明、可研究”模型的迫切需求信号。

📈 演进趋势提炼

GPT系列的演进是一条“规模扩张 → 能力涌现 → 范式革新 → 多模态融合 → 通用智能”的清晰路径。每一代的核心突破都集中在两个维度：一是参数和数据规模的指数级增长（从1.17亿到数千亿级别），二是学习范式的根本转变（从微调到零样本，再到上下文学习，再到RLHF人类对齐，最终走向多模态原生设计）。GPT系列的每一步技术突破都迅速成为开源社区跟进的标准，其影响力贯穿了所有主流开源模型的演进路径。

🏔️ 二、Llama系列（2023–2025）：从“学术探索”到“开源生态基座”

Meta的Llama系列是开源大模型领域影响力最为广泛的标杆。其演进路径清晰地展示了开源模型如何从零起步，逐步构建出一个可与闭源商业模型抗衡的完整生态体系。截至2025年4月，Llama系列已成为全球下载量最高、社区使用最活跃的开源大语言模型之一。

📌 关键演进脉络

Llama 1（2023年2月）：奠定技术基础的开山之作

Llama 1的发布是开源大模型发展史上的重要里程碑。在此之前，像GPT-3这样具备强大能力的模型对社区而言是遥不可及的，而Llama 1证明了开源模型同样可以达到顶尖水平。

参数量：7B、13B、30B、65B四个版本，覆盖不同应用场景。
技术架构：采用改进的Transformer解码器架构，核心创新包括RMSNorm（替代标准LayerNorm，减少中心化计算，提升运算效率）、SwiGLU（替换FFN中的ReLU激活函数，增强模型表达能力）和Rotary Position Embedding（RoPE） （实现更高效的长序列并行计算）。
数据规模：1.4万亿token预训练数据。
上下文窗口：2048 tokens。
性能突破：尽管参数量远小于GPT-3（175B），65B版本在多个基准测试中表现出色，甚至超越了GPT-3，验证了架构优化比单纯堆砌参数规模更有效。
定位：仅限学术研究用途，不开放商用许可。
代表性成绩：在MMLU、C-Eval等基准测试中表现出色，打破了“开源模型不如闭源模型”的刻板印象。

Llama 2（2023年7月）：开启商用化与性能跨越

Llama 2最大的突破在于将开源大模型的战略从“学术探索”转向“生态构建”——全面放开免费商用许可，极大降低了开发者和企业的使用门槛，推动了整个AI产业向普惠化发展。

参数量：从Llama 1的65B扩展至70B，并维持7B、13B、34B等多个版本。
核心架构升级：引入分组查询注意力（Grouped Query Attention，GQA） ，将查询向量分组以减少计算量，相比标准多头注意力在推理速度上有明显提升（推算提升幅度约20–30%），同时保留模型精度，是Llama 2最重要的架构创新。
数据与窗口：预训练数据扩至2万亿token，上下文长度翻倍至4,096 tokens。
安全对齐：引入监督式微调（SFT） 和基于人类反馈的强化学习（RLHF） 机制，显著增强了模型的安全合规性和对话能力。
性能优势：相比Llama 1，训练数据规模提升约43%，上下文窗口翻倍，推理速度从约120-300 tokens/s提升至150-350 tokens/s（在相应硬件条件下）。
代表性成绩：在MMLU等多个基准测试中显著优于Llama 1，成为当时部署最广的开源大语言模型。

Llama 3（2024年4月）：逼近闭源模型性能的多语言跨越

Llama 3代表了开源大模型首次在性能上真正逼近GPT-4级别，标志着开源生态开始具备与闭源商业模型正面竞争的能力。

参数量：14B、34B、70B等版本。
长文本与多语言：首次支持32K长上下文窗口，新增对100多种语言的支持。
词表与分词器：采用编码效率更高的分词器，词表大小扩展至128K，显著提升了多语言理解和生成效率。
数据跃升：预训练数据达到15万亿token以上，约是Llama 2的7.5倍。
架构改进：在GQA基础上进一步引入了稀疏注意力机制，通过动态分配注意力权重来减少无效计算、优化长文本处理能力。支持8192 tokens上下文窗口。
引入多模态能力：支持图像与文本的联合推理。
安全优化：改进了预训练和后训练数据的处理与过滤管道，对后训练数据引入更严格的质量保证和过滤方法。
性能提升：在同等参数量下实现了约15–20%的性能跃升。
代表性成绩：70B版本的MMLU等基准测试中性能与GPT-4相近，成为当时最强的开源模型之一。

Llama 4（2025年4月）：MoE架构与多模态统一的大突破

参数量与架构：推出Scout、Maverick版本（总参数最高可达4,000B），采用混合专家（MoE）架构，在多模态理解与长上下文处理上实现突破。
上下文窗口：达到行业领先水平，支持超长文本的处理与多模态联合推理。

🏛️ Llama系列演进总览

版本	发布时间	参数量范围	训练数据	上下文长度	核心技术亮点
Llama 1	2023.02	7B–65B	1.4T	2,048	RMSNorm、RoPE、SwiGLU、学术开源
Llama 2	2023.07	7B–70B	2.0T	4,096	GQA引入、SFT+RLHF、全面商用开放
Llama 3	2024.04	14B–70B	15T+	8,192–32K	128K词表、稀疏注意力、多语言（100+种）、逼近GPT-4
Llama 4	2025.04	高达4,000B（MoE）	多语种大规模	行业领先	MoE架构、多模态融合、超长上下文

注：Mistral、MiniMax、Kimi、Phi-3、GLM-4等模型的单篇亮点分析请参见上一份报告的“主流开源大模型亮点速览”部分，此处不再重复。

🌊 三、Qwen系列（2023–2026）：从“量变积累”到“质变飞跃”

Qwen（通义千问）系列是最具影响力的中国开源大模型之一，其演进核心遵循两条清晰的主线：数据规模的持续放大和架构/训练范式的持续优化。从第一代Qwen开始，阿里通义团队始终坚持全系列开源，且模型尺寸覆盖从轻量级（0.5B）到超大规模（闭源MoE），形成了完整的产品矩阵。这一策略使得Qwen成为全球开源社区中最受欢迎的模型家族之一，在各个细分赛道（通用语言、视觉语言、音频、数学、代码）均有对应版本布局。

📌 关键演进脉络

Qwen 1.x（2023年8月–2024年2月）：从基础版本到全系优化

Qwen基础版（2023年8月） ：开源了Qwen-7B模型，这是阿里首次开源的大语言模型。采用经典Transformer解码器架构，使用RoPE旋转位置编码和标准自注意力机制。预训练使用了约3万亿token的海量数据，其中特别强化了中文和多语种的覆盖率，词汇表扩展至约152K。后续逐步开源了1.8B、14B、32B、72B等更多尺寸版本。
Qwen 1.5（2024年2月） ：全系列上下文从训练时的2,048扩展至32K token。在32B版本中首次引入分组查询注意力（GQA） 以优化推理速度。同时，全系列代码被合并入Transformers主干库，开发者可直接通过Hugging Face调用。对齐技术采用DPO（直接偏好优化）和PPO（近端策略优化），大幅提升了指令遵循和对话能力。MMLU 5-shot得分约77.5，C-Eval 5-shot约84.1。
多模态分支扩展：同一时期推出了Qwen-VL（视觉语言模型，基于Qwen-7B）和Qwen-Audio（音频语言模型，基于Qwen-7B），为后续多模态全面融合打下基础。
代码/数学专用模型：CodeQwen 1.5（7B）和MATH-QWEN系列的开源，使得Qwen在垂直领域也形成了强有力的竞争优势。

Qwen 2（2024年6月）：GQA全系应用与MoE架构初试

Qwen 2的最大标志是分组查询注意力（GQA）在全系列模型中全面应用，推动推理效率的整体提升。

数据规模：预训练数据激增至7万亿token，较前代提升超过一倍。
架构多元化：首次推出MoE版本（Qwen2-57B-A14B，总参数570亿，激活140亿），同时保留0.5B、1.5B、7B、72B等稠密（Dense）模型。
多语言扩展：在原有中英文基础上，新增了27种语言的高质量数据。
长文本能力：指令微调版本（Instruct）可支持128K长上下文处理，在LongBench上对128K长度内的信息抽取任务表现出色。同时支持YaRN扩展技术来进一步提升超长文本泛化能力。
性能提升：MMLU 5-shot分数从Qwen1.5的77.5提升至约80+，多语言任务和代码生成能力大幅提升。

Qwen 2.5（2024年9月–2025年初）：18T tokens与百万上下文

Qwen 2.5是Qwen系列中规模化最显著的一代，核心特点是大规模的数据驱动和长上下文能力跃升。

预训练数据跃升：预训练数据总量达18万亿token，是前代Qwen2的2.57倍以上。
全赛道覆盖：涵盖大语言模型、视觉语言模型、音频语言模型、数学模型（Qwen2.5-Math）和代码模型（Qwen2.5-Coder）的多个尺寸（0.5B到72B）。
长上下文突破：开源版支持128K上下文，同时推出了Qwen2.5-1M版本（百万token上下文），通过稀疏注意力和预填充优化实现超长文本处理。
训练范式升级：采用多阶段SFT + DPO + GRPO的综合性后训练策略。
性能表现：整体性能较Qwen2提升18%以上，MMLU 5-shot得分达到85+。代码能力大幅增强，数学推理提升28%。Qwen2.5-72B-Instruct在性能上比肩约5倍大的Llama-3-405B-Instruct。
Qwen2.5-Max与Qwen2.5-Omni：2025年1月发布Qwen2.5-Max（超过20T token的大规模MoE模型，定位API旗舰），以及支持文字、图像、音频多模态交互的Qwen2.5-Omni。
开源许可逐步收敛：Qwen系列的开源许可逐步向Apache-2.0收敛（部分旗舰/特定尺寸仍有差异），方便商业应用。

Qwen 3（2025年5月–2026年）：测试时扩展与混合推理新时代

Qwen 3标志着Qwen系列正式进入“推理模型”时代，其核心创新是实现“思考”与“非思考”两种模式的动态混合，以及测试时扩展技术的突破。

数据与语言：预训练数据进一步提升至36万亿token，覆盖119种语言及方言（较前代显著提升多语言能力），同时引入合成数据增强。
架构创新：采用改进型MoE架构，将128个专家模块划分为逻辑组（代码、文本、图像等语义域），通过组内竞争和动态路由减少无效计算。同时也保留了稠密（Dense）版本（如0.6B、1.7B、4B、8B、14B、30B、32B等）供端侧部署选择。
混合推理框架：核心亮点是“思考/非思考”统一架构——同一个模型可根据任务复杂度自动切换推理模式，慢思考用于复杂数学/逻辑题，快响应用于简单问答。首次在开源模型中实现了“思考预算”的概念。
训练技术：采用强到弱蒸馏技术（Strong-to-Weak Distillation），将大模型知识迁移到轻量级模型，使得小尺寸模型也能达到优异性能同时降低计算资源需求。
Qwen3-Max-Thinking（2026年） ：引入测试时扩展（Test-Time Scaling） 和自适应工具调用能力，可按需自动调用搜索引擎、代码解释器等工具，在关键推理基准上超越Gemini 3 Pro，并据称性能超过GPT-5.2。
Qwen3.5（2026年初前瞻） ：引入线性注意力Gated DeltaNet + 稀疏MoE架构，支持201种语言，原生集成视觉Agent能力。

🌊 Qwen系列演进总览

版本/子系列	核心架构	关键突破/亮点	代表性成绩
Qwen 1.x	Transformer + RoPE	首代中文强模型，词汇表152K，GQA在32B版本引入	MMLU 77.5（1.5-72B）
Qwen 2.x	GQA全系 + MoE初试	7T训练数据，27种语言扩展，128K上下文	多语言任务大幅提升
Qwen 2.5	稠密/MoE混合	18T tokens；百万上下文；MMLU 85+；72B比肩Llama-3-405B	代码/数学能力大幅强化
Qwen 3	MoE分组专家	混合推理；119种语言；测试时扩展；自适应工具调用	超越Gemini 3 Pro，比肩GPT-5.x

注：Mistral、MiniMax、Kimi、Phi-3、GLM-4等模型的单篇亮点分析请参见上一份报告的“主流开源大模型亮点速览”部分，此处不再重复。

🔍 四、DeepSeek系列（2022–2025）：从“通用语言”到“推理革命”

DeepSeek系列在开源模型中最具代表性的突破是混合专家（MoE）架构的大规模应用和推理模型（Reasoning Model）的范式创新。其演进路径体现了从“参数堆叠”到“架构效率优先”的核心理念，在保持强大性能的同时大幅降低推理成本——这一“性价比”策略使得DeepSeek在开发者社区中获得了极高的认可度。

📌 关键演进脉络

DeepSeek V1（2022年Q3）：通用文本能力的奠基

参数规模：13B。
架构：12层Transformer解码器，标准自注意力机制，相对位置编码，最大支持2,048 token上下文。
创新点：引入动态词表压缩算法，将词汇量从5万缩减至3万的同时保持98%的覆盖度。
性能：MMLU约58.3。BLEU评分0.42（机器翻译质量指标）。
局限：在数学计算、逻辑推理等复杂任务中错误率较高。

DeepSeek V2（2023年Q2）：MoE架构引入与多模态突破

DeepSeek V2最重要的突破是MoE架构的应用，为实现参数效率优化迈出了关键一步。

参数规模：扩展至580亿（也有66B的表述），采用MoE架构，包含8个专业领域专家（文本、图像、代码等）和2个通用专家，通过门控网络实现动态路由，每个token仅激活2–3个专家，从而在保持低延迟的同时提升参数效率。
注意力机制：引入稀疏注意力（Sparse Attention） 和动态注意力机制，使长文本处理效率提升40%。V2版本同时引入了滑动窗口注意力（Sliding Window Attention）和分段记忆机制，支持200K token超长文本（约30万汉字）。
多模态能力：DeepSeek-V2同期推出了DeepSeek-Multi（45B），集成Vision Transformer视觉编码器和语音处理模块，支持文本-图像-语音三模态交互，在VQA（视觉问答）测试中准确率达78.9%。
性能：MMLU提升至72.6，垂直领域准确率可达89%。BLEU评分0.58，推理延迟85ms（FP16）。在合同审查、科研文献分析等长文本任务中表现突出，LongBench长文本测试中F1值达85.2。

DeepSeek V3（2024年12月）：MoE 2.0与多头潜在注意力里程碑

DeepSeek V3的发布虽然最初没有立刻引起轰动，但随后的DeepSeek R1推理模型改变了这一局面，将DeepSeek推向了开源模型的最前沿。V3的核心是 “参数效率最大化”和“推理成本最小化” 的双重设计目标。

参数与架构：总参数量6,710亿（采用MoE架构），每个token仅激活370亿参数。
多头潜在注意力（MLA） ：最大的架构创新。通过压缩键值缓存（KV Cache），显著降低内存使用，使得每个token仅需约70KB内存，相比于其他模型大幅减少。这是DeepSeek降低推理成本的核心技术支柱之一。
MoE 2.0：引入基于注意力权重的动态路由算法，使每个token精准匹配最相关的专家模块。引入专家能力评估模块与负载均衡优化器，有效解决了传统MoE中专家“冷启动”和负载不均的问题，专家利用率显著提升至89%。
门控网络自适应调节：根据输入特征动态计算专家权重，而非依赖固定路由表，进一步提升了模型灵活性。
训练数据：5TB+的数据规模，强调高质量与多样性并重。
效率提升：推理速度较前代提升2.3倍（MoE动态激活），吞吐量比V2提升65%。ACC准确率约91.2%，BLEU 0.71，代码生成Pass@1约67%。在医疗问答等专业领域的F1分数达89.4%。
成本优势：在保持与GPT-5.x相当性能的同时，推理成本约为后者的1/10左右，是DeepSeek最具竞争力的价值点。

DeepSeek R1（2025年初–2025年中）：推理模型的革命

DeepSeek R1是基于DeepSeek V3架构的推理模型（Reasoning Model），是DeepSeek最具影响力的技术贡献，也是开源社区中第一个系统性实现“显式思维链推理”的主流模型。它的核心思想是引入基于可验证奖励的强化学习（RLVR） ，引导模型生成显式的推理过程而非直接给出答案。

技术特点：模型在回答复杂问题时会生成详细的“思考过程”，类似于人类的逐步推理——面对数学证明题或逻辑推理题时，R1会在内部先列出关键步骤，再逐步推导结论，而非凭记忆直接输出答案。这一“思维链（Chain of Thought）”机制使得模型在复杂数学、逻辑和代码任务上的表现大幅提升，同时也增强了模型的可解释性和对用户理解复杂问题的友好性。
推理增强方式：通过RLVR训练，模型学会自我验证推理步骤的正确性，逐步提升逻辑自洽性。
迭代版本：R1-0528版本（2025年5月底）在R1基础上进一步提升了推理准确率和泛化能力。
与V3的协同：R1与V3共享同一架构基础，但前者专注推理任务，后者专注通用能力。两者形成互补——企业可使用V3处理通用对话和内容生成，使用R1处理高精度的数学、代码和逻辑推理任务。

DeepSeek V3.1（2025年中）：混合推理模型

V3.1的最大创新在于将推理模式和通用模式融合到同一个模型之中。开发者可在推理时通过一个参数（如reasoning_effort）动态调节模型的“思考”深度——低思考模式用于快速响应简单问题，高思考模式用于复杂推理，实现了推理效率与深度的灵活平衡。

DeepSeek V3.2（2025年12月）：稀疏注意力与自我验证

V3.2在MoE架构中进一步整合了稀疏注意力机制，在长序列场景下的计算效率大幅提升。同时引入自我验证（Self-Verification）与自我修正（Self-Correction）机制，模型能够对自己生成的答案进行内部一致性检查，并在检测到错误时自动修正，这在数学推理和代码生成等需要高精度的任务中显著提升了准确率。

性能：DeepSeek V3.2在基准测试中对标GPT-5和Gemini 3.0 Pro，证明了开源推理模型的性能已然可媲美顶尖闭源模型。

🔍 DeepSeek系列演进总览

版本	发布时间	架构	参数量	核心技术亮点
V1	2022年Q3	Transformer	13B	动态词表压缩，2K上下文
V2	2023年Q2	MoE（8专家+2通用）	580亿	200K上下文；动态注意力；多模态（Multi）
V3	2024年12月	MoE 2.0 + MLA	6,710亿（激活370亿）	MLA大幅降内存；成本约1/10 GPT-5.x
R1	2025年初	V3架构+RLVR	—	显式思维链推理；可验证奖励RL
V3.2	2025年12月	MoE + 稀疏注意	—	稀疏注意；自我验证/修正

注：Mistral、MiniMax、Kimi、Phi-3、GLM-4等模型的单篇亮点分析请参见上一份报告的“主流开源大模型亮点速览”部分，此处不再重复。

📌 四系列横向对比与选型参考

代际演进对照总览

系列	首代（参数/架构）	截至最新	路线特性	代表创新
GPT	2018，1.17B	GPT-5（闭源，2025.08）	多模态原生+推理增强	上下文学习、RLHF对齐、多模态、智能集成架构
Llama	2023.02，7B–65B	Llama 4（4,000B MoE）	开源生态基座→多模态MoE	RMSNorm、GQA、免费商用、多语言（100+）
Qwen	2023.08，7B（3T）	Qwen 3（36T）	数据规模驱动→混合推理	18T-36T数据、GQA全系、百万上下文、测试时扩展
DeepSeek	2022，13B	V3.2（6,710B MoE）	MoE效率→推理深度优化	MLA降内存、R1思维链、稀疏注意力、自我验证

各维度核心差异

维度	GPT系列（闭源标杆）	Llama系列（开源基座）	Qwen系列（数据规模领跑）	DeepSeek系列（MoE效率标杆）
核心哲学	封闭通用智能	开源生态构建	全场景数据驱动	参数效率最大化
架构演进	纯解码器→多模态原生	Dense→MoE	Dense+MoE并行	自研MLA+MoE 2.0
数据规模	持续扩张（未公开）	1.4T→15T+→多语种	3T→36T（业界最高）	TB级（侧重高质量）
上下文演进	2K→百万级+	2K→4K→32K	32K→128K→1M	2K→200K+
核心机制创新	ICL / RLHF / 多模态	GQA / 免费商用	混合推理 / 思考预算	MLA / RLVR / 稀疏注意
中国特色	—	—	中文/多语言、全场景覆盖	极低成本对标领先性能

💡 选型建议速查

追求领先性能、不介意闭源：GPT-5是行业标杆；GPT-4o在交互和综合任务中极强。
需要开源且社区活跃、多语言支持（含中文） ：优先Llama 3或Llama 4（MoE），社区生态成熟，资源丰富。
追求高性能+全场景覆盖（含中文和多语言） ：Qwen 2.5或Qwen 3，支持从端侧0.5B到超大规模API，自然语言和数学/代码能力强，另有VL/Audio/Omni多模态分支。
极致推理效率、低成本部署：DeepSeek V3或R1系列，MLA机制大幅降内存，推理成本约仅为GPT-5.x的1/10，代码/数学推理精确度突出，适合高并发和复杂推理任务。
Agent（智能体）应用：Kimi K2专为工具调用设计；GLM-4的All Tools较强；Mistral Small 4将多种能力统一到单一MoE模型中，减少部署复杂度。
端侧部署：Phi-3小模型在3.8B参数下性能比肩7–13B模型；Mistral 7B兼顾性能与部署便捷性。
多模态交互：GPT-4o原生支持所有模态且实时响应；Qwen2.5-Omni开源多模态；MiniMax M3具备M超长上下文+代码+多模态三重能力。

总结：开源大模型正在以多元化路线并行演进——闭源标杆GPT引领前沿性能，Llama构建生态基座，Qwen通过规模化数据不断刷新性能上限，DeepSeek以MoE与推理优化提供高性价比选择。无论是追求新性能、多模态、长上下文、低成本，还是高度场景化Agent和代码推理，都可以在这份报告中找到对应的模型和技术突破点。模型及其技术报告本身的迭代速度极快，建议持续关注官方技术博客和社区动态以获取第一手信息。