跳转至

5 我的大模型零基础学习路线(已实习)

来自小红书博主:刘三木

原文链接:

https://www.xiaohongshu.com/explore/69dbb63100000000220032ac?xsec_token=ABTCO-TwESnle950iGXP3lHef6lAhdnXtNGoY35uRvfJU=&xsec_source=pc_user


大模型 / NLP 学习路线(个人经验版)

第一阶段:系统学习 NLP 基础与 Transformer(CS224N)

  • 课程名称:斯坦福 CS224N:Natural Language Processing with Deep Learning
  • 学习目标:从 word2vec、CNN、RNN 等经典模型,过渡到 Transformer 架构,打下扎实的 NLP 基础。
  • 推荐重点
  • 理解词向量、Seq2Seq、Attention 机制
  • 最终大作业:复刻一个简易版 GPT-2
  • 课程地址(官方):https://web.stanford.edu/class/cs224n/

第二阶段:硬核实战——从零实现 GPT 并进行后训练(CS336)

  • 课程名称:斯坦福 CS336:从零构建大模型
  • 学习目标:掌握 GPT 类模型的完整训练与对齐流程。
  • 推荐重点做以下两个作业
  • 作业1:从零实现 GPT,并进行预训练
  • 作业5:在 Qwen 模型基础上,完成 SFT + GRPO + DPO 的后训练
  • 建议:其余三个作业可根据时间自行选择完成
  • 课程地址(官方):https://stanford-cs336.github.io/spring2025/

第三阶段:自主实战项目——微调 + 评估

  • 任务描述
  • 自己寻找一个有人物特色的数据集(如特定角色、风格对话等)
  • 选择一个基础模型(如 Qwen、Llama、GPT-2 等)进行微调
  • 对微调前后进行量化对比评估(如人工评测、自动指标等)
  • 可产出
  • 一个完整的微调 + 评估实验过程
  • 可写在简历上的项目经历(包含数据、方法、对比结果)

补充建议

  • 完成上述两个课程项目 + 一个自主项目后,简历上可以写出两个比较扎实的项目
  • 剩余时间重点:背诵常见八股题 + 刷 LeetCode(Hot 100 优先),准备算法岗面试。

差不多两个月就可以开始投递简历。