5 我的大模型零基础学习路线(已实习)
来自小红书博主:刘三木
原文链接:
https://www.xiaohongshu.com/explore/69dbb63100000000220032ac?xsec_token=ABTCO-TwESnle950iGXP3lHef6lAhdnXtNGoY35uRvfJU=&xsec_source=pc_user
大模型 / NLP 学习路线(个人经验版)
第一阶段:系统学习 NLP 基础与 Transformer(CS224N)
- 课程名称:斯坦福 CS224N:Natural Language Processing with Deep Learning
- 学习目标:从 word2vec、CNN、RNN 等经典模型,过渡到 Transformer 架构,打下扎实的 NLP 基础。
- 推荐重点:
- 理解词向量、Seq2Seq、Attention 机制
- 最终大作业:复刻一个简易版 GPT-2
- 课程地址(官方):https://web.stanford.edu/class/cs224n/
第二阶段:硬核实战——从零实现 GPT 并进行后训练(CS336)
- 课程名称:斯坦福 CS336:从零构建大模型
- 学习目标:掌握 GPT 类模型的完整训练与对齐流程。
- 推荐重点做以下两个作业:
- 作业1:从零实现 GPT,并进行预训练
- 作业5:在 Qwen 模型基础上,完成 SFT + GRPO + DPO 的后训练
- 建议:其余三个作业可根据时间自行选择完成
- 课程地址(官方):https://stanford-cs336.github.io/spring2025/
第三阶段:自主实战项目——微调 + 评估
- 任务描述:
- 自己寻找一个有人物特色的数据集(如特定角色、风格对话等)
- 选择一个基础模型(如 Qwen、Llama、GPT-2 等)进行微调
- 对微调前后进行量化对比评估(如人工评测、自动指标等)
- 可产出:
- 一个完整的微调 + 评估实验过程
- 可写在简历上的项目经历(包含数据、方法、对比结果)
补充建议
- 完成上述两个课程项目 + 一个自主项目后,简历上可以写出两个比较扎实的项目。
- 剩余时间重点:背诵常见八股题 + 刷 LeetCode(Hot 100 优先),准备算法岗面试。
差不多两个月就可以开始投递简历。