斯坦福CS336:大模型从0到1|25年最新最好的大模型入门课

官方网站:https://cs336.stanford.edu/ 去年该课程没有放出视频,今年官方放出了视频。课程内容均结合今年的大模型发展做了更新。 在这个许多人通过高级API与大语言模型交互的时代,本课程旨在让研究者和开发者重新连接到底层技术。我们坚信,要真正理解语言模型,你必须亲手构建它。 每次课程内容: 1. 4月1日 周二 概述与分词 本节课深入探讨第一个技术组成部分 :Tokenization。 中英字幕版本:斯坦福CS336第一课:Tokenization详解 - 小红书 2. 4月3日 周四 PyTorch与资源核算 这堂课主要讲解了如何从头开始构建语言模型,特别是关注 PyTorch 中的基本构件以及效率(内存和计算资源的使用) 课程目标与重点: 核心是实际构建模型,理解 PyTorch 的基本元素(张量、模型、优化器、训练循环)。 高度关注效率,包括内存占用和计算资源(FLOPs)的估算与优化。 侧重于 PyTorch 的机制 (mechanics) 和资源核算的心态 (mindset)。 中英字幕版本:斯坦福CS336第二课:pytorch手把手搭建LLM - 小红书 3. 4月8日 周二 架构与超参数 关于 LLM 架构和训练,那些你想知道的一切 1)Transformer 架构回顾与演进趋势 2)核心架构变体:归一化、激活函数与层结构 3)位置编码的收敛:RoPE 的主导 4)超参数选择的经验法则与共识 5)训练稳定性技巧:应对 Softmax 的挑战 6)注意力头部的变体:推理优化与长上下文处理 中英字幕版本:斯坦福CS336第三课:详解LLM基础架构 - 小红书 4. 4月10日 周四 混合专家模型 混合专家模型(Mixture of Experts, MoE)  去年,这只是一个有趣的额外讲座。但今年,由于很多人都在研究MoE,这节课变得更加重要。所以老师加入了很多最近的进展。最后,尝试剖析DeepSeek V3,理解构成这样一个最先进的开源系统(至少在架构方面)的各种组件。 MoE架构与非MoE架构在大部分组件上是相似的,主要区别在于如何处理前馈神经网络(FFN)层。在一个标准的Transformer模型中,FFN通常是一个单独的、密集的模块。而在MoE模型中,这个单独的FFN会被替换为多个(可能是复制或分割而来)较小的FFN副本,这些副本被称为“专家”。同时,会引入一个“路由器”(router)或“选择器”(selector)层。在每次前向传播或推理过程中,路由器会根据输入选择激活一小部分(例如,一个或几个)专家进行计算。这样做最大的好处是,如果每个专家的大小与原始密集模型的FFN相同,并且每次只激活一个专家,那么模型的总参数量可以显著增加,而计算量(flops)却保持不变。这对于那些相信更多参数能帮助模型记忆更多世界知识的观点来说,是一个极具吸引力的架构。 大量研究表明,在相同的训练计算量(training flops)下,混合专家模型能取得比密集模型更优的性能。 尽管MoE在flops效率上表现出色,但其并非没有代价。一个主要的挑战在于系统实现的复杂性。有效地路由数据到成百上千个专家,并保证计算效率,需要复杂的基础设施支持。 ...

May 15, 2025 · 小茄墩