CS336

官方网站：https://cs336.stanford.edu/ 去年该课程没有放出视频，今年官方放出了视频。课程内容均结合今年的大模型发展做了更新。在这个许多人通过高级API与大语言模型交互的时代，本课程旨在让研究者和开发者重新连接到底层技术。我们坚信，要真正理解语言模型，你必须亲手构建它。每次课程内容： 1. 4月1日周二概述与分词本节课深入探讨第一个技术组成部分：Tokenization。中英字幕版本：斯坦福CS336第一课：Tokenization详解 - 小红书 2. 4月3日周四 PyTorch与资源核算这堂课主要讲解了如何从头开始构建语言模型，特别是关注 PyTorch 中的基本构件以及效率（内存和计算资源的使用）课程目标与重点：核心是实际构建模型，理解 PyTorch 的基本元素（张量、模型、优化器、训练循环）。高度关注效率，包括内存占用和计算资源（FLOPs）的估算与优化。侧重于 PyTorch 的机制 (mechanics) 和资源核算的心态 (mindset)。中英字幕版本：斯坦福CS336第二课：pytorch手把手搭建LLM - 小红书 3. 4月8日周二架构与超参数关于 LLM 架构和训练，那些你想知道的一切 1）Transformer 架构回顾与演进趋势 2）核心架构变体：归一化、激活函数与层结构 3）位置编码的收敛：RoPE 的主导 4）超参数选择的经验法则与共识 5）训练稳定性技巧：应对 Softmax 的挑战 6）注意力头部的变体：推理优化与长上下文处理中英字幕版本：斯坦福CS336第三课：详解LLM基础架构 - 小红书 4. 4月10日周四混合专家模型混合专家模型（Mixture of Experts, MoE）去年，这只是一个有趣的额外讲座。但今年，由于很多人都在研究MoE，这节课变得更加重要。所以老师加入了很多最近的进展。最后，尝试剖析DeepSeek V3，理解构成这样一个最先进的开源系统（至少在架构方面）的各种组件。 MoE架构与非MoE架构在大部分组件上是相似的，主要区别在于如何处理前馈神经网络（FFN）层。在一个标准的Transformer模型中，FFN通常是一个单独的、密集的模块。而在MoE模型中，这个单独的FFN会被替换为多个（可能是复制或分割而来）较小的FFN副本，这些副本被称为“专家”。同时，会引入一个“路由器”（router）或“选择器”（selector）层。在每次前向传播或推理过程中，路由器会根据输入选择激活一小部分（例如，一个或几个）专家进行计算。这样做最大的好处是，如果每个专家的大小与原始密集模型的FFN相同，并且每次只激活一个专家，那么模型的总参数量可以显著增加，而计算量（flops）却保持不变。这对于那些相信更多参数能帮助模型记忆更多世界知识的观点来说，是一个极具吸引力的架构。大量研究表明，在相同的训练计算量（training flops）下，混合专家模型能取得比密集模型更优的性能。尽管MoE在flops效率上表现出色，但其并非没有代价。一个主要的挑战在于系统实现的复杂性。有效地路由数据到成百上千个专家，并保证计算效率，需要复杂的基础设施支持。 ...