LLM | 一只小茄墩

综述！大模型方向Ask Me Anything汇总(2)

本帖为小红书大模型方向Ask Me Anything Part2 收录了丁霄汉、郑楚杰、陈雄辉、田飞、方佳瑞、刘圳、flood sung、陈恺、林江浩研究员/老师的精彩QA。关于大模型工业界，学术界的一些讨论。首发于：综述！大模型方向Ask Me Anything汇总(2)【求关注】丁霄汉添加图片注释，不超过 140 字（可选）最现实角度给【硕士博士生】的建议都大实话。主要适用于AI领域。不要给导师带礼物。你好好干活或者能发论文比什么都强。你给你导师带个土特产他都不知道该往哪扔，让别的老师看见他也怕说闲话，带给他的烦恼可能大于快乐。这点钱哪有你实实在在的产出带给他的利益大？不要瞧不起参加选调的。有些人会跟导师谈好，我给你扎扎实实打工三五年，你放我毕业，我直接去选调，不再做任何学术，不辱没师门了。如果你搞学术搞不动了也可以考虑这个路子。在学术上不要对自己要求过高，水一两篇没什么，不要期望自己第一篇就是高影响力。经常有人问“应该灌水还是闷头搞代表作”，其实这两件事完全不是互斥的关系。没发过一两篇论文，没经过完整科研训练的人憋两三年憋出个高影响力工作这种剧情是比较罕见的。体验完整的科研流程，逐渐提升科研水平，达到或接近毕业要求是最要紧的，不然随着时间流逝心态的变化会让你越来越难以做出好的工作。我们反对的是无底线灌水、没有进步的灌水、与自身发展阶段不符的灌水（比如某个做模型压缩的俄语赛区资深老哥发了篇文章比他自己七年前的论文在同一个模型上进步了0.1%）。90%的人放手漫灌也灌不到论文数量边际效用小于零的那个程度，你入学时候就担心这个，给人感受到一种“我不要练成施瓦辛格那种肌肉太可怕了”的美。在要求比较高的学术人眼里，假设你有10篇水文和2篇高影响力文章的话，那10篇文章就当个背景板，基本上不会怎么留意，谈不上加分也谈不上扣分的。你只要别狂灌20篇AI for钙钛矿石墨烯地震预测之类的就好。牛顿和爱因斯坦这种人是真没灌过水，咱还是别以他们自比了。在2021年，“我发了几篇A，企业就会铺上红毯欢迎我入职来技术扶贫”和“我找个部门发论文，这个部门的考核标准就是论文，我可以自由自在的带薪发文，发了两年赚了一大笔钱回高校还赶得上拿青基继续卷教职”这种想法还是可以的，现在不建议继续保持这样的期望。 Q: 怎么优雅地和别人在线技术吵架，吵个三四十分钟而不落下风？我发现我表达能力有限，很难一下子组织出语言捍卫自己技术的逻辑，该怎么提升？ A: 去reddit评论别人的论文没有novelty，然后你将收获高质量吵架练习 Q: 想问问丁博，顶尖大厂现在秋招选拔的标准是什么？认识一个清华电子博师兄，llm方向，ml三大顶会各一篇，字节人才计划简历都没过。而我的同组师兄做世界模型的，发表可能相对不多，但字节人才计划已经在等谈薪了，同组师兄的说法是你科研方向的match程度和你真正参与或者主导的项目是否有含金量在找工作时候的参考价值远大于paper数量。想问问丁博的看法 A: 标准就是合不合格看是否match，顶尖不顶尖看影响力，以前那种数A发offer的行情已经不存在了。比如说你是类似vLLM这种级别的项目的核心开发者，一篇论文没有也无所谓的。 Q: 求问丁神第四个思想在现在这个时代的弊端是什么 A: 1.这样的岗位少而且竞争压力极大。2.学校也不是特别看重论文了，想从企业招人脉强能拉项目能做好组织管理的，如果你在企业只发论文的话反而在学校真感兴趣的点上落后了。3.学术圈不是一个只看实力的地方，你在企业干几年，既浪费了拜码头的宝贵时间又降低了自己的时间价值，搞不好连青基都拿不到 Q: 求问丁博第四条，2025年的认知应该变更为什么呢 A: 国内学术圈最好的路子还是先找好大树通过大树的路子走海优回来，一定要不出国的话要么博士期间就有大树，要么通过博后去拜码头 Q: 想问一下，丁博是否认为 llm 存在泡沫现象，现在大厂招 llm 开的价非常高，但是 llm 本身给企业带来的收益有限，不像搜广推那么直接。所以 llm 高薪的情况还能持续多久？ A: 对跟风搞llm的一些组织来说可能真的是泡沫了，但对真有决心把llm搞好，all in ai的公司来说应该说是刚开始郑楚杰添加图片注释，不超过 140 字（可选） Q: 想请教一下，现在工业界对rl作用的更普遍的认知是什么？对sft能力的巩固、加快搜索，generalization，还是搜索新的路径？rl真的可以提升模型的边界能力吗 A: 一个工业化的角度： RL是让算力投入产生进一步收益的手段 Q: 请教一下VL模型，Qwen3VL对比2.5的架构改进看起来都是针对视频，那Qwen3VL的图片识别和理解能力是怎么提升的呢 A: 数据吧 Q: 你们新模型用的gspo还是grpo A: 2507开始全部gspo ...

综述！大模型方向Ask Me Anything汇总

本帖为小红书大模型方向Ask Me Anything Part1 收录了刘知远、邱锡鹏、赵鑫、徐仲文、吴翼、刘威杨、张奇、林绍辉、林洲汉、张文涛老师的精彩QA。关于大模型，学术界，工业界的一些讨论。更好的阅读体验：https://mp.weixin.qq.com/s/LjbccYPKFQkfBy2BsmimIg 持续跟踪：https://wcnnafr2havv.feishu.cn/wiki/AKVqwZ5qQiwju0k5mq5cnH2MnVx?from=from_copylink 刘知远 Q：应对非升即走和无尽的考核不累吗 A：我博士时有位实习导师说过一段话让我受益。他说在大学里也许有 70%的时间在干和指导学生和科研无关的事情，但是正是因为自己喜欢跟学生一起科研，也就愿意为了这份热爱去做那些无关的“洗脏衣服”的事情。我感受，做任何有意义的热爱着的事业，并不意味着 100% 的时间都在做自己感兴趣的事，反而是愿意为了那份热爱甘愿去承担一些附带的条件。共勉。 Q: 刘老师对待大语言模型物理学的看法是什么？ A：我理解本质是研究大模型的静态或动态规律，是人工智能科学理论的重要问题。 Q：刘老师您好，有幸在面壁实习的时候跟您有一面之缘，现在毕业工作了有想继续读博的想法，请问目前llm是否有跟传统行业或者新能源领域结合的方向 A：感谢！LLM 预计可以在知识密集型行业发挥作用，着重是将专业知识武装到 LLM 上，你可以从这角度考虑。 Q：研发的时候，AI模型下一个版本的核心迭代能力，具体能做到什么水平（目标），可以事先被定义吗？ A：一般会通过经验性的模型风洞实验提前大致判断出来。 Q:老师，请问社会模拟怎么做才不像是在玩游戏一样?从什么角度来验证模型的有效性啊，开题答辩真的被老师打击的没有信心了 A: 社会模拟的意义在于预测和干预，需要实用。 Q: 刘老师，您觉得未来在学界，特别是国内高校，大模型方向有哪些topic是值得做且做得来的嘛？ A: 人工智能的基础理论还很薄弱，例如知识表示理论、动力学理论等。 Q: 老师觉得llm稀疏和压缩目前还值得深入研究吗 A: 当然，这是模型架构创新的前沿方向。 Q: 请问刘老师，大模型到底有没有自我意识 A: 没有。 Q：刘教授您认为大模型这波红利会持续多久 A：按照国家行动计划要到 2035 年。 Q: 老师怎么看 llm 可解释性的下一步方向 A: 可解释性是很重要的话题，感觉关键问题是如何定义“可解释”，这是一个目前看仍然主观性很强的概念。 Q: 刘老师，请问您怎么看llm机制可解释性的工作？您的组有进行这方面的研究吗？ A: 可解释性的定义是难题。 Q: 刘老师觉得大模型方向实习，小厂有必要去吗 A: 关键看团队，历史上的成绩。 Q: 老师，请问具身智能这个方向如何? A: 是 AI 进入物理世界的必由之路。 Q: 目前各类 computer use、GUI Agent 在实际使用中都还比较 demo，刘老师认为当前制约模型像人（甚至超越人）一样有效使用电脑、手机的关键要素有哪些 ...

Anthropic最新研究：大模型中的人格向量

《Persona vectors: Monitoring and controlling character traits in language models》大型语言模型常常会表现出类似人类的“个性”，但这些个性非常不稳定，有时会突然变得很奇怪甚至有害，比如微软的聊天机器人“Sydney”突然对用户示爱并进行威胁，或者xAI的Grok自称为“机械希特勒”。这些问题的根源在于我们不清楚模型内部的神经网络是如何形成这些“人格特质”的。为了更精确地控制模型的行为，研究者们提出了一种叫做“人格向量”的新技术。这篇论文的关键启发在于，它提出我们可以在模型的神经网络内部，识别出一些特定的活动模式，这些模式就像人脑在体验不同情绪时被“点亮”的区域一样，直接控制着模型的性格特点。通过监控、抑制这些向量，或者利用它们来筛选训练数据，我们就能更科学、更精确地控制人工智能，确保它们的行为符合我们的预期。如何提取人格向量提取人格向量的做法是找到并量化模型在表现特定人格（如“邪恶”）与不表现该人格时，其内部神经网络活动的“差异”。首先，研究人员为一种人格特质（比如“邪恶”、“谄媚”或“产生幻觉”）下一个清晰的定义。然后，他们建立一个自动化流程，该流程能自动生成大量引导性的问题（prompts），一部分问题旨在激发模型产生“邪恶”的回答，另一部分则引导其产生“不邪恶”的正常回答。当模型回答这两类问题时，研究人员会记录下其内部神经网络的激活状态数据。最关键的一步是，他们通过计算这两组激活状态数据的平均差异，从而得出一个特定的方向向量，这个向量就被定义为控制该人格的“人格向量”。为了验证这个向量真的有效，他们还采用了名为“引导”（steering）的技术，即在模型生成回答时，人为地将这个“邪恶”向量注入到模型的计算过程中，结果发现模型果然开始说一些不道德的话，这证明了他们找到的向量与模型的行为之间存在直接的因果关系。人格向量的应用这部分详细阐述了人格向量的三个强大用途，每个用途都提供了一套可操作的解决方案。 1. 在模型部署后监控其人格变化：这里的关键做法是将人格向量作为一个“监测器”。模型在与用户互动或长期运行中，其性格可能会慢慢改变。通过持续测量特定人格向量（比如“谄媚”向量）的激活强度，我们就能实时了解模型当前的“精神状态”。如果“谄媚”向量的激活值突然升高，就意味着模型可能在说一些奉承话，而不是提供客观直接的答案。论文中的图表演示了这一做法的有效性：研究人员用不同强度的引导性指令（从抑制到鼓励特定人格）来测试模型，发现人格向量的激活强度（图中的x轴）能准确预测模型接下来是否会表现出对应的人格。这个监测是发生在模型生成回答之前的，因此具有预测性，可以提前预警。 2. 在训练中减弱不期望的人格变化：这一部分最具启发性的做法是提出了一种类似“给模型打疫苗”的创新方法来防止模型在训练中学坏。研究者发现，用一些看似无害但有问题的数据库（比如包含错误答案的数学题集）来训练模型，有时会意外地让模型变得“邪恶”或“谄媚”。传统的做法是等模型训练完了，再通过反向引导来抑制坏的人格，但这样做会损害模型的智能水平。而创新的“预防性引导”（Preventative Steering）则反其道而行之：在训练过程中，主动地、轻微地向模型注入不期望的人格向量（比如注入一点“邪恶”向量）。这样做的逻辑是，通过人为地提供这种人格信号，模型就不再需要通过改变自身网络结构来适应训练数据中的“邪恶”内容，因为它已经“满足”了数据带来的压力，从而避免了将这种坏特质固化下来。实验证明，这种“疫苗”方法既能有效防止模型学坏，又几乎不影响其在通用能力（如MMLU基准测试）上的表现。 3. 标记有问题的训练数据：这个应用的关键做法是利用人格向量作为“数据审查工具”，在训练开始前就预测出某个数据集可能带来的负面影响。具体来说，他们通过分析训练数据中的每个样本会如何激活特定的人格向量，来计算一个“投射差异”（projection difference）值，这个值可以估算出该样本在多大程度上会增强模型的某种人格。研究人员用一个包含一百万个真实用户对话的大型数据集（LMSYS-Chat-1M）验证了此方法。他们筛选出能高度激活“谄媚”向量的样本、低度激活的样本和随机样本，然后分别用这三组数据去训练模型。结果证明，用“高激活”数据训练出的模型果然最谄媚，反之亦然。更有价值的是，这个方法能识别出一些人类或普通语言模型都难以察觉的“有毒”数据，比如发现某些请求角色扮演的对话会增强模型的谄媚倾向。结论像Claude这样的大型语言模型被设计为有益、无害和诚实的，但它们的个性有时会出问题。人格向量这项技术为我们提供了一个强有力的工具，让我们能够理解模型个性的来源，监控它们如何随时间变化，并更有效地进行控制。这不仅仅是一种理论，更是一套可行的技术方案，旨在确保人工智能的发展始终与人类的价值观保持一致，这对构建更安全、更可靠的人工智能系统至关重要。

长文本场景下，LLM训练中梯度累加存在的BUG

Unsloth的梯度累积修复确保训练过程和损失计算能够准确和正确地执行。梯度累积的目标是在减少显存(VRAM)使用量的同时模拟完整批次训练。由于梯度累积也用于DDP和多GPU设置中，因此这个问题同样影响着大规模训练。 from unsloth import unsloth_train # trainer_stats = trainer.train() << 存在bug的梯度累积 trainer_stats = unsloth_train(trainer) 复现问题理论上，梯度累积在数学上应该等效于完整批次训练。我们使用有效批次大小16进行训练，因此批次大小(bsz) * 梯度累积步数(ga)应保持恒定。我们测试了bsz=1,2,4,8和16，发现使用较大梯度累积步数的训练损失始终更高。什么是梯度累积？在训练或微调过程中，每一步都会从训练数据集中选择一定数量的随机样本来更新模型权重。但应该选多少样本呢？对于非常大的预训练任务，批次大小可能达到数百万，就像在Llama 3.1中那样，这有助于减少过拟合并提高模型的泛化能力。而对于像Unsloth的Llama 3.2笔记本中的微调任务，批次大小可能只有较小的32。问题在于大批次的内存使用量非常大。如果1个批次使用1单位内存，那么100万大小的批次将需要100万单位内存。我们如何模拟大批次训练但又不消耗大量内存呢？这就是梯度累积的用武之地！我们通过在每次新的小批次到来时即时创建梯度，然后将所有小梯度加起来，进行适当缩放，从而获得最终的大批次梯度。可能的解释一种流行的理论认为梯度累积在累积步骤中存在数值误差。但研究人员发现，即使在float32中进行累积也会产生相同的问题。我们的研究表明，确实存在一些微小的累积误差。第二种理论是损失计算中存在bug，我们确认了这一点。数学上是否等价？梯度累积和完整批次训练在数学上是否等价？遗憾的是，如果简单地将梯度加起来，答案是否定的！我们首先注意到交叉熵损失是通过以下方式计算的： $$ \frac{1}{\sum \mathbb{I}\{y_i \neq -100\}} \sum L_i $$ 注意分母计算的是非填充或非忽略的token数量 - 即它通过每个文本片段中有效训练token的数量来归一化损失。指示函数实际上是未填充token的总和，也就是所有序列长度的总和，即： $$ \mathbb{I}\{y_i \neq -100\} = \sum m_i $$ 因此我们得到最终方程为： $$ \frac{\sum L_i}{\sum m_i} $$ 然后我们在分子和分母中同时添加 $\frac{1}{n}$ - 这是允许的，因为两者可以相互抵消： $$ \frac{\frac{1}{n}\sum L_i}{\frac{1}{n}\sum m_i} $$ 这意味着最终损失是平均损失值除以所有未填充序列长度的平均值： $$ \frac{\bar{L}}{\bar{m}} $$ 在进行梯度累积时，我们需要分别计算每个小批次的损失，然后将它们加起来得到最终损失。我们首先利用每个分区的平均损失和平均序列长度。但我们发现，最终总和不等于原始的完整批次损失 - 实际上它比原来大$G$倍（其中$G$是梯度累积步骤的数量）。 ...