本帖为小红书大模型方向Ask Me Anything Part1
收录了刘知远、邱锡鹏、赵鑫、徐仲文、吴翼、刘威杨、张奇、林绍辉、林洲汉、张文涛老师的精彩QA。
关于大模型,学术界,工业界的一些讨论。
更好的阅读体验:https://mp.weixin.qq.com/s/LjbccYPKFQkfBy2BsmimIg
持续跟踪:https://wcnnafr2havv.feishu.cn/wiki/AKVqwZ5qQiwju0k5mq5cnH2MnVx?from=from_copylink
刘知远
Q:应对非升即走和无尽的考核不累吗
A:我博士时有位实习导师说过一段话让我受益。他说在大学里也许有 70%的时间在干和指导学生和科研无关的事情,但是正是因为自己喜欢跟学生一起科研,也就愿意为了这份热爱去做那些无关的“洗脏衣服”的事情。我感受,做任何有意义的热爱着的事业,并不意味着 100% 的时间都在做自己感兴趣的事,反而是愿意为了那份热爱甘愿去承担一些附带的条件。共勉。
Q: 刘老师对待 大语言模型物理学的看法是什么?
A:我理解本质是研究大模型的静态或动态规律,是人工智能科学理论的重要问题。
Q:刘老师您好,有幸在面壁实习的时候跟您有一面之缘,现在毕业工作了有想继续读博的想法,请问目前llm是否有跟传统行业或者新能源领域结合的方向
A: 感谢!LLM 预计可以在知识密集型行业发挥作用,着重是将专业知识武装到 LLM 上,你可以从这角度考虑。
Q: 研发的时候,AI模型下一个版本的核心迭代能力,具体能做到什么水平(目标),可以事先被定义吗?
A:一般会通过经验性的模型风洞实验提前大致判断出来。
Q:老师,请问社会模拟怎么做才不像是在玩游戏一样?从什么角度来验证模型的有效性啊,开题答辩真的被老师打击的没有信心了
A: 社会模拟的意义在于预测和干预,需要实用。
Q: 刘老师,您觉得未来在学界,特别是国内高校,大模型方向有哪些topic是值得做且做得来的嘛?
A: 人工智能的基础理论还很薄弱,例如知识表示理论、动力学理论等。
Q: 老师觉得llm稀疏和压缩目前还值得深入研究吗
A: 当然,这是模型架构创新的前沿方向。
Q: 请问刘老师,大模型到底有没有自我意识
A: 没有。
Q: 刘教授 您认为大模型这波红利会持续多久
A:按照国家行动计划要到 2035 年。
Q: 老师怎么看 llm 可解释性的下一步方向
A: 可解释性是很重要的话题,感觉关键问题是如何定义“可解释”,这是一个目前看仍然主观性很强的概念。
Q: 刘老师,请问您怎么看llm机制可解释性的工作?您的组有进行这方面的研究吗?
A: 可解释性的定义是难题。
Q: 刘老师觉得大模型方向实习,小厂有必要去吗
A: 关键看团队,历史上的成绩。
Q: 老师,请问具身智能这个方向如何?
A: 是 AI 进入物理世界的必由之路。
Q: 目前各类 computer use、GUI Agent 在实际使用中都还比较 demo,刘老师认为当前制约模型像人(甚至超越人)一样有效使用电脑、手机的关键要素有哪些
A: 主要两个思路,一个是行为主义的模仿人类浏览屏幕,就是现在的 GUI-Agent,这个还需要进一步提升模型效率;一个是将 LLM 嵌入 OS,直接从接口层面完成 computer use,也有系统研发的难度。
Q:刘老师好!请问您对大模型之后的未来发展有什么看法吗?rl是长远方向吗?
A: RL 体现了人工智能的学习范式从过去 Next Token Prediction式的模仿学习,跃迁到了基于大规模强化学习的探索式学习,让大模型有望摆脱已有公开可学习数据日益枯竭的问题。RL 是重要的技术趋势。
Q: 老师如何看待国内在llm领域的追赶?谁家的模型最有可能追赶上世界最先进的水平
A: 大模型代表的人工智能前沿技术高速动态发展,是非线性的。就如去年很多人没有预料到 DS 的崛起,未来谁会崛起,恐怕也是很难被大众所预料的,大部分人还是喜欢线性地、延长线式地考虑问题。
邱锡鹏
Q: moss为什么烂尾了
A:AI时代,单纯高校很难再出成果了。不光算力问题。
Q:老师好,请问您认为rl是否可以理解为用少部分数据对llm内部分布纠正bias做的对齐呢
A:你好,本质上pretrain, SFT, RL都是对齐某个目标分布,SFT和RL是加上某种bias。RL的奖励信号有时候会比next token prediction更能反映对齐的方向。
Q:邱老师,作为一名研一新同学,想请教您。论文应该怎么读,应该学习到什么内容?
A:我觉得就是最好跟着一个高年级的博士一起开展工作,多参加讨论班,思考问题,不懂就搜索相关论文,根据问题找论文读,逐渐扩大知识面,找到适合自己的读论文方式。比读论文更重要的是找论文,以及对前沿的敏感性,需要大量的阅读。
Q:请教老师一个“抽象”问题:传统神经网络可以看做是对函数的拟合,那LLM模型也能被看成一个函数吗?如果LLM模型也是一个函数,如何从函数角度理解LLM模型的泛化问题?广义上的泛化究竟是定义域的泛化还是映射关系的泛化,亦或两者都有?
A:LLM可以看作是一种“程序”,因为有context as memory,能力要比函数更强
赵鑫
Q:老师怎么看待图文统一理解生成模型?感觉理解和生成现在都做的挺好,但是统一起来反而不太行,模型在几何问题包括画辅助线之类的都很不准,哪怕最近很火的nano banana也不行
A:我们没有人做图片生成。就这个问题,我理解核心障碍还是语言空间逻辑表达和图像空间逻辑关系的不一致
Q:现在国内学术界的资源怎么样,显卡会不会是一个劣势,在美国,或者工业界显卡都是几十个 node 几百个 node 训练的,学术界可能没有这样的资源,会不会存在脱节,再比如,claude code, cursor,国外大厂可以免费大量用,极大的提高了效率,那国内学术界有什么类似的方法呢。
A:学术界已经出现了落后,不过可以通过合作和更自由的探索一定弥补
Q:老师您好,请问下您认为什么样的学生会更适合往学术界发展呢?什么样更适合工业界呢?
A:工业界业务节奏有点快且相对有束缚,学术界缺资源但是可以相对自由探索一些
Q:老师如何看待causality和llm的结合? 我目前在国外一个搞因果的组,想搞点causal和llm结合的工作。不知道是否有可能和您这边合作。 另外我也很喜欢维特根斯坦,读您的survey感觉被击中了一样。
A:现在的结构对于因果可能支持不够
Q:赵老师怎么看待大模型领域学术界和工业届的差距呢,我实习时候工业届关注的东西,学术界都做不了(卡不够),学术界能做的方向工业届又不关注。
A:差距很大,需要正视差距
徐仲文
腾讯的Principal Scientist,前DeepMind RL团队成员,研究方向RL算法,LLM reasoning,Agentic LLMs。
Q: xu老师拜读过你各种meta learning和rl的工作,想问问您觉得往这块方向继续科研有潜力吗,对于robotics
A:有的 可以做到fast adaptation跟generalization
Q: 究竟AGI能否实现,尤其在transformer之上建立的LLM模型上?
A: 如果拿着现在的GPT5,Gemini Pro以及Claude code给哪怕是2019年的任何人看,都会觉得这就是AGI
Q:请问RL或者其实任何LLM算法层面的工作,是主要靠拍脑袋做实验,还是有一套方法论?不是说理论推导,比如遇到某类型bug应该调整什么地方之类的
A:有方法论的,其实我刚做LLM reasoning research也就三个月但是已经拿到好几个突破性成果了,资源也不多,很多东西是可以仔细想明白而不是暴力跑实验的
Q:老师可以分享一些成果的roadmap么,比如最开始的思路切入和一些想法,还有怎么落地什么的
A:比如我的single-stream policy optimization,就是觉得GRPO有太多缺陷了,一定要回归group-free,然后逐步设计出来的
Q:您好! 请教您是不是传统的pretraining算是走到头了?现在唯一方向是RL?
A:Ilya有这么说过,但我觉得两者是相辅相成的,RL需要一个很好的基模
Q:1.rl训练中最具决定性的环节是什么,data/reward model or other 2. rl能否真的能突破pretrain model上限获得更强泛化能力还是只是提升下限(pass@k) 3. rl训练对原模型的参数变化影响是不是比较小 4. rl训练的经验心得和方法论 ,如何避免the bitter lesson
A:data 2. 我相信能突破 可以看我understanding TIR的paper 3. 看MIT那篇不是的 4. 实验会按最合理的方向发展 是很科学的 没有违背常理的实验 所以先想清楚
Q:on policy到底有多重要
A:不应该很重要
Q:仲文哥好,我目前研三正在参与秋招,我最近面了一些llm岗发现他们对rl经历都很看重,但是我这块无论是理论还是实操都有点欠缺,请问想短期内对llm rl有一个比较好的认知的话,有什么好的路线吗
A:verl
Q:lora是解决人物完全一致性最好的方案吗
A:有卡就不lora
Q:徐老师,对于moba游戏的ai rl,您认为reward的设计,特征工程和rl算法本身的权重是如何的?
A:算法最不重要
Q:对于开放性主观题的任务,reward应该如何设计呢?还有agent rl有没有类似sft这样大一统的方案和框架
A:对于开放性问题,就开放地设计
Q:您觉得现在学术圈最值得做的方向是什么?学术圈算力和财力完全没法和工业界比,但是好处是可以做一些新的更深刻本质的东西
A:我其实在公司的计算资源也不是很多,我觉得这块是自适应的。再者,历史上伟大的这些idea都是很多年前没什么算力时想出来的,最根本的idea是可以在小的精心设计的场景验证研究出来的
吴翼
曾任OpenAI 研究员,2020 年回到清华姚班,带学生做强化学习和智能体研究,也折腾过分布式系统和机器人应用。核心团队尝试过创业,也经历过大厂。
Q:如何有深度思考的能力呀
A:用gpt5o的时候记得开启thinking模式哦
Q:吴老师请问您觉得什么样的学生适合往学术界发展呢?什么样适合去工业界呢?
A:喜欢写论文教学生愿意写本子的适合当老师;想多赚点钱的适合去工作;有理想想做自己喜欢的事情喜欢动手快速迭代且愿意牺牲短期收益适合创业
Q:老师觉得什么样的工作能有影响力,怎么做出有影响力的工作
A:影响力真挺随机的。我大概能知道什么公司肯定没影响力,但能不能有看命
Q:老师心中的奶茶top5
A:第0名: 港式奶茶!(多奶少糖) 第1名: 茶颜悦色(包括古德魔柠!) 第2名: 去茶山(芭乐&四不加奶茶) 第4名并列:上山喝茶滇红拿铁;霸王茶姬曾经的金丝小种;阿嬷手作的茉莉抹茶
Q:老师你喜欢push人么
A:不push。但我一般只招比我卷的同学
Q:您觉得下一个爆款agent产品会出现在游戏吗~
A:我不觉得…游戏的逻辑和agent很不一样。
Q:请问老师现在论文数量爆炸的情况下 junior 科研人如何跟进前沿科研/读论文/选方向
A:少看多做。多看经典文章,看credit好的组的实验充分的文章,少看故事多看细节,多动手。
Q:请问吴老师,ap还没有tenure 之前,如何平衡tenure的要求和创业?感觉一下子搞两个是不是精力不够
A:是的。不过创业看你是参与,还是一号位。创业一号位的压力和精力付出是巨大的。参与的话可以控制程度和优先级也还好。
Q:吴老师如何看待具身智能模型两个方向:vla方向和world model?大概率是未来融合还是跑出来一个?以及具身智能模型,大概率是分层架构的模型系统,还是一个模型解决一切?
A:首先没有定论哦。其次,我过去的经历都是做model-free rl的,所以我肯定从感性上更喜欢直接解决问题,world model如果只是用来解决决策问题,那么在我看来太不直接了,绕远了。以及觉得所有二选一的问题都应该有个程度,而且要分情况讨论。举个例子,就算一个模型能解决一切了,从成本上我们可不可以用多个模型做到更便宜更快呢?强如openai在产品的时候也给出了不同尺寸的模型选择。无非问题的限制不同,目标不同。具身设计到控制和规划两层,相对还没有那么融合,我觉得在目前这个阶段具体问题具体分析比较好。
Q:老师觉得读博最重要的品质是什么
A:你愿意为自由精神付出5年青春,接受失败,常有挫折,没什么收入,压力常伴,但依然不后悔。如果你可以把5年改称无穷多年,那么就是创业精神了。
刘威杨
在香港中文大学(CUHK)计算机系担任助理教授,并作为PI领导Scalable Principles for Learning and Reasoning Lab。 我们课题组研究方向主要是大模型的高效架构,预训练/微调算法,其中主要应用在视觉生成模型,大语言模型等等。同时也对大语言模型的推理框架(如Formal Reasoning)和相关应用(AI for Math, AI for Science)感兴趣。
Q:想问问老师对soap, galore,muon这些优化器未来发展的看法,很多人说他们不二阶也不work
A:我觉得都是非常棒的尝试,但是我个人的观点是,目前还没能取代主流,Adam with better tuning,其实比这些还是要强,而且structure-aware optimizers还是需要某些层用Adam,个人觉得不太elegant,比较heuristic,而且muon其实早先有类似的工作,叫stochastic spectral descent,其实有很多类似的研究吧,不过我对这类研究还是比较喜欢的,虽然目前我觉得离取代adam,还差的很远
Q:Sft有点过拟合有好的解决办法吗
A:Sft这个目标函数本身就必然会导致overfitting,因为这个encourage的是extreme single mode,要解决这个问题,要么通过数据的方式,类似cot data distillation,用数据加天然regularization,要么通过改loss的方式,比如类似label smoothing这种
Q:老师认为LLM 的强推理能力和强沟通能力存在冲突吗?社会学上存在‘认知差距过大时,沟通和评价会出现“失真”’的现象。从个人经验来讲,GPT-5 在 PhD-level的 数理问题上比 Gemini 强几个数量级,但公众评价却低得多。如果将来大公司更倾向做‘可靠的同事型’而非‘顶尖科学家型’的 LLM,那实现超越人类智能的AGI还有戏吗?
A:好问题,有点类似曲高和寡的意思。我个人认为从纯商业价值来说,你说的可靠同事型应该是更大的,并且也属于技术路线相对确定的方向。而顶尖科学家型,更类似对AI上限的探索,商业价值很难确定,但是故事性更强。起码在目前这个时代,对AGI的探索应该还会持续几年,但是如果没有更进一步的突破,没有出现了超越人类知识边界的AI(类似AlphaGo的神之一手),那这个故事可能就很难讲下去,所以可能关键就看这几年的发展能不能达到预期了。
Q:究竟 AGI 能否实现,尤其在transformer之上建立的LLM模型上?
A:AGI我觉得不是一个0或1的事,更类似一个spectrum,而且定义也在不断变化,以前大家觉得通过图灵测试就是AI的标准,但是现在看来也不是。
Q:Small language model有前景吗?好做吗?
A:当然有,distillation会是一个研究的重点,model number scaling 也是一种很有价值的维度
Q:所以RAG真的是目前给LLM加知识外挂的唯一途径吗?现在最好(准确+快)的RAG framework是什么?context engineering 会不会取代RAG成为给LLM知识赋能的首选?
A:这个是个好问题,唯一途径那肯定不是,但是是工程上最简单的方式,我认为是的。这里会诞生出一个有意思的研究带方向,类似context internalization,我认为rag,context,模型权重,都算是储存知识的方式,怎么样进行互相转化会是一个有意思的问题,这里还会涉及到continual training的问题,很多open problem
Q:moe的推理还有啥可以做的吗,流水掩盖各种都卷的不行了
A:MOE推理肯定是一个很卷的赛道,一般而言,Sparsity之后,那就需要做compression,做distillation,如何post training去缩小模型大小,或许更有意思
Q:课题组没卡,怎么做大模型
A:如果卡少,那就做大模型的inference加速,这个不怎么吃资源,如果完全没卡但有钱,那就做agent,如果啥也没,建议躺平
Q:老师,您觉得未来高效架构会是sparse attention还是linear attention呢?
A:我个人会比较喜欢sparse的框架,其实我们做预训练和微调,都属于sparse training的范畴。不过关于attention这个,我个人没有特别strong的观点,目前看来这个取决于任务,不同任务可以牺牲的东西不太一样。
Q:老师您好,请问您觉得大模型如今在理论方面有哪些有前景的研究方向
A:这个太广阔了,我也不算纯机器学习理论方向,我个人会对大模型的优化器和优化理论更感兴趣,包括training dynamics的分析,以及in-context的approximation能力上限的分析。
张奇
复旦计算机学院张奇老师
Q:张教授 我是从事NLP和LLM方向的产品,想了解下 你觉得人类的思考和推理过程 跟LLM的推理过程有什么差异? LLM到所谓的AGI是可行的吗? 现在最主要的缺口是什么?
A:我个人觉得LLM就是概率相关性,与人的思考过程完全不一样,当前Transformer based 的大模型实现不了AGI,当前的机器学习方法缺少因果逻辑
Q:张老师,请问 llm 目前面临的最大的/值得研究的问题是哪些?
A:我自己最关心的是基础理论,大模型有没有突破统计机器学习的边界?有没有“涌现”?是不是可以进行类人推理?
Q:如何评价杨老师的V-jepa2世界模型
A:没有突破当前的统计机器学习框架,实现不了类人的理解,依然还是概率相关性
Q:请问张老师,ai创业推荐哪个赛道呢?
A:解决用户的痛点,并且不在大厂的炮口下的
林绍辉
华东师范大学计算机学院研究员、博导,研究方向主要是多模态大模型、模型压缩、图像处理,聚焦于高性能低功耗视觉计算研究。
Q:视觉生成模型的主流还是扩散模型吗?有看过自回归的模型,哪个更优秀?以及扩散模型的最大问题是不是还是推理步数太长?
A:生成方面目前还是扩散模型强,step长是一个大问题,但其实已经有一大推工作是在减少推理步数了
林洲汉
上海交通大学人工智能学院的副教授林洲汉,我们实验室主要做自监督学习和语言模型预训练。
Q:请问语言模型预训练这块你们都是完全自己写代码还是也会用到一些工具呢?现在这块有没有什么难点?
A:肯定是要用工具的。DeepSpeed、FAISS、还有HuggingFace的transformer库都是我们会用的。因为我们会改基础架构,所以改完以后对这些基础架构大规模训练时候的调优,算是实现时候的一个难点。
Q:如果ai按照现有的技术路线发展,普通研究机构和学校无论在ai的哪个领域会有前景吗?不管是计算资源、数据、人员等等哪个方面,都远比不上企业,那么在高校之类的地方做ai相关研究,有什么意义吗?
A:高校有高校的生态位,它的价值不会被取代。企业的卡多,但是企业很难愿意投入大量资源去做非共识的事情,更多是在现有的主流技术路线上去不断发展和完善、产品化、做出给大家用的东西,并创造利润。但是高校主要是一个个的课题组,高校所研究的内容的多样性和覆盖度不是企业能够比的。所以革命性的技术还是会从高校里面出来。深度学习本身就是在svm横扫整个工业界/学术界的时候,在高校里苟着,然后一直熬到它的春天的。下一代横扫AI的革命性的技术,也许现在在世界的某个角落,目前还不是共识,但正在高校里面被研究。
Q:老师您对现在这种斐波那契投稿的风气怎么看?我感觉有点恶性循环了,可是又感觉投稿的人也是身不由己
A:现在人工智能领域的论文太多了。这导致审稿的质量本身也参差不齐。所以发表成果这个事情反而回归到了它原本的状态,就是我们自己是否对我们发表出去的工作感到满意和骄傲。如果是,那么我们就会有充分的自信,这样的文章终将被某一个顶会接收,甚至是在没有被顶会接受的情况下,依然获得领域的认可(比如layernorm的论文)。
张文涛
北大叉院助理教授,曾任职于腾讯、Apple和加拿大Mila,研究Data-centric AI、LLM数据侧、Data Agent,开源LLM数据准备工具DataFlow
Q:老师好~想问问现在教职和工业界哪个压力相对更大一点?或者压力各自都主要来自于哪个方面呢?
A:我个人感觉教职比工业界压力大得多,入职北大以来很少有晚上1点前能睡觉,身边的同事也都很卷。但教职更多的是为自己卷,虽然卷时间相对灵活自由。你拿更多资源有更大目标,压力也更大。
Q:大佬您好,应届博士,想问一下毕业后进一个比较好的团队但压力比较大的偏技术输出+业务落地都做的团队做 infra压缩算法推理加速好,还是在一个一般点的部门但压力没有那么大wlb的预研部门做benchmark和post-train更好? 个人感觉infra可做的未来空间不如benchmark和post-train大?您个人认为选业界工作是方向更重要,还是团队的招牌能力和知名度更重要呢?
A:这俩不好选,特别是第一分工作最好找个好点的平台,如果非要选我感觉方向更重要。你可以评估一下设想2年后如果去跳槽,体现在简历上的平台、项目经历、论文等哪个更能提升你的竞争力,就选择哪个。 如果不能找到一个团队和方向都很好的,那就慎重决策不后悔留遗憾就行~
Q:涛哥,在学术界工作,如何快速跟进工业界的技术需求?
A:我这边是送研究生去工业界实习,帮助学生了解需求和开阔视野,也顺便缓解GPU算力压力
Q:老师,做llm微调,用llamafactory框架还是自己用torch搭比较看好
A:推荐用Llama Factory比较省事,我们最近也在和Llama Factory团队一起开发一套LLM动态训练框架,目标是以插件形式在不改变LF用户编码习惯前提下,在LLM训练过程中动态调度数据来提升最终微调效果。预计最晚10月中旬开源,可以关注下~
Q:老师觉得AI应用端中国市场机会怎么样,感觉美国氛围很好,国内会不会大厂开始做了以后初创团队都没机会了
A:这个问题有点大,to c的应用端在中国很难挣钱,可以考虑面向大B客户定制应用,找到细分差异点,大厂也不可能面面俱到。
Q:老师,您觉得数据蒸馏有前途吗,它和现在比较火的数据合成有什么样的联系呢?
A:两者都在获取数据,LLM里的数据蒸馏更侧重于丛模型里去提炼知识,数据合成侧重于创造新数据或者数据的新形式(比如pdf合成LLM做SFT用的QA)
Q:Data-centric AI 的核心挑战是什么? 对于想进入 AI 领域读博的学生,你推荐先积累哪些关键技能或经验?
A:科学和有效的数据质量评估方法论还不完善,数据的优化最终还是要反映到模型效果上来,但根据模型效果反馈精确迭代数据还很难。可以参与到一个AI开源项目中,通过实战引导提高学习效率。