本帖为小红书大模型方向Ask Me Anything Part2
收录了丁霄汉、郑楚杰、陈雄辉、田飞、方佳瑞、刘圳、flood sung、陈恺、林江浩研究员/老师的精彩QA。
关于大模型工业界,学术界的一些讨论。
首发于:综述!大模型方向Ask Me Anything汇总(2)【求关注】
丁霄汉
添加图片注释,不超过 140 字(可选)
最现实角度给【硕士博士生】的建议都大实话。主要适用于AI领域。
- 不要给导师带礼物。你好好干活或者能发论文比什么都强。你给你导师带个土特产他都不知道该往哪扔,让别的老师看见他也怕说闲话,带给他的烦恼可能大于快乐。这点钱哪有你实实在在的产出带给他的利益大?
- 不要瞧不起参加选调的。有些人会跟导师谈好,我给你扎扎实实打工三五年,你放我毕业,我直接去选调,不再做任何学术,不辱没师门了。如果你搞学术搞不动了也可以考虑这个路子。
- 在学术上不要对自己要求过高,水一两篇没什么,不要期望自己第一篇就是高影响力。经常有人问“应该灌水还是闷头搞代表作”,其实这两件事完全不是互斥的关系。没发过一两篇论文,没经过完整科研训练的人憋两三年憋出个高影响力工作这种剧情是比较罕见的。体验完整的科研流程,逐渐提升科研水平,达到或接近毕业要求是最要紧的,不然随着时间流逝心态的变化会让你越来越难以做出好的工作。我们反对的是无底线灌水、没有进步的灌水、与自身发展阶段不符的灌水(比如某个做模型压缩的俄语赛区资深老哥发了篇文章比他自己七年前的论文在同一个模型上进步了0.1%)。90%的人放手漫灌也灌不到论文数量边际效用小于零的那个程度,你入学时候就担心这个,给人感受到一种“我不要练成施瓦辛格那种肌肉太可怕了”的美。在要求比较高的学术人眼里,假设你有10篇水文和2篇高影响力文章的话,那10篇文章就当个背景板,基本上不会怎么留意,谈不上加分也谈不上扣分的。你只要别狂灌20篇AI for钙钛矿石墨烯地震预测之类的就好。牛顿和爱因斯坦这种人是真没灌过水,咱还是别以他们自比了。
- 在2021年,“我发了几篇A,企业就会铺上红毯欢迎我入职来技术扶贫”和“我找个部门发论文,这个部门的考核标准就是论文,我可以自由自在的带薪发文,发了两年赚了一大笔钱回高校还赶得上拿青基继续卷教职”这种想法还是可以的,现在不建议继续保持这样的期望。
Q: 怎么优雅地和别人在线技术吵架,吵个三四十分钟而不落下风?我发现我表达能力有限,很难一下子组织出语言捍卫自己技术的逻辑,该怎么提升?
A: 去reddit评论别人的论文没有novelty,然后你将收获高质量吵架练习
Q: 想问问丁博,顶尖大厂现在秋招选拔的标准是什么?认识一个清华电子博师兄,llm方向,ml三大顶会各一篇, 字节人才计划 简历都没过。而我的同组师兄做世界模型的,发表可能相对不多,但字节人才计划已经在等谈薪了,同组师兄的说法是你科研方向的match程度和你真正参与或者主导的项目是否有含金量在找工作时候的参考价值远大于paper数量。想问问丁博的看法
A: 标准就是合不合格看是否match,顶尖不顶尖看影响力,以前那种数A发offer的行情已经不存在了。比如说你是类似vLLM这种级别的项目的核心开发者,一篇论文没有也无所谓的。
Q: 求问丁神第四个思想在现在这个时代的弊端是什么
A: 1.这样的岗位少而且竞争压力极大。2.学校也不是特别看重论文了,想从企业招人脉强能拉项目能做好组织管理的,如果你在企业只发论文的话反而在学校真感兴趣的点上落后了。3.学术圈不是一个只看实力的地方,你在企业干几年,既浪费了拜码头的宝贵时间又降低了自己的时间价值,搞不好连青基都拿不到
Q: 求问丁博第四条,2025年的认知应该变更为什么呢
A: 国内学术圈最好的路子还是先找好大树通过大树的路子走海优回来,一定要不出国的话要么博士期间就有大树,要么通过博后去拜码头
Q: 想问一下,丁博是否认为 llm 存在泡沫现象,现在大厂招 llm 开的价非常高,但是 llm 本身给企业带来的收益有限,不像搜广推那么直接。所以 llm 高薪的情况还能持续多久?
A: 对跟风搞llm的一些组织来说可能真的是泡沫了,但对真有决心把llm搞好,all in ai的公司来说应该说是刚开始 郑楚杰
添加图片注释,不超过 140 字(可选)
Q: 想请教一下,现在工业界对rl作用的更普遍的认知是什么?对sft能力的巩固、加快搜索,generalization,还是搜索新的路径?rl真的可以提升模型的边界能力吗
A: 一个工业化的角度: RL是让算力投入产生进一步收益的手段
Q: 请教一下VL模型,Qwen3VL对比2.5的架构改进看起来都是针对视频,那Qwen3VL的图片识别和理解能力是怎么提升的呢
A: 数据吧
Q: 你们新模型用的gspo还是grpo
A: 2507开始全部gspo
Q: qwen 和 seed 谁更rich啊
A: 我猜seed是大rich
Q: dense模型rl容易还是moe容易
A: dense
Q: 郑博您好!有幸听过您关于GSPO的分享。想请教您一个小问题,之前我有参考过deepseek论文里的GRM训练方法,但感觉直接让模型输出规则的话和实际预想的偏差有点大。如果自己提前指定一些规则,又觉得泛化性不够好。所以想请教您有什么好的思路解决这个问题呢?另外还有个小问题就是,如何较好地解决GRM推理速度相对输出标量会慢一些的问题呢?非常感谢您的解答
A: 1. 可能还是得人工完善规则,2. 可以结合inference加速手段
Q: 请问现在reward model输出标量分数普遍用的是language head嘛,跟最后一层更换成线性头去输出分数相比的差异大么
A: 不如用 GenRM 更robust
Q: 大佬这个级别还需要一线搞数据么,大佬平常是不是主要负责研究算法
A: Qwen的同学都在一线干活
Q: 老师好,想请教下,Grpo 微调时候怎么快速测试调整奖励呢,基于sft继续 grpo 前几十步还挺好的后来会越来越差,输出的答案中推理过程会越来越跑偏(做的偏向主观的问答问题,最终的答案和推理过程都很重要,奖励中也设置了推理过程的奖励)完全跑完再评估调整奖励的话时间开销太大,如果不跑完又不确定当前这几步看到的问题是否是暂时的?
A: 也许是reward hacking,过程奖励更容易hack
Q: 在推理的RL之后,RL还有什么潜在的研究方向呢?
A: 应该还是定义好task/reward最重要
Q: 目前怎么评测基座模型做 rl 的潜力?
A: 可能没特别principled方法,还是得走rl验
Q: 老师,现在还推荐 大模型读普博嘛
A: 强组可以,或者去头部lab实习
Q: 老师,GRPO一个组回答都好或者都坏,相对奖励为零怎么办
A: 加大n,或者不用这个query
Q: QwQ还有下一代吗
A: 已完成它的使命了
Q: 什么样的RL数据可以算是高质量数据?
A: reward准,难度匹配模型能力
陈雄辉
Q: 我问了很多大佬 在用什么ai 没有一个人回答用 同义千文 真神奇
A: 可以再问一句这些ai背后的模型是基于啥改的
Q: 未来看好哪种架构?qwen3-next这种感觉太拼凑了,rwkv也很大杂烩
A: 我感觉next还阔以诶,老哥有什么建议嘛
Q: 只是感觉DeltaNet混自注意力还不够优雅,3:1太过工程。应该有更intrinsic的方法。
A: 确实,网络结构我个人研究不深入,有什么你觉得比较promising的工作推荐嘛,我也看看~
Q: 这块,感觉没看过有什么好的,可能是我survey不深,所以想问一下。我想问一下,你一般怎么去做survey。
A: 现在论文太多了,我需要借助工具,力推alphaxiv,semanticscholar,huggingface daily这三个
Q: 南大pku老人问几句,大模型对存储栈的需求有什么变化?如何看待Storage Next的影响和需求?
A: 和传统互联网处理的数据相比,个人理解,训练侧,数据量大,但是高并发读写需求变低,数据还包括模型数据。训练中非结构化多模态数据占主导,格式相对标准化。 推理侧了解不多
Q: 强化学习从头部模型公司,到各行各业大规模使用,中间还缺少哪些关键阶段吗?似乎产业落地用rl并不多,更多停留在高校发论文场景
A: 机器人,量化,游戏,互联网(少部分领域)都有应用,模型,环境,ready后rl就ready了,剩下用不用只是经济账
Q: 陈老师好,想请教一下qwen有在做构建环境来让模型RL训练提高垂直领域能力的事情吗?因为感觉构建真实环境感觉还是很难,构建一个一般的环境感觉很容易reward hacking,但好像硅谷近半年这个方向特别火,想请教一下老师对这个有什么见解吗,谢谢!
A: 我只能说,我觉得这是一个困难但是重要的方向。你说的这些问题是需要考虑并想办法解决的,但是也并不一定说只从环境单点入手对环境做到绝对高保真。
Q: 现在外接脚手架是大势所趋了,核心还是llm本身泛化性。从你的感知来看,llm能力增长曲线是不是真的放缓了?看榜单不知道可不可信。
A: 我们确实需要更多榜单指引我们方向 Q: 请问你觉得RL的后续出路是什么。在推理这个领域感觉RL的发展已经差不多了 A: 就rl来说,agent,算法本身,基础架构协同设计。个人认为可能是后面比较重要的
Q: 在杭州base吗 老哥?
A: 在北京居多
Q: 请问GSPO在offpolicy场景下已经有大规模应用了吗,虽然个人还没有用增大clip epsilon放松约束条件尝试过
A: 这是我们目前的的标准setting了,放心用
Q: 想问一下大佬对具身智能,agentic coding两个方向的前景看法
A: 我觉得都是好方向,具身战线更长
Q: 单就agent rl这个命题,是否一定要基于llm based去做,用actor-criric结合上下文去训练一个策略网络是否可以?或者说llm在这个actor策略里面的必要性是什么?
A: 也可以,llm的作用我认为是先验带来的泛化能力
Q: 究竟 AGI 能否实现,尤其在transformer之上建立的LLM模型上?
A: 不知道,但是至少我们需要看看transformer的上限到哪里
Q: 您认为当前off-policy evaluation相关的研究还是有价值的吗?value based 系列算法在当前是否还有其优势和研究价值? 如果是传统RL的研究者在当前应该如何寻找有价值的值得研究的问题?
A: llm里面对ope的处理现在还是落后于最新的ope研究落后很多,另一方面,ope研究也偏理论化和复杂化,这导致在大规模场景下并不是很实用。 不过ope这个问题本身倒是重要的,llm场景也需要考虑。 value based的方法确实势微,但是我觉得描述当前策略的价值还是在一些层面有潜在收益的。
Q: RL有什么比较好的打开方式,学习路线吗
A: 系统性学 可以看sutton的书,还可以关注levin和david的课程讲的挺好
Q: 大佬你好 请问啥时候开源70b dense版的? 不是moe
A: 大规模dense 我们后续研发投入会比较少了,拥抱moe
Q: 请问大佬怎么看mcp?agent还有什么能做的方向呢?
A: 我们需要mcp这种东西来连接llm和其他东西,但或许可以蹲一手更好的mcp实现。
Q: 所以RAG真的是目前给LLM加知识外挂的唯一途径吗?现在最好(准确+快)的RAG framework是什么?context engineering 会不会取代RAG成为给LLM知识赋能的首选?
A: 抛开具体的rag实现general来说,我不太相信有一天llm能够抛开检索外挂知识库能力而实现他所有的功能。 检索能力一定是会存在的,是不是现在的rag不好说。context工程和rag我觉得没有非常冲突。
Q: 大佬觉得 无监督RL 的前景如何?之前火了一阵现在貌似没什么动静了
A: 我不太认可无监督rl
Q: 假如 领域数据量小 ,在注入新知识的效果上,大模型知识编辑是不是比继续预训练更合适。
A: 我更喜欢搞数据
Q: 佬 为了进业界找工作 我phd研究什么方向比较好 还有就是华五普组和 海外qs100普组导师 也差不多的情况下您更推荐哪个 已关注
A: phd方向,上上策bet需要3-5年后能刚开始产业化且规模大的方向,这是你能站住位置的获得最大收益最好的时间
Q: 到底什么是视觉语义理解?语义怎么抽象?如何接地?
A: 造好数据端到端看看上限在哪先
田飞
Q: 老师,再请教个问题,在构建某行业垂类agent测评指标时,端到端的指标和过程指标是否都需要定义,过程指标(推理正确率、执行格式准确率)有价值的前提是不是必须和端到端的指标相关性?过程指标很多难以定义动作正向率,因为环境过于复杂难以判断动作后是否正向,该类指标是否需要定义?
A: 个人觉得端到端指标用来看最终效果,是很必要的,中间过程指标是用来归因分析,如何找到原因优化最终指标。过程指标做哪些,就看优化需要了。
Q: 请问大佬觉得语音合成还有哪些有空白的方向呢
A: 空白还挺多的,现在的情绪控制还挺早期的,自然语言的控制效果都不好
Q: 你们对 端到端的定义 是什么?
A: 语音输入,模型直接语音输出。不需要接asr,tts
Q: 请问适合一人开发者自己鼓捣的开源语音模型/框架,市面上最好的是哪个呢
A: step audio 2 mini真 端到端语音模型 ,自由度最高,不过训练基建还在弄,过段时间才开源训练。qwen 2.5 omni整体基建支持完善,只不过是半年前的,效果落后一点
Q: 豆包的交互能力做得很好,尤其是在时延,打断这种。您了解怎么才能准确识别用户的打断需求嘛?而不是简单的vad去做,尤其是环境嘈杂有别人讲话的时候
A: 豆包有很强大的产品定制和工程化能力,方案上传统一点是流式ASR+vad,最近一年有挺多全双工的工作,可以看下salmonn全双工的工作,都大同小异了。嘈杂环境主要是encoder好,这已经不是什么难点了。难的其实是更高级的功能,真正的拟人化,附和用户、同传翻译、模型和用户共同演绎一首歌,这些高阶能力怎么在同一套方案下做好。
Q: 请问如何看待用diffusion做tts呀。之后的tts发展会不会有加入环境音(各种音效、雨声、雷声之类的)呢
A: 另外环境音,在ar方案下还得解决tokenizer的问题,目前语音和音乐,环境音还是分开的。发展上我觉得是会需要的,现在视频配音里就很需要环境音。
Q: 语音场景agent如何实现低延时和高质量
A: 这是一个非常好的问题,前面需要研究方向的可以看过来了。高质量意味着token数很多,语音交互又要保证低延时,是很矛盾的地方,目前这块的探索其实非常少,解决方案也没有共识。我们也正在这方面研究,并有了一些初步成效,后面准备针对这个问题专门开一贴讨论。
Q: 请问如何看待在training时的word level timestamp alignment问题?这步做得不精确 会影响模型表现吗?
A: 不太会,目前更多的是问语音里有没有,有什么,语音grouding任务偏少,不过这是一个很重要的能力。一个好的理解模型,是需要有time stamp的能力的。
Q: 请问怎么构造高质量的样本
A: 这个话题挺大的,简单说一些,做好各种质检手段,比如cer,dnsmos,speaker校验,文本ppl筛选等等。生成数据,核心就是用于构造数据模型的能力了。做好系统层面设计,weak to strong,用一系列小模型组合达到超越sota模型效果
Q: 田老师我想请问一下语音做强化学习应该怎么做会比较好,因为语音其实维度太多,优化方向很难控制,不知道阶越对这一块有什么心得吗?以及dpo和grpo哪一个会更适合语音做强化学习。感谢田老师!
A: 这个话题其实有点宽泛,抽象一下,其实dpo,grpo,ppo解决的问题不太一样。grpo核心是提升思维链的逻辑和智商,ppo和dpo更多是解决偏好问题和bad parttern。至于纬度太多,现阶段从小往大作更合适,选好一个点做到极致。从理解角度rlvr(不限于grpo)是最核心的,生成角度,一个好的reward model是非常关键的。
Q: 飞哥,想知道训练用的语音真实数据(非tts合成)用了多少量级。
A: step audio2是用来千万小时,新出的xiaomi mimo,qwen3 omni已经卷到上亿小时了,从结果上看,千万到亿小时,理解上似乎没有看到明显收益,我觉得更重要还是在sft和rl的数据质量。语音可能到这个阶段快饱和了,额外增量没多少了。生成上那就更看质量了,好的音色和录制更重要。
Q: 语音模型如何比较好的解决声音情感问题
A: 我理解你说的是生成上的情感问题对吧,我觉得有两个,数据和reward model。如何产生高质量的情感数据,光靠录制太贵了,需要用生成的数据,这块很重要。另外就是需要一个好的reward model,这样可以缓解前面对数据的依赖,好的reward model本身就是一个很强的理解模型,回归到本质就是做好理解。
Q: 请问语音接管能力(语义完整性检测、打断、声音事件检测,etc.)后续会考虑做进基座模型里面吗,还是单独集成工程策略/其他辅助模型哦?
A: 全进一个model很有很大的范式问题,双流输入和现有llm不太好结合,我们会设计一种新形式,和你这里提到的都不太一样
Q: 为什么stepaudio用的是cosy2token做生成呢,感觉这个token确实生成上wer很低,但表现力一般般呀?有尝试或着手其他用于生成的codec吗
A: 好像有个朋友也问了,会的,cosy 2确实有明显问题,下一代我们会重点研究的
Q: 如何评价MiniMax的speech系列和豆包tts的差异优势
A: mini max更多面向创作者,特别是有声书、博客那种夸张演绎的, 豆包tts 也是,真实自然不是他们的主打。在情绪控制上,目前的其实都比较有限,自由度不高。生成上也可以看下我们的tts,非常能打,在情绪控制上会有惊喜
Q: 请问现在的音频端到端模型。长音频是生成能力怎么样哇。1min以上的
A: 一分钟以上生成没问题,step audio预训练是到5分钟,至于xiaomi和qwen新开的应该会更长
Q: 非自回归TTS模型的断句问题该如何优化呢
A: 现在主要在做自回归的生成,关键还是做一个好的预训练,见过大量数据后,比如百万小时以上,自然能学会断句
方佳瑞
Q: 方博觉得大模型infra还有哪些细分领域比较蓝海
A: 凡是我知道的领域都是红海
Q: 方前辈您好,我现在在北美大厂四年经验,之前做开发和infra 两年多,现在做推荐算法一年;准备换去LLM公司,有必要去学习 然后准备面试model组的吗,比如post-training alignment等等 还是去LLM的公司做开发也可以。我感觉开发应该bar低一些 但是担心之后没前途;model bar比较高 担心自己学的速度跟不上业界进化速度,要学的太多了,一直学但是没办法成功跳槽,感谢解答
A: post training bar 不比 base model 低的。
刘圳
Q: 刘老师,你怎么看待大模型下的continual learning?感觉和模型scale up之前的有很多不一样的behavior,但是我之前资源有限只做过小模型的cl,不知道有哪些可以思考的角度?
A: 我这里只针对LLM发表一点小看法。一方面是efficiency,怎样结合各种参数化(peft)来做,怎样结合常用的MoE架构,等等;一方面是怎样利用和操纵LLM本身的语言推理能力,因为不同于最传统用continual learning去学分类器,人做continual learning也不会去改写最底层的语言能力,这里也需要考虑到LLM next token prediction的特殊性
Q: 请问老师 大模型强化学习 后训练需要解决的关键问题有哪些
A: 怎样跑得快,怎样做探索,怎样不遗忘。说白了,怎样让老年人变年轻
flood sung
Q: 大佬觉着现在llm与强化学习结合中,现在哪些还是没做好的
A: 还是credit assignment
Q: 现在顶会投稿量快崩溃了,如果目前刚开始读phd,未来的方向有什么建议?
A: 能去大模型公司实习就抓紧上车, 或者能确保你就在做大模型最前沿的研究比如就agent,不一定需要gpu用api也能搞
Q: 对于及其多轮的rl任务,最后只有一个奖励,此时除了看每步的entropy这种还有什么合理的做每个turn的奖励分配方式 🤔
A: credit assignment确实是Multi turn agentic rl的难题,逻辑上我们可以保持传统RL的方法,只有最后有reward,但通过value network 赋予每一个turn 特定的value。当然,难点在于这个value network的估计要足够准确才行。 不过,就算我们就只用最后的奖励,使用最基本的REINFORCE,RL 依然是有效的
Q: 请问一般离线收集的rl数据训多少个epoch能比较好达到收益与投入的权衡呢?
A: 没测过。 on-policy (near on-policy) rl is all you need
Q: 请问您对HRL或者option是什么看法,对解决 状态空间爆炸 的问题是否有效呢?
A: 我觉得机器人上需要hrl,因为有高低频,及人本身身体和思考可以异步。纯低频agent 感觉目前不太需要
Q: lora是一致性很好的解决方案吗
A: 不用lora
Q: Non-verifiable问题主要解决路线
A: 尽可能的去研究训练一个long cot verifier (genrm),但无论如何outer loop总还是要有可verify的东西要不然没有reward signal。 也存在可能训练可verify的泛化到non-verifiable的
Q: 感觉现在复杂场景的评测集十分难搞,一个难以出题,尤其是批量出多轮交互且需要工具调用/rag知识的题,二是GT很多很主观,评测指标包括训练模型的reward system很难搞,也很难自动化评测,想请教您是否有相关建议
A: 你说的没错,这就是当前的关键瓶颈之一。 我觉得无论如何都得往自动化的方向转。 第二点自动化评测openai做了很多示范,通过rubrics得分点来评还可以。 对于第一点,要么真的就是人标要么寻找能自动化构建的方法。像terminal bench都是人造的。所以美国硅谷一堆rl env公司
Q: 为什么训 llm不用离线强化学习呢🤔
A: on policy 就是off policy 好啊。on policy才能产生新的比当前policy更好的数据并直接进行优化。
Q: 您好。我目前在做Deep Research方面的工作。我的SFT模型经常在上下文比较长或者调查轮次多了之后就会出现查询工具的重复调用现象。单步的RL通过reward设计惩罚重复查询是否就可以消除这种现象,还是说通过 基于开放空间的多轮RL 更好?
A: 显然应该做多轮rl,这才是真正的agentic rl。然后再设置重复惩罚
Q: online serve 的回流数据有哪些用法?能从里面直接获得监督信号吗?
A: 最基本的可以做数据分析,看bad case。要用于训练还是有很多挑战,怎么有效judge是一个
Q: 想请教一下针对browser use做rl训练的难点主要在哪里哇
A: env 能搭起来能scale,剩下的agentic rl算法问题和其他问题没区别
Q: 问flood RL4LLM的 第一性原理 是什么?对此有什么分析工具?
A: 如果你说的第一性原理指的是rl4llm要成功的关键点,那么 能scale是根本,然后你要有好的能verify的数据及一个有效的rl算法(而这个已经是大模型之前就已经被打磨过的)
Q: 能否透露一些kimi看好的后训练应用或者改进方向
A: Agent! Agent! Agent!
Q: 佬问一下,Llm时代,Meta learning现在在哪个领域可以用?
A: meta learning 本身已经嵌入在LLM中了,我们看到 in context learning可以认为就是meta learning的一种新范式。 当然,我们可以更深入的去优化模型的meta learning/learning to learn/fast adaptation/online learning的能力,而这个能力其实是llm 还不够强而我们人很强的一个能力,这有可能引发新的范式革命。
陈恺
Q: 你好,大模型现在大多免费,盈利点在哪里?很多公司开发大模型,但最终市场是不是仅剩三四家巨头,其他公司生存点在哪里?
A: 前段时间国务院关于“人工智能+”的文件其实包含了很多盈利点,大模型的价值核心在场景价值,不管是编程,还是客服,或者工业应用,只是日常聊天对话很难盈利,卖API的大模型公司数量会收敛,但大模型应用的公司会更多
Q: 大模型的本质是不是预测下一个词?如果是,那生成的上下文为什么是有逻辑的?它能预测后面很多个词么?
A: 大模型是预测下一个词的概率模型,在海量语料的训练中可以学到各种知识和隐含逻辑,其中一种主流观点是大模型是一种信息压缩,压缩产生智能
Q: 要实现与人类无异的对话智能,您认为核心驱动力是数据量的‘量变’,还是模型架构与训练方法的‘质变’?
A: 模型架构和训练方法让数据量的scale up变得可行
Q: 老师请问一下cv和llm方向差得多吗。我是多伦多大学大一学生。感觉现在llm才是大势所趋,那么学理论、做项目做cv相关的还有意义吗?我对理论很感兴趣,所以想在美国或清北读个直博,您觉得读完博士到企业里当研究员更好,还是科研和工程能力同步培养,能匹配的工作岗位更多更好呢?之前有过一段8个月的实习经历,还是觉得我纯当工程师不接触理论有些没意思
A: 我们团队很多同学早期都是做cv,后来转llm的,这些方向跨度也没有那么大,对能力强的同学来说不会有很高门槛,不过去企业当研究员这个想法持保留态度,企业的纯研究岗比较有限,而且受经济环境影响
Q: 老师您好,我是复旦语言学方向博士生,想从事AI相关的,你们会需要语言学的人吗
A: 语言学方向我们目前确实还没有,不过大模型现在在很多方向都开始需要博士来做专业领域的一些数据了
Q: 老师,想问下您对微调的看法,面试的时间有遇到过公司完全放弃了微调,觉得这个方向没有意义
A: 随着闭源模型不断变强,直接调API或者用API搭agent也能支持到一些应用场景,不过如果有比较强的后训练能力,对复杂或者特别垂直的场景来说效果一般还是会更好一些
Q: mmdet,mmdeploy都不更新了吗
A: 都转大模型了
Q: 如何看待“AI+心理”赛道,难点会有哪些?商业模式怎么样?
A: 目前有合作老师在做这个方向,但我了解程度也不深,粗浅说一下理解,从技术上来说心理数据构建复杂程度挺高的,包括不同心理流派, 跨session的超长多轮对话 ,以及RL训练的reward设计,虚拟用户的设计等,商业模式了解会更少一些,感觉2C或者2B都可以有出路,比如直接面向大众提供线上服务作为心理咨询师的平替,或者给心理咨询师作为助手,或者卖给机构作为员工服务,但是不管怎么样模型能力,个人隐私,安全伦理等问题不少
Q: 老师,dllm这个方向怎么样
A: 是个可以关注的方向,现在对于新架构的探索路线也没有收敛
Q: 老师好!在做数学lean证明的大模型!感觉书生的模型非常强力!请问收不收实习生!
A: 我们现在主要做 自然语言的数学证明 了,没有继续做lean
Q: internlm系列还会有更新吗?有面向agent、swe能力的t2t模型布局吗?
A: internlm 系列后续可能就不单独更新了,文本的迭代一直都在做,但会作为多模态的一部分,可以直接使用internvl和intern-s系列,agent也是重点能力之一
林江浩
Q: 大模型和金融的最前沿趋势是什么
A: 目前对AI+运筹比较熟悉,一个是LLM做OR求解,另一个是AI算法加速求解器。金融方向还不太熟悉,不敢妄下结论,欢迎指点一二