AI | 一只小茄墩

AI Agent 与 Agentic AI：概念、应用与挑战的深度剖析

《AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges》这篇综述论文旨在严格区分人工智能代理（AI Agents）与智能体人工智能（Agentic AI），通过提供结构化的概念分类、应用图谱和挑战分析，阐明两者在设计理念和功能上的差异。研究的核心目标是为开发稳健、可扩展且可解释的人工智能驱动系统提供明确的路线图。 AI Agent的基础理解 AI Agent被定义为在特定数字环境中为实现目标导向的任务执行而设计的自主软件实体。它们能够感知结构化或非结构化输入，基于上下文信息进行推理，并启动行动以实现特定目标，通常作为人类用户或子系统的代理。 AI Agent的核心特征包括：自主性（部署后以最少的人工干预独立行动的能力）；任务特定性（为狭窄范围的任务进行优化，如调度、查询或过滤）；以及反应性与适应性（响应环境变化并利用反馈循环和基本学习启发式方法的能力）。大型语言模型（LLM）和大型图像模型（LIM）作为核心推理和感知引擎，极大地加速了AI Agent的基础性进展。生成式AI被定位为智能体智能的前身，它能生成新内容但缺乏自主性和目标追求；而AI Agent则通过集成外部工具、提示工程和增强的推理机制来推进这些能力。语言模型作为AI Agent发展的引擎将LLM集成为核心推理引擎是推动从反应式生成模型向自主、目标导向的AI Agent转变的关键驱动力。这些最初为自然语言处理任务训练的模型，日益被嵌入到需要自适应规划、实时决策和环境感知行为的框架中。为了克服仅生成式系统的局限性（如幻觉、静态知识），研究人员提出了工具增强的LLM代理，这些系统将外部工具、API和计算平台集成到代理的推理流程中，从而实现实时信息访问、代码执行和与动态数据环境的交互。例如，ReAct框架通过结合推理（思维链提示）和行动（工具使用），使LLM在内部认知和外部环境交互之间交替进行，展现了这种增强功能。从AI Agent基础看Agentic AI的出现 (The Emergence of Agentic AI from AI Agent Foundations) 尽管AI Agent在通过工具增强推理自动化狭窄任务方面取得了显著进展，但其在复杂、多步骤或协作场景中的可扩展性限制催生了更高级的范式：Agentic AI 。 Agentic AI通过允许多个智能实体通过结构化通信、共享内存和动态角色分配来协同追求目标，从而扩展了传统代理的能力。其核心概念飞跃在于从执行孤立任务的单个代理转变为由多个专业代理协作以实现复杂、高级目标的协调系统。这种转变的关键驱动因素包括目标分解、多步骤规划、跨智能体通信以及反思性推理和记忆系统。一个形象的例子是智能家居系统：一个AI Agent可能是一个单独控制温度的智能恒温器，而一个Agentic AI系统则是一个由天气预报、日程安排、能源优化等多个专业代理协同工作的完整生态系统，共同实现舒适、安全和节能的总体目标。论文通过多个表格详细对比了生成式AI、AI Agent以及Agentic AI在核心功能、架构组成、操作机制、范围与复杂性、交互与自主性等多个维度的关键差异。架构演进：从AI Agent到Agentic AI系统 Agentic AI显著扩展了AI Agent的基础架构（感知、推理、行动），通过集成专业化代理、高级推理与规划、持久性内存和编排等高级组件来实现更复杂、分布式和适应性的行为。基础AI Agent通常包含感知模块（处理输入信号）、知识表示与推理模块（应用逻辑）、行动选择与执行模块（转化决策为行动）以及基本的学习与适应机制。Agentic AI系统则在此基础上增强，例如采用专业代理的集合（每个代理负责特定功能，如MetaGPT中的角色扮演），嵌入递归推理能力（如ReAct, CoT）以进行动态规划和适应，整合持久性内存架构（如情景记忆、语义记忆、向量记忆）以跨任务周期或会话保持知识，并引入编排层或元代理来协调子代理的生命周期、管理依赖关系和解决冲突（如ChatDev中的虚拟CEO元代理）。 ...

斯坦福CS336：大模型从0到1｜25年最新最好的大模型入门课

官方网站：https://cs336.stanford.edu/ 去年该课程没有放出视频，今年官方放出了视频。课程内容均结合今年的大模型发展做了更新。在这个许多人通过高级API与大语言模型交互的时代，本课程旨在让研究者和开发者重新连接到底层技术。我们坚信，要真正理解语言模型，你必须亲手构建它。每次课程内容： 1. 4月1日周二概述与分词本节课深入探讨第一个技术组成部分：Tokenization。中英字幕版本：斯坦福CS336第一课：Tokenization详解 - 小红书 2. 4月3日周四 PyTorch与资源核算这堂课主要讲解了如何从头开始构建语言模型，特别是关注 PyTorch 中的基本构件以及效率（内存和计算资源的使用）课程目标与重点：核心是实际构建模型，理解 PyTorch 的基本元素（张量、模型、优化器、训练循环）。高度关注效率，包括内存占用和计算资源（FLOPs）的估算与优化。侧重于 PyTorch 的机制 (mechanics) 和资源核算的心态 (mindset)。中英字幕版本：斯坦福CS336第二课：pytorch手把手搭建LLM - 小红书 3. 4月8日周二架构与超参数关于 LLM 架构和训练，那些你想知道的一切 1）Transformer 架构回顾与演进趋势 2）核心架构变体：归一化、激活函数与层结构 3）位置编码的收敛：RoPE 的主导 4）超参数选择的经验法则与共识 5）训练稳定性技巧：应对 Softmax 的挑战 6）注意力头部的变体：推理优化与长上下文处理中英字幕版本：斯坦福CS336第三课：详解LLM基础架构 - 小红书 4. 4月10日周四混合专家模型混合专家模型（Mixture of Experts, MoE）去年，这只是一个有趣的额外讲座。但今年，由于很多人都在研究MoE，这节课变得更加重要。所以老师加入了很多最近的进展。最后，尝试剖析DeepSeek V3，理解构成这样一个最先进的开源系统（至少在架构方面）的各种组件。 MoE架构与非MoE架构在大部分组件上是相似的，主要区别在于如何处理前馈神经网络（FFN）层。在一个标准的Transformer模型中，FFN通常是一个单独的、密集的模块。而在MoE模型中，这个单独的FFN会被替换为多个（可能是复制或分割而来）较小的FFN副本，这些副本被称为“专家”。同时，会引入一个“路由器”（router）或“选择器”（selector）层。在每次前向传播或推理过程中，路由器会根据输入选择激活一小部分（例如，一个或几个）专家进行计算。这样做最大的好处是，如果每个专家的大小与原始密集模型的FFN相同，并且每次只激活一个专家，那么模型的总参数量可以显著增加，而计算量（flops）却保持不变。这对于那些相信更多参数能帮助模型记忆更多世界知识的观点来说，是一个极具吸引力的架构。大量研究表明，在相同的训练计算量（training flops）下，混合专家模型能取得比密集模型更优的性能。尽管MoE在flops效率上表现出色，但其并非没有代价。一个主要的挑战在于系统实现的复杂性。有效地路由数据到成百上千个专家，并保证计算效率，需要复杂的基础设施支持。 ...

OpenAI研究员姚顺雨：欢迎来到AI的下半场

下半场摘要: 我们正处于 AI 的中场休息时间。几十年来，人工智能（AI）在很大程度上是关于开发新的训练方法和模型。这确实奏效了：从在国际象棋和围棋比赛中击败世界冠军，到在 SAT 和律师资格考试中超越大多数人类，再到获得 IMO 和 IOI 金牌。在这些载入史册的里程碑背后——深蓝（DeepBlue）、AlphaGo、GPT-4 以及 o 系列——是 AI 方法的根本性创新：搜索、深度强化学习（deep RL）、规模化（scaling）和推理（reasoning）。随着时间的推移，一切都在变得更好。那么，现在突然有什么不同了呢？用三个词来说：RL 终于奏效了。更准确地说：RL 终于具备泛化能力了。在经历了几个重大的弯路和一系列里程碑的积累之后，我们终于找到了一个行之有效的秘诀，可以使用语言和推理来解决广泛的 RL 任务。即使在一年前，如果你告诉大多数 AI 研究人员，单一的秘诀就能处理软件工程、创意写作、IMO 级别的数学、鼠标键盘操作以及长篇问答——他们会嘲笑你的“幻觉”。这些任务中的每一项都极其困难，许多研究人员花费整个博士生涯专注于其中的一个狭窄领域。然而，它确实发生了。那么接下来会发生什么？ AI 的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代，评估变得比训练更重要。我们不再仅仅问：“我们能训练一个模型来解决 X 问题吗？”，而是问：“我们应该训练 AI 做什么，以及我们如何衡量真正的进展？” 要在这个下半场茁壮成长，我们需要及时转变思维模式和技能组合，也许更接近产品经理所具备的那些。上半场要理解上半场，看看它的赢家。你认为迄今为止最具影响力的 AI 论文是哪些？我试了斯坦福 224N 课程里的测验，答案并不令人意外：Transformer、AlexNet、GPT-3 等。这些论文有什么共同点？它们提出了一些根本性的突破来训练更好的模型。而且，它们通过在某些基准测试上展示出一些（显著的）改进而成功发表了论文。不过，这里有一个潜在的共性：这些“赢家”都是训练方法或模型，而不是基准测试或任务。即使是公认最具影响力的基准测试 ImageNet，其引用次数也不到 AlexNet 的三分之一。方法与基准测试的对比在其他地方甚至更为悬殊——例如，Transformer 的主要基准测试是 WMT’14，其研讨会报告约有 1300 次引用，而 Transformer 的引用次数超过 16 万次。这说明了上半场的游戏规则：专注于构建新的模型和方法，评估和基准测试是次要的（尽管对于让论文体系运作起来是必要的）。为什么？一个重要原因是，在 AI 的上半场，方法比任务更难、更令人兴奋。从零开始创建一个新的算法或模型架构——想想反向传播算法、卷积网络（AlexNet）或 GPT-3 中使用的 Transformer 等突破——需要非凡的洞察力和工程能力。相比之下，为 AI 定义任务通常感觉更直接：我们只是将人类已经在做的任务（如翻译、图像识别或国际象棋）转化为基准测试。这不需要太多的洞察力，甚至不需要太多的工程。方法也往往比单个任务更通用、适用范围更广，这使得它们尤为宝贵。例如，Transformer 架构最终推动了计算机视觉（CV）、自然语言处理（NLP）、强化学习（RL）以及许多其他领域的进步——远远超出了它首次证明自己的单一数据集（WMT’14 翻译）。一个优秀的新方法可以通过简单和通用性在许多不同的基准测试上取得进展（hillclimb），因此其影响往往超越单个任务。这个游戏规则已经运行了几十年，激发了改变世界的想法和突破，这些都体现在各个领域不断提高的基准测试性能上。为什么这个游戏规则会改变呢？因为这些想法和突破的积累，在创造一个解决任务的有效秘诀方面，产生了质的飞跃。 ...