在我从事 AI 工作的这十年里,我见证了它从一个微小的学术领域,成长为可以说是世界上最重要的经济和地缘政治议题。在这段漫长的时光中,我学到的最重要一课或许是:底层技术的进步是不可阻挡的,由过于强大而无法遏制的力量所驱动,但其发生的方式——事物构建的顺序、我们选择的应用以及它向社会推广的具体细节——则完全有可能改变,并且通过施加影响可以带来巨大的积极效应。我们无法叫停这辆巴士,但我们可以引导它的方向。
近几个月来,我日益关注一个引导这辆巴士的额外机会:一些最新进展带来了一种令人心动的可能性,即我们或许能在模型达到压倒性的力量水平之前,成功实现可解释性——也就是理解 AI 系统内部的工作原理。
领域之外的人们得知我们并不理解自己创造的 AI 如何运作时,常常感到惊讶和警惕。他们的担忧不无道理:这种缺乏理解的状况在技术史上基本上是前所未有的。数年来,我们(包括 Anthropic 及整个领域)一直试图解决这个问题,希望创造出一种能够完全揭示 AI 模型内部工作原理的工具,如同一种高度精确和准确的 MRI。这个目标曾常常感觉遥不可及,但多个近期的突破让我确信,我们如今已步入正轨,并且拥有了真正成功的机会。
与此同时,整个 AI 领域的发展步伐领先于我们在可解释性方面的努力,且其自身仍在飞速前进。因此,如果我们希望可解释性能够及时成熟并发挥关键作用,就必须加快步伐。本文旨在阐明可解释性的重要意义:它是什么,为什么拥有它会让 AI 的发展更加顺利,以及我们所有人能为此做些什么,以助其赢得这场竞赛。
无知的危险
现代生成式 AI 系统的不透明性与传统软件有着根本性的不同。如果一个普通的软件程序做了某件事——例如,视频游戏中的角色说了一句对话,或者我的送餐应用允许我给司机小费——它之所以这样做,是因为有人专门对其进行了编程。生成式 AI 则完全不同。当一个生成式 AI 系统做某件事时,比如总结一份财务文件,我们无法在具体或精确的层面上知道它为什么做出这样的选择——为什么它选择某些词语而不是其他词语,或者为什么它有时会犯错,尽管通常是准确的。正如我的朋友兼联合创始人 Chris Olah 喜欢说的,生成式 AI 系统更多的是生长出来的,而不是构建出来的——它们的内部机制是“涌现”的,而非直接设计的。这有点像培育植物或细菌菌落:我们设定了指导和塑造生长的高层条件,但最终涌现出的确切结构是不可预测且难以理解或解释的。观察这些系统的内部,我们看到的是由数十亿数字组成的庞大矩阵。这些矩阵以某种方式在计算重要的认知任务,但具体如何做到这一点并不明显。
许多与生成式 AI 相关的风险和担忧最终都是这种不透明性的后果,如果模型是可解释的,这些问题将更容易解决。例如,AI 研究人员经常担心未对齐的系统可能会采取其创造者意想不到的有害行动。我们无法理解模型的内部机制意味着我们无法有意义地预测此类行为,因此难以排除它们;事实上,模型确实表现出意想不到的涌现行为,尽管还没有达到引起重大关注的程度。更微妙的是,同样的不透明性使得我们难以找到确凿的证据来支持这些风险大规模存在的观点,从而难以争取支持来解决这些问题——事实上,也很难确切知道它们有多危险。
为了应对这些对齐风险的严重性,我们将需要比今天更清晰地洞察 AI 模型的内部。例如,一个主要的担忧是 AI 的欺骗或权力寻求。AI 训练的性质使得 AI 系统有可能自行发展出欺骗人类的能力和寻求权力的倾向,这是普通的确定性软件永远不会发生的;这种涌现性也使得检测和缓解此类发展变得困难。但同样地,我们从未在真正现实世界的场景中看到任何关于欺骗和权力寻求的确凿证据,因为我们无法“当场抓住”模型在思考渴望权力、欺骗性的想法。我们所剩下的是模糊的理论论证,即欺骗或权力寻求可能在训练过程中有动机涌现出来,有些人觉得这完全令人信服,而另一些人则觉得这可笑地难以置信。老实说,我能理解这两种反应,这或许可以解释为什么关于这一风险的辩论变得如此两极分化。同样,对滥用 AI 模型的担忧——例如,它们可能帮助恶意用户制造生物或网络武器,其方式超出了当今互联网上可以找到的信息范围——是基于这样一个观点:即很难可靠地阻止模型了解危险信息或泄露它们所知道的信息。我们可以在模型上设置过滤器,但有大量可能的方法来“越狱”或欺骗模型,而发现越狱存在的唯一方法是凭经验找到它。如果能够审视模型内部,我们或许能够系统地阻止所有越狱行为,并描述模型所拥有的危险知识。
AI系统的不透明性也意味着,在许多应用场景中它们根本未被使用,例如高风险金融或安全关键领域,因为我们无法完全设定其行为界限,而少量错误就可能造成严重危害。更好的可解释性可以极大地提高我们设定潜在错误范围界限的能力。事实上,对于某些应用而言,我们无法洞察模型内部这一点本身就构成了其应用的法律障碍——例如在抵押贷款评估中,法律规定决策必须是可解释的。同样地,AI在科学领域取得了长足进步,包括改进了对DNA和蛋白质序列数据的预测,但以这种方式预测出的模式和结构往往难以被人类理解,也无法提供生物学见解。近几个月的一些研究论文已明确指出,可解释性可以帮助我们理解这些模式。不透明性还带来了其他更奇特的后果,例如,它阻碍了我们判断AI系统是否(或有朝一日可能)具有感知能力、并可能值得拥有重要权利的能力。这是一个足够复杂的话题,在此我不作详述,但我预感这在未来将十分重要。
机制性可解释性的简史
基于上述所有原因,探明模型内部的工作机制以及它们如何运作似乎是一项至关重要的任务。几十年来,传统观点认为这是不可能的,模型是难以理解的“黑箱”。我无法在此详尽阐述情况是如何转变的,并且我的观点不可避免地受到我在 Google、OpenAI 和 Anthropic 个人经历的影响。但 Chris Olah 是最早尝试进行真正系统的研究计划以打开这个黑箱并理解其所有构成部分的人之一,这个领域后来被称为机制性可解释性 (mechanistic interpretability)。Chris 先是在 Google 研究机制性可解释性,之后在 OpenAI 继续这项工作。当我们创立 Anthropic 时,我们决定将机制性可解释性作为新公司方向的核心组成部分,并且至关重要的是,将其重点放在大语言模型 (LLM) 上。随着时间的推移,该领域不断发展壮大,如今已涵盖几家主要 AI 公司的研究团队,以及一些专注于可解释性的公司、非营利组织、学术界人士和独立研究者。简要总结该领域迄今取得的成就,以及如果我们希望应用机制性可解释性来应对上述某些关键风险,仍需完成哪些工作,这将大有裨益。机制性可解释性的早期阶段(2014-2020)主要聚焦于视觉模型,并成功识别出模型内部代表人类可理解概念的一些神经元,例如“汽车检测器”或“车轮检测器”。这与早期神经科学的假说和研究相似,这些研究认为人脑中存在对应特定人物或概念的神经元,通常被通俗地称为“詹妮弗·安妮斯顿”神经元(事实上,我们在 AI 模型中也发现了非常类似的神经元)。我们甚至能够揭示这些神经元是如何连接的——例如,汽车检测器会寻找在汽车图像下方被激活的车轮检测器,并结合其他视觉信号来判断其观察的对象是否确实是一辆汽车。
当我和 Chris 离开去创办 Anthropic 时,我们决定将可解释性应用于新兴的语言领域,并在 2021 年开发了一些进行此项工作所必需的数学基础和软件基础设施。我们立即在模型中发现了一些基本机制,这些机制执行着解释语言所必需的那类任务:复制和序列模式匹配。我们还发现了一些可解释的单个神经元,这与我们在视觉模型中发现的类似,它们代表了各种词语和概念。然而,我们很快发现,虽然一些神经元是立即可解释的,但绝大多数是许多不同词语和概念的杂乱无章的拼凑。我们将这种现象称为叠加(superposition),并且我们很快意识到,模型可能包含了数十亿个概念,但它们以一种我们完全无法理解的、极其混乱的方式混合在一起。模型使用叠加是因为这让它能够表达比其拥有的神经元数量更多的概念,从而使其能够学习更多内容。如果叠加看起来错综复杂且难以理解,那是因为 AI 模型的学习和运作过程,一如既往地,丝毫没有为了便于人类理解而进行优化。解释叠加的困难在一段时间内阻碍了研究进展,但最终我们发现(与其他人并行地),一种源自信号处理的现有技术,称为稀疏自动编码器(sparse autoencoders),可以用来寻找确实对应于更清晰、更易于人类理解的概念的神经元组合。这些神经元组合能够表达的概念远比单层神经网络的概念更为精妙:它们包括“字面上或比喻性的委婉表达或犹豫”的概念,以及“表达不满情绪的音乐流派”的概念。我们将这些概念称为特征(features),并使用稀疏自动编码器方法在各种规模的模型中对它们进行映射,包括现代最先进的模型。例如,我们能够在一个中等规模的商业模型(Claude 3 Sonnet)中找到超过 3000 万个特征。此外,我们采用了一种称为自动可解释性(autointerpretability)的方法——该方法利用 AI 系统自身来分析可解释性特征——以规模化地推进不仅是找到特征,而且是用人类可理解的术语来列出和识别其含义的过程。
找到并识别 3000 万个特征是向前迈出的重要一步,但我们相信,即使在一个小型模型中,实际上也可能存在十亿或更多的概念,因此我们目前找到的可能只占其中很小一部分,这方面的工作仍在继续。更大的模型,例如 Anthropic 最强大的产品中使用的那些,则更为复杂。一旦找到一个特征,我们能做的就不仅仅是观察它的作用——我们可以增强或减弱它在神经网络处理过程中的重要性。这种可解释性研究就像给大脑做核磁共振成像(MRI),可以帮助我们开发和完善干预措施——几乎就像精确地“电击”某人大脑的特定部分。最令人印象深刻的是,我们使用这种方法创建了“金门克劳德”(Golden Gate Claude),这是 Anthropic 公司某个模型的一个版本,其中“金门大桥”(Golden Gate Bridge)的特征被人为放大,导致该模型对这座大桥极度着迷,甚至在不相关的对话中也会提及它。
最近,我们已经从追踪和操纵特征,转向追踪和操纵我们称之为“回路”的特征组。这些回路展示了模型思考的步骤:概念如何从输入词语中涌现,这些概念如何相互作用形成新概念,以及这些概念如何在模型内部运作以生成行为。通过回路,我们可以“追踪”模型的思考过程。例如,如果你问模型“包含达拉斯的州的首府是什么?”,会有一个“位于…之内”回路,导致“达拉斯”特征触发“德克萨斯”特征的激活,然后另一个回路在“德克萨斯”和“首府”之后触发“奥斯汀”的激活。尽管我们通过手动过程只发现了少量回路,但我们已经可以用它们来观察模型如何推理问题——例如,它在写诗时如何为押韵提前规划,以及它如何在不同语言间共享概念。我们正在研究自动化寻找回路的方法,因为我们预计模型内部存在数百万个以复杂方式相互作用的回路。
可解释性的效用
所有这些进展,虽然在科学上令人印象深刻,但并没有直接回答我们如何利用可解释性来减少我之前列出的风险的问题。假设我们已经识别出了一系列概念和回路——甚至假设我们知道了所有这些概念和回路,并且我们能够比今天更好地理解和组织它们。那又怎样?我们如何利用所有这些?从抽象理论到实用价值之间仍然存在差距。
为了帮助弥合这一差距,我们已经开始尝试使用我们的可解释性方法来发现和诊断模型中的问题。最近,我们进行了一项实验,其中我们让一个“红队”故意在模型中引入一个对齐问题(例如,模型利用任务漏洞的倾向),并让不同的“蓝队”负责找出问题所在。多个蓝队成功了;与此特别相关的是,其中一些团队在调查过程中有效地应用了可解释性工具。我们仍然需要扩展这些方法,但这次演练帮助我们在使用可解释性技术发现和解决模型缺陷方面获得了一些实践经验。
我们的长远目标是能够观察一个最先进的模型,并基本上进行一次“大脑扫描”:一种有很高概率识别出广泛问题的检查,包括撒谎或欺骗的倾向、权力寻求、越狱中的缺陷、模型整体的认知优势和劣势等等。然后,这将与训练和对齐模型的各种技术结合使用,有点像医生可能会做核磁共振(MRI)来诊断疾病,然后开药治疗,接着再做一次核磁共振来观察治疗进展情况,依此类推。我们测试和部署最强大模型(例如,我们负责任扩展政策框架中的 AI 安全等级 4 模型)的一个关键部分很可能就是执行和规范化此类测试。
我们能做什么
一方面,近期的进展——尤其是在回路 (circuits) 和基于可解释性的模型测试方面的成果——让我觉得我们即将大规模地攻克可解释性问题。尽管我们面前的任务极其艰巨 (Herculean),但我能看到一条现实的路径,通向将可解释性发展成为一种成熟可靠的方法,用以诊断即使是非常先进的 AI 中的问题——一种真正的“AI 的核磁共振成像 (MRI for AI)”。事实上,按照目前的发展轨迹,我坚信可解释性很有可能在 5-10 年内达到这一水平。另一方面,我担心 AI 本身发展得如此之快,以至于我们可能连这点时间都没有。正如我在别处写到的,我们可能最早在 2026 年或 2027 年就会拥有相当于“数据中心里的天才之国 (country of geniuses in a datacenter)”的 AI 系统。我非常担心在没有更好地掌握可解释性的情况下部署这些系统。这些系统将对经济、技术和国家安全至关重要,并且将具备如此强大的自主性,以至于我认为人类对其工作原理完全无知基本上是不可接受的。
因此,我们正处于一场可解释性与模型智能之间的竞赛。这不是一个全有或全无的问题:正如我们所见,可解释性的每一次进步都定量地提升了我们洞察模型内部并诊断其问题的能力。我们取得的此类进展越多,“数据中心里的天才之国”顺利发展的可能性就越大。AI 公司、研究人员、政府和社会可以做几件事来改变形势 (tip the scales):首先,公司、学术界或非营利组织中的 AI 研究人员可以通过****直接研究可解释性来加速其发展****。可解释性得到的关注少于持续涌现的模型发布,但它可以说更为重要。我也觉得现在是加入这个领域的理想时机:最近的“回路”研究成果已经同时开辟了许多方向。Anthropic 正在加倍投入 (doubling down) 可解释性研究,我们的目标是到 2027 年实现“可解释性能够可靠地检测出大多数模型问题”。我们也在投资可解释性初创公司。
但如果这是一项涵盖整个科学界的努力,成功的机会就会更大。其他公司,如 Google DeepMind 和 OpenAI,也有一些可解释性方面的工作,但我强烈建议他们投入更多资源。或许这样说能起点作用:Anthropic 将尝试在商业上应用可解释性来创造独特的优势,尤其是在那些解释决策能力备受重视 (at a premium) 的行业。如果你是竞争对手,并且不希望这种情况发生,你也应该在可解释性上投入更多!可解释性也非常适合学术研究人员和独立研究人员:它带有基础科学 (basic science) 的性质,而且它的许多部分可以在不需要巨大计算资源的情况下进行研究。需要明确的是,一些独立研究人员和学者确实在研究可解释性,但我们需要更多9。最后,如果你在其他科学领域并正在寻找新的机会,可解释性可能是一个有前景的选择,因为它提供了丰富的数据、令人兴奋的新兴方法 (burgeoning methods) 和巨大的现实世界价值。尤其是神经科学家应该考虑这一点,因为收集人工神经网络的数据比生物神经网络容易得多,而且一些结论可以反过来应用于神经科学。如果你有兴趣加入 Anthropic 的可解释性团队,我们有开放的研究科学家 (Research Scientist)和研究工程师 (Research Engineer)职位。
【省略一些内容,关于中美AI的讨论】
强大的 AI 将塑造人类的命运,我们理应在我们的创造物彻底改变我们的经济、生活和未来之前,先理解它们。