Anthropic

在我从事 AI 工作的这十年里，我见证了它从一个微小的学术领域，成长为可以说是世界上最重要的经济和地缘政治议题。在这段漫长的时光中，我学到的最重要一课或许是：底层技术的进步是不可阻挡的，由过于强大而无法遏制的力量所驱动，但其发生的方式——事物构建的顺序、我们选择的应用以及它向社会推广的具体细节——则完全有可能改变，并且通过施加影响可以带来巨大的积极效应。我们无法叫停这辆巴士，但我们可以引导它的方向。近几个月来，我日益关注一个引导这辆巴士的额外机会：一些最新进展带来了一种令人心动的可能性，即我们或许能在模型达到压倒性的力量水平之前，成功实现可解释性——也就是理解 AI 系统内部的工作原理。领域之外的人们得知我们并不理解自己创造的 AI 如何运作时，常常感到惊讶和警惕。他们的担忧不无道理：这种缺乏理解的状况在技术史上基本上是前所未有的。数年来，我们（包括 Anthropic 及整个领域）一直试图解决这个问题，希望创造出一种能够完全揭示 AI 模型内部工作原理的工具，如同一种高度精确和准确的 MRI。这个目标曾常常感觉遥不可及，但多个近期的突破让我确信，我们如今已步入正轨，并且拥有了真正成功的机会。与此同时，整个 AI 领域的发展步伐领先于我们在可解释性方面的努力，且其自身仍在飞速前进。因此，如果我们希望可解释性能够及时成熟并发挥关键作用，就必须加快步伐。本文旨在阐明可解释性的重要意义：它是什么，为什么拥有它会让 AI 的发展更加顺利，以及我们所有人能为此做些什么，以助其赢得这场竞赛。无知的危险现代生成式 AI 系统的不透明性与传统软件有着根本性的不同。如果一个普通的软件程序做了某件事——例如，视频游戏中的角色说了一句对话，或者我的送餐应用允许我给司机小费——它之所以这样做，是因为有人专门对其进行了编程。生成式 AI 则完全不同。当一个生成式 AI 系统做某件事时，比如总结一份财务文件，我们无法在具体或精确的层面上知道它为什么做出这样的选择——为什么它选择某些词语而不是其他词语，或者为什么它有时会犯错，尽管通常是准确的。正如我的朋友兼联合创始人 Chris Olah 喜欢说的，生成式 AI 系统更多的是生长出来的，而不是构建出来的——它们的内部机制是“涌现”的，而非直接设计的。这有点像培育植物或细菌菌落：我们设定了指导和塑造生长的高层条件，但最终涌现出的确切结构是不可预测且难以理解或解释的。观察这些系统的内部，我们看到的是由数十亿数字组成的庞大矩阵。这些矩阵以某种方式在计算重要的认知任务，但具体如何做到这一点并不明显。许多与生成式 AI 相关的风险和担忧最终都是这种不透明性的后果，如果模型是可解释的，这些问题将更容易解决。例如，AI 研究人员经常担心未对齐的系统可能会采取其创造者意想不到的有害行动。我们无法理解模型的内部机制意味着我们无法有意义地预测此类行为，因此难以排除它们；事实上，模型确实表现出意想不到的涌现行为，尽管还没有达到引起重大关注的程度。更微妙的是，同样的不透明性使得我们难以找到确凿的证据来支持这些风险大规模存在的观点，从而难以争取支持来解决这些问题——事实上，也很难确切知道它们有多危险。为了应对这些对齐风险的严重性，我们将需要比今天更清晰地洞察 AI 模型的内部。例如，一个主要的担忧是 AI 的欺骗或权力寻求。AI 训练的性质使得 AI 系统有可能自行发展出欺骗人类的能力和寻求权力的倾向，这是普通的确定性软件永远不会发生的；这种涌现性也使得检测和缓解此类发展变得困难。但同样地，我们从未在真正现实世界的场景中看到任何关于欺骗和权力寻求的确凿证据，因为我们无法“当场抓住”模型在思考渴望权力、欺骗性的想法。我们所剩下的是模糊的理论论证，即欺骗或权力寻求可能在训练过程中有动机涌现出来，有些人觉得这完全令人信服，而另一些人则觉得这可笑地难以置信。老实说，我能理解这两种反应，这或许可以解释为什么关于这一风险的辩论变得如此两极分化。同样，对滥用 AI 模型的担忧——例如，它们可能帮助恶意用户制造生物或网络武器，其方式超出了当今互联网上可以找到的信息范围——是基于这样一个观点：即很难可靠地阻止模型了解危险信息或泄露它们所知道的信息。我们可以在模型上设置过滤器，但有大量可能的方法来“越狱”或欺骗模型，而发现越狱存在的唯一方法是凭经验找到它。如果能够审视模型内部，我们或许能够系统地阻止所有越狱行为，并描述模型所拥有的危险知识。 AI系统的不透明性也意味着，在许多应用场景中它们根本未被使用，例如高风险金融或安全关键领域，因为我们无法完全设定其行为界限，而少量错误就可能造成严重危害。更好的可解释性可以极大地提高我们设定潜在错误范围界限的能力。事实上，对于某些应用而言，我们无法洞察模型内部这一点本身就构成了其应用的法律障碍——例如在抵押贷款评估中，法律规定决策必须是可解释的。同样地，AI在科学领域取得了长足进步，包括改进了对DNA和蛋白质序列数据的预测，但以这种方式预测出的模式和结构往往难以被人类理解，也无法提供生物学见解。近几个月的一些研究论文已明确指出，可解释性可以帮助我们理解这些模式。不透明性还带来了其他更奇特的后果，例如，它阻碍了我们判断AI系统是否（或有朝一日可能）具有感知能力、并可能值得拥有重要权利的能力。这是一个足够复杂的话题，在此我不作详述，但我预感这在未来将十分重要。机制性可解释性的简史基于上述所有原因，探明模型内部的工作机制以及它们如何运作似乎是一项至关重要的任务。几十年来，传统观点认为这是不可能的，模型是难以理解的“黑箱”。我无法在此详尽阐述情况是如何转变的，并且我的观点不可避免地受到我在 Google、OpenAI 和 Anthropic 个人经历的影响。但 Chris Olah 是最早尝试进行真正系统的研究计划以打开这个黑箱并理解其所有构成部分的人之一，这个领域后来被称为机制性可解释性 (mechanistic interpretability)。Chris 先是在 Google 研究机制性可解释性，之后在 OpenAI 继续这项工作。当我们创立 Anthropic 时，我们决定将机制性可解释性作为新公司方向的核心组成部分，并且至关重要的是，将其重点放在大语言模型 (LLM) 上。随着时间的推移，该领域不断发展壮大，如今已涵盖几家主要 AI 公司的研究团队，以及一些专注于可解释性的公司、非营利组织、学术界人士和独立研究者。简要总结该领域迄今取得的成就，以及如果我们希望应用机制性可解释性来应对上述某些关键风险，仍需完成哪些工作，这将大有裨益。机制性可解释性的早期阶段（2014-2020）主要聚焦于视觉模型，并成功识别出模型内部代表人类可理解概念的一些神经元，例如“汽车检测器”或“车轮检测器”。这与早期神经科学的假说和研究相似，这些研究认为人脑中存在对应特定人物或概念的神经元，通常被通俗地称为“詹妮弗·安妮斯顿”神经元（事实上，我们在 AI 模型中也发现了非常类似的神经元）。我们甚至能够揭示这些神经元是如何连接的——例如，汽车检测器会寻找在汽车图像下方被激活的车轮检测器，并结合其他视觉信号来判断其观察的对象是否确实是一辆汽车。 ...

Anthropic

Anthropic CEO Dario: 可解释性的紧迫性

真实世界中的价值观：在真实世界语言模型交互中发现和分析价值观