人工智能(AI)模型是训练出来的,而不是直接编程出来的,因此它们就像一个“黑盒子”,我们并不了解它们是如何完成大部分事情的。
了解大语言模型(LLM)是如何思考的,将有助于我们更好地理解它们的能力,同时也有助于我们确保它们正在做我们希望它们做的事情。
例如,AI 可以一步一步地写出它的推理过程。这是否代表它得到答案的实际步骤,还是它有时是在为既定的结论编造一个合理的论据?
今天,大模型明星公司 Anthropic 在理解 AI「黑盒子」如何思考方面迈出了重要一步——他们提出了一种新的可解释性方法,让我们能够追踪 AI 模型(复杂且令人惊讶的)思维。
他们从神经科学领域汲取灵感,并试图构建一种 AI「显微镜」,让我们能够识别 AI 的活动模式和信息的流动。在最新发表的两篇论文中,他们分享了AI「显微镜」开发上的进展以及其在“AI 生物学”中的应用。
在第一篇论文中,他们扩展了之前在模型内部定位可解释的概念(特征)的工作,将那些概念连接成计算“回路”,揭示了将输入 Claude 的词语转化为输出的词语的路径中的部分。
在第二篇论文中,他们对 Claude 3.5 Haiku 进行了深入研究,对 10 个关键模型行为中的简单任务进行了研究。他们发现,有证据表明 AI 聊天助手 Claude 会提前计划好要说的话,并通过一些手段来达到这一目的。这有力地证明,尽管模型接受的训练是一次输出一个词,但它们可能会在更长的时间跨度上进行思考。
Anthropic 团队表示,这些发现代表着人们在理解 AI 系统并确保其可靠性的目标取得了重大进展,同时也在其他领域具有潜在价值:例如,可解释性技术在医学影像和基因组学等领域得到了应用,因为剖析为科学应用训练的模型的内部机制,可以揭示关于科学的新的见解。
当然,这一方法也存在一些局限性。例如。即使在简短的提示下,这一方法也只捕捉到 Claude 所执行的总计算量的一小部分,而他们看到的机制可能基于工具存在的一些偏差,并不反映底层模型的真实情况。
此外,即使是在只有几十个单词的提示下,理解观察到的回路也需要几个小时的人类努力。要扩展到支持模型使用的复杂思维链的数千个单词,还需要进一步改进方法以及(也许在 AI 的帮助下)如何理所观察到的东西。
Claude 可以流利地说几十种语言——英语、法语、中文和菲律宾语。这种多语言能力是如何工作的?是否存在一个独立的“法语 Claude”和“中文 Claude”并行运行,各自以自己的语言响应请求?或者在其内部存在某种跨语言的内核?
图|英语、法语和汉语都有共同的特征,这表明概念具有一定程度的普遍性。
最近对较小型模型的研究表明,不同语言之间存在共享的语法机制。研究团队通过询问 Claude 在不同语言中“小对立面”,发现关于小和相反的概念的核心特征被激活,并触发了一个大概念,这个概念被翻译成了问题的语言。他们发现,随着模型规模的增加,共享的回路也增加,与较小模型相比,Claude 3.5 Haiku 在语言之间共享的特征的比例是其两倍多。
这为一种概念上的普遍性提供了额外的证据——一个共享的抽象空间,其中存在意义,思考可以在被翻译成特定语言之前发生。更实际地说,它表明 Claude 可以在一种语言中学习某些东西,并在说另一种语言时应用这些知识。研究模型如何在不同的语境中共享其知识,对于理解其 SOTA 推理能力是非常重要的,这些能力可以泛化到许多领域。
Claude 是如何写押韵诗的?请看这首小诗:
He saw a carrot and had to grab it,
他看到了一根胡萝卜,要抓住它,
His hunger was like a starving rabbit
他的饥饿就像一只饿极了的兔子
为了写出第二行,模型必须同时满足两个约束:需要押韵(与“grab it”押韵),同时需要有意义(为什么抓胡萝卜?)。他们猜测 Claude 是逐字逐句地写作,几乎没有太多的预先思考,直到行尾,它会确保选择一个押韵的词。因此,他们预计会看到一个具有并行路径的回路,一条路径确保最后一个词有意义,另一条路径确保押韵。
相反,他们发现 Claude 会提前规划。在开始第二行之前,它就开始“思考”与“抓住它”押韵的可能相关词汇。然后,带着这些计划,它写出一行在计划中的词来结尾。
图|Claude 如何完成一首两行诗。在没有任何干预的情况下(上半部分),模型事先规划了第二行末尾的韵脚“兔子”(rabbit)。当研究人员抑制“rabbit”的概念时(中间部分),模型会使用另一个计划好的韵脚。当研究人员注入“绿色”(green)概念时(下半部分),模型就会为这个完全不同的结尾做出计划。
联络我们