Meta的潜在推理器，在说话之前思考的AI

7个月前更新

这是一种必然趋势，而Meta似乎终于将点连成线。

在AI模型众多反直觉的特性中，有一个特性特别“非人类”：推理能力。

事实上，AI模型在推理方面通常非常糟糕，其中一个关键原因是它们只能通过语言进行推理。换句话说，它们边说边思考，而不是像清醒的人类那样先思考再表达，就像你周二在酒吧里喝醉的朋友一样，结果往往不尽如人意。

但Meta的新模型COCONUT改变了这一点。COCONUT代表“连续思维链”（Chain of Continuous Thought），它在潜在空间中进行推理，而潜在空间正是——清醒——的人类所运用的方式，这显著提高了模型的推理能力，并帮助我们释放其真正的潜力。

这篇短文将解释大型语言模型（LLM）或大型推理模型（LRM）如何与人类相比进行推理，以及Meta如何可能将它们比以往任何时候都更接近人类。

这是否是迈向人类级推理的又一步？让我们一探究竟。

推理的源泉

想象一下，你必须把脑中冒出的每一个想法都说出来。简单来说，你需要生成语言才能思考。显然，这完全不合理，也会导致糟糕的推理结果。

而，这正是今天AI“思考”的方式。

一个显著的AI局限

事实上，神经影像研究已经充分证明，在大多数推理活动中，大脑负责语言的部分甚至没有被激活。具体来说，我们的语言是一个交流工具，而非思考工具，这与许多人依然声称的观点相反（这一点稍后会进一步阐述）。

然而，这正是我们最先进的AI模型“推理”的方式。在AI术语中，这被称为“在语言空间中推理”，这只是一个花哨的说法来描述刚才提到的情况。

那么，LLM或LRM的内部到底发生了什么呢？

这些模型是自回归的：它们输入一个单词序列，然后输出下一个单词，依次递进。

这个过程包含四个主要步骤：

分块：序列被分解成小块。大多数模型使用一个分词器，这是一种学习得来的词元（单词或子单词）字典，将整个模型的词汇表分解为固定的部分。像Meta的BLT这样的新模型动态地对序列分块，避免了静态的计算图（欲了解更多，点击此处）。关注词元化模型（大多数模型是这样的），每个块都有一个编号，称为索引。这意味着一个特定的序列将始终以相同的方式被分块。
根据这个索引，我们自动从嵌入表中获取该词元的嵌入（类似于Excel中的VLOOKUP功能）。这为我们提供了该词元的向量形式，这对于AI处理单词至关重要（AI只能理解数字）。
处理：模型通过不同的层次处理这些嵌入，让它们彼此交互，并形成对序列的整体理解。

这些嵌入在模型内部处理时被正式称为“潜在变量”，因为它们是模型内部“隐藏”的内容。

解码：处理完成后，模型选择下一个单词，最后的嵌入被“解码”回语言。这是步骤2的逆过程；而不是将单词转化为向量，我们通过一个“反嵌入表”将选择的单词以向量形式“反嵌入”回自然语言。

简而言之，AI“思考”需要“说话”。

相反，人类“在抽象概念的空间中推理”。我们知道自己要说什么之后，才组织我们的想法。

但Meta可能终于让AI做到了“完全”相同的事情。

在潜在变量上推理

分词的一个问题在于它不是在训练过程中学到的。简单来说，模型如何对每个序列进行分块处理是对模型强加的，它只能以预定义的形式对单词序列进行分块。

COCONUT的与众不同之处

具体来说，这意味着处理特定输入单词组合（比如一个句子）的计算成本总是相同的。

正如我们在Meta的字节级Transformer（byte-level transformers）回顾中所看到的，这种分词化方法阻止了模型（包括ChatGPT、Gemini或Claude）主动决定在预测中愿意投入多少计算资源，导致了大量不必要的计算。

例如，预测句子“法国的首都是……”中的下一个单词显然比“告诉我一个中国可能在AI领域超越美国的理由”要容易得多。

但如果我们允许模型在做出预测之前多思考一会儿呢？对于第一个例子这可能并不必要，但更复杂的序列如后者，则会因模型内部更多思考而受益。

这正是今天这一突破背后的本质：潜在推理模型。

思想非常简单：回顾上述四个步骤，而不是自动开始解码（步骤4），我们将最后的潜在状态重新插入模型中，然后模型处理这个序列和最后的潜在状态；我们从步骤3开始循环，直到模型准备好说话才进入步骤4（解码）。

简单来说，模型不再在完成处理后每次都生成一个新单词，而是将其最后一层的输出重新插入模型中以处理下一步，这意味着这些输出不再是语言，而成为“思维”。

结果对比如下：像ChatGPT这样的标准LLM/LRM表现如左图。在模型处理序列后，它被迫生成第一个单词以继续下去（如我们讨论的例子中的“巴黎”）。

                                    而COCONUT模型（右图）只有在确信之后才生成用户看到的实际单词。

直观地说，标准模型是“通过说话来思考”，而COCONUT则是继续在内部处理序列，最终生成一个分配了更多计算资源的词元。

换句话说，当标准LRM在实际回答过程中生成思维链（CoT）时，COCONUT在内部生成思维链，然后才回答，就像人类在沉思中思考之后再回答一样。

请注意，这种“多思考一会儿”的想法仅在模型认为有必要时才会发生。这回到了我们之前提到的动态计算分配功能，这对于创建更智能、更高效的模型是必要的。如果模型认为它已准备好说话，它就会说。

需要区分的是“多思考一会儿”的含义，尤其是当我们总是将LRM框架为“多思考一会儿的LLM”时。

关键区别在于COCONUT模型，无论是LLM还是LRM，都在内部多思考一会儿。而标准LRM则通过生成基于语言的思维链来多思考一会儿，在其思考过程中生成了更多的输出词元（单词）。然而，标准LRM仍然存在与任何LLM相同的缺陷：它需要通过说话来思考，而这正是我们试图在此防止的。

更智能、更有深思熟虑

COCONUT引入的另一个重要功能是更高效的推理。当我们强迫模型在说话时思考，它还会添加许多词元以增强流畅性，但这些词元不一定提供任何额外信息。

例如，模型可能会使用更好的短语动词，调整句子结构以使解释不那么重复，并使用所有其他我们在语言中添加的风格化词语来提供连贯性并使其更易消化。

而COCONUT先思考再说话，它直接切入主题，生成的词元数量显著减少。

                                  COCONUT型模型平均每次响应生成的语言词元显著减少。来源：Meta

除了基于流畅性的词元，目前的LLM/LRM在解释中极为啰嗦，因为它们需要通过语言“理清头绪”。

这类似于当你问一个人问题时，他/她开始喃喃自语或发出像“呃”或“嗯”的声音，暗示他/她在思考答案并争取额外的时间。

这些不必要的推论在与人类的对话中可以容忍，但当前模型的过度啰嗦是难以忍受的。由于COCONUT型LLM并不被强迫“为了说话而说话”，而是通过在首次预测之前多思考一会儿：

• 你会得到一个直击要点并回答你的问题的回应（还减少了幻觉现象）。

• 你会得到一个更深思熟虑的回答，因为模型在吐露任何一个单词之前就已生成了思维链。

总的来说，COCONUT大幅提升了模型的推理能力（尽管我们还不能得出过早的结论，因为在某些情况下，标准CoT表现更好，这对于一个新的算法突破来说并不意外）。

COCONUT在几乎所有任务中的推理能力都有所提升。来源：Meta

尽管如此，其在推理任务中的表现，特别是在规划方面，表明这可能是AI模型的未来。它们的推理效率提高了10倍以上，并且坦率地说，表现得更像人类，这是一个很好的迹象。

潜在推理模型，即在说话之前思考的模型，将会长期存在。

进步只会加速

COCONUT证明了AI仍处于非常早期的阶段。好消息是，我们正在以前所未有的速度取得进展。

值得注意的是，AI正在逐步缩小效率差距，使其计算变得更加高效。这对于使这些模型在现实生活中具有可用性至关重要。

2025年将是AI历史上最重要的一年。记住我的话，这仅仅是个开始。

来源链接：https://www.cnblogs.com/jellyai/p/18667850

评分

欢迎为Ta评分

Meta的潜在推理器，在说话之前思考的AI

Java并发编程（4）

Java并发编程（1）

剑指offer-23、搜索⼆叉树的后序遍历序列

剑指offer-18、⼆叉树的镜像

线程池中execute和submit的区别？

借助Aspose.ZIP SDK，Java 中提取CAB 文件的分步指南

protobuf

go数据类型-sync.map

Python中的函数未定义的错误

【matplotlib基础】–刻度

用go封装和实现扫码登录

掌握Go类型内嵌：设计模式与架构的新视角