本文信息来源:glasswing
LLMs 是令人惊叹、具有革命性意义的工具,但它们并不完美。对于本《AI Atlas》的常规读者来说,这并不是什么新闻;我之前曾讨论过这些模型在大规模应用时需要指数级努力的问题,并提到过一些替代架构的提案,例如 Hyena、Mamba 和 SAMBA。然而,还有一个更为简单的根本性挑战:LLMs 是通过用英文单词写出所有内容来进行“推理”的。它们采用链式思维的方法,通过用自然语言解释每一步来模仿人类解决问题的方式。这使得推理过程可见且可解释,但这未必是机器进行思考的最高效方式。
主要问题在于,这些文本中有很大一部分是填充内容。许多 token(或词的片段)只是为了让句子对用户来说更易读,而不是为了真正推动推理向前发展。与此同时,那些真正复杂的决策点——需要权衡多种策略或计算的地方——并没有得到模型的特别关注。换句话说,当今的 LLM 系统在简单的填充词和困难的推理步骤上投入了同等的精力。这种不平衡会降低其速度,并限制它解决更复杂商业问题的能力。
为了解决这些局限,Meta 的工程师们开发了一种极其有趣的方法,为 LLMs 解锁了全新的推理层次,并且一如既往地起了一个独特又奇怪的名字:Coconut。在今天的 AI Atlas 中,我将重点介绍这一方法,以及它在未来几年可能带来的影响。
🗺️ 什么是 Coconut?
Coconut(“Chain of Continuous Thought”的缩写) 是一种旨在克服基于 LLM 推理效率低下的新技术方法。Coconut 并非将所有推理都强行转化为文字,而是允许 AI 模型在连续的“潜在空间”中进行无声推理。可以将其想象为让模型在内部白板上先勾画想法,再决定哪些值得用文字表达。然而,模型勾画的这些想法既不是英语,也不是人类可识别的任何语言,而是保持在神经网络最易理解的纯数学格式中。
这意味着 AI 可以同时保留多种可能的解决方案,并在最终确定答案前并行探索它们。这就像一个管理团队同时头脑风暴多种策略,而不是必须逐步表达和辩论。通过将推理过程从语言的限制中解放出来,Coconut 能够实现更快速、更灵活、更复杂的问题解决。
🤔 Coconut 的意义何在?它的局限性又是什么?
Coconut 的真正突破在于它重新定义了 AI 推理的过程。传统的思维链迫使模型“用文字思考”,这对人类来说直观,但对机器而言效率低下。Coconut 打破了这一限制,让推理可以在神经网络所擅长的灵活内部格式中进行。这种转变几乎可以比作从打字机过渡到数字电子表格。系统突然能够同时追踪多条路径、快速调整,并专注于解决难题,而不是在无关内容上浪费精力。对于企业而言,这不仅是一次渐进式的改进,更是 AI 在支持决策和解决问题方式上的一次根本性飞跃。
- 效率:Coconut 能以更少的无效步骤进行推理,从而减少处理时间和成本。
- 并行处理:Coconut 使模型能够同时考虑多种可能性,从而提升其处理复杂决策的能力。
- 准确性: 由于不必将中间步骤“转换”为最接近的英文等价形式,研究表明 Coconut 能够生成更为准确的输出。
一如既往,这些优势目前伴随着权衡取舍。尤其是,转向一种“临界”推理空间,使得人类用户更难理解 AI 的推理过程:
- 可解释性: 由于 Coconut 的推理发生在一个连续的、非语言化的空间中,要追溯 AI 是如何得出某个决策的变得更加困难。这将对那些需要高度可解释性的受监管行业构成挑战。
- 泛化能力: 尽管 Coconut 在数学和逻辑基准测试中表现出可喜的结果,但它在应对更复杂、更模糊的现实世界目标时的表现仍有待检验。
- 训练成本: 连续潜在推理可能需要一定程度的重新训练或微调。依赖现成 LLMs 的企业在调整现有基础设施以有效利用 Coconut 时,可能会面临障碍。
🛠️ Coconut 的应用场景
Coconut 在需要探索、回溯和多路径推理的问题中尤其有价值,例如:
- 低延迟聊天机器人: 也许是最显而易见的应用场景;Coconut 提升的处理速度将显著缩短 ChatGPT 和 Claude 等 AI 系统的响应时间,并使实时客户服务代理更加高效。
- 供应链优化: 通过同时探索多种规划路径,基于 Coconut 的 AI 可以推荐更具韧性的物流策略,以应对各种中断情况。
- 风险与合规:Coconut 可以同时权衡多种监管解读或风险情景,为合规团队提供更细致的指导。