魔方试纸

最近在跟小朋友一起学三阶魔方。

我之前就会基础的层先法，能还原但速度很慢。这次想趁着跟孩子一起玩的机会，把第三层的解法从层先法升级到 CFOP——也就是学 OLL 和 PLL 那套更系统的公式。斯坦福有一份两三页的教程，后半部分讲的就是这些内容，每种状态对应什么公式、怎么识别朝向，写得很清楚。照着学，并不难。

但我想偷个懒，让大模型帮我把 OLL 和 PLL 的教学步骤重新梳理一下，省得自己对着 PDF 一点点翻。

结果发现——它做不到。

不是说它完全不懂。每个模型都能聊 CFOP 的基本框架，能提到 OLL、PLL 各有多少种情况，甚至能给出看起来有模有样的公式序列。问题在于，你真拿着魔方照它说的拧，拧不对。

这里公式的前提条件漏了，那里默认的朝向跟你手上的状态对不上。你指出来，它道歉，换一种说法，但新的说法又在别的环节出了偏差。来来回回好几轮，始终无法收敛到一条完全正确的路径。

我试了几个主流模型，无一例外。

最后还是回到那份斯坦福的 PDF，两三页纸，老老实实对照着学。人写的教程，一次就对了。

这件事让我觉得很拧巴。

因为我平时确实非常依赖大模型，而且它在很多场景下表现得极其出色。写代码的时候，它是真正的效率倍增器——查 API、debug、理顺混乱的逻辑，都是它的强项。翻译、信息整理、辅助思考，这些事情它做得又快又好。有些时候我问它一些比较深的问题，它给出的回答结构清晰、有洞察力，比大多数人类对话有营养得多。

那种时刻，你会真心觉得这个东西很厉害。

但就是这个很厉害的东西，面对 OLL 和 PLL 的教学梳理——一个照着公式表就能搞定的任务——它就是做不对。不是完全不会，是永远“差一点”。

后来我想，这不是“偶尔犯错”的问题，它暴露的是大模型一个更根本的特性。

三阶魔方本质上是一个严格的状态机。54 个色块，每转一下整体状态就变了。要解对，必须在每一步都精确知道当前状态是什么、公式的前提是否满足、执行之后状态会变成什么。这是一个需要精确跟踪和逐步验证的问题。

而大模型并没有在内部真的“转”一个魔方。它没有维护一个魔方对象，没有在做群运算。它做的是根据训练数据中见过的大量魔方教程，生成概率上“最像正确答案”的文本。它“知道”某种 OLL 状态大概率对应某个公式，但不会验证当前朝向是否真的满足前提，也不会在输出公式后检查结果是否正确。你告诉它上一步错了，它也不是真的回溯推理链，只是继续往前生成新的文本。

它是在“说”解法，不是在“做”解法。

魔方之所以把这个问题暴露得如此彻底，是因为它有一个残酷的特性：零容错，即时验证。对就是对，错就是错，六面要么齐了要么没齐，没有“差不多”的余地。在这种环境下，大模型基于统计生成的本质就彻底藏不住了。

这件事让我重新思考了一个一直模糊的问题：我们到底该怎么理解大模型的能力边界？

它很强大，这一点毫无疑问。写代码、翻译、辅助思考、整理信息——这些场景下它的价值实实在在，我自己每天都在受益。但它有一个不容易被察觉的问题：它的任务边界不清晰。

一个传统的软件工具，能做什么、不能做什么，边界是明确的。大模型不一样。它什么都能接，什么问题都敢答，而且大部分时候答得还不错。这就很容易让人放松警惕——它既然能帮我写出复杂的代码，那梳理几个 OLL 公式总不在话下吧？

然而恰恰是在这种“理应不会出错”的地方，它翻了车。

这不是个案。大模型本质上是一个概率系统，输出带有内在的随机性。这意味着使用者必须始终对它的输出保持判断力——在你熟悉的领域，它犯的错你能发现；但在你不熟悉的领域，你甚至不知道它错了。

所以我现在的认识是：大模型目前最合适的定位，仍然是一个人类助手。一个能力极强的助手，但终究是助手。不能把任务扔给它就不管了，必须在实际使用中审慎地界定它的任务边界——哪些环节可以放心交给它，哪些环节必须人工把关。这条边界如果划不清楚，那些低级但致命的错误，就会在最意想不到的地方冒出来。

还有一层更深的思考。

魔方这件事让我隐约意识到，大模型当前的技术范式也许存在某种结构性的局限。它在语言理解和生成上已经强大到令人惊叹，但面对需要精确状态维护和严格逻辑校验的任务，它的架构似乎天然不适配。这恐怕不是“再多训练一些数据”或者“把模型再做大一些”能够弥补的——也许需要某种更根本的范式演进，才能跨过这道坎。

具体会是什么样的演进，我不知道。但我觉得，一个两三页纸就能教会人类的问题，却能让当前最先进的大模型反复出错——这个事实本身就值得认真对待。

一个三阶魔方，竟然成了检验大模型能力边界最直观的试纸。

2026/02/17