大模型脑子里到底在想什么？

大家好！欢迎来到今天的博客。

最近我们都在频繁使用各种AI大模型，但你有没有想过：AI的大脑里到底是什么样子的？当它答不上来问题时，究竟是知识库里没货，还是临时「短路」？当它洋洋洒洒写出一长串思考过程时，我们怎么分辨它是在深度思考，还是在无效「瞎忙」？

带着这些疑问，我找我的老朋友——在AI圈摸爬滚打多年的资深研究员老白。

答错问题？是「书架空了」还是「钥匙丢了」？

我：「老白，我发现大模型经常会一本正经地胡说八道，这是不是因为它的『知识书架』上压根就没这本书？」

老白（笑了笑）：「你这叫空书架思维。以前我们确实这么认为，但最新的前沿论文给出了一个新的视角：其实书全在书架上，只是它把打开那个柜子的『钥匙』弄丢了。」

我：「丢钥匙？」

老白：「对。研究人员对主流大模型进行海量测试发现，对于顶尖模型来说，『空书架』问题基本解决了，95%以上的事实都已经被编码存储在脑子里。当下的瓶颈根本不是存不进去，而是想不起来。热门知识挂在显眼处，冷门知识或者『反向问题』（比如它知道A的老婆是B，但你问B的老公是谁它就迷糊）就被塞在角落里了。

不过，用『思维链』（Chain of Thought）让它在回答前先推导一步，就能显著提高它在冷门知识上的表现。所以下次它答错了，顺着逻辑多追问一句，可能就帮它把『钥匙』捞回来了。」

我：「懂了，不过，95%这个数字，靠谱吗？怎么感觉很不严谨。」

老白：「确实有点，只是在特定衡量标准下的结论，也是有争议的。」

警惕「迷之自信」：字数越多，可能越是在瞎忙

我：「说到让它推导，我有时候看AI在那儿『思考中』转了半天，输出一大堆字，结果全是对着一个错误思路钻牛角尖。」

老白：「你观察得非常敏锐！这正是论文里揭示的一个大坑：AI在生成一大段详细的推理过程时，它自己被自己的雄辩给说服了。」

我：「自己把自己忽悠瘸了？」

老白：「没错。不管答案最终是对是错，它输出的那一大串思考过程都显得逻辑严密、头头是道，这导致它的『信心分』总是出奇的高。它对正确答案和错误答案抱有几乎同等的迷之自信。

这就尴尬了，一个无法准确衡量自己真实水平的信心不仅没用，反而有害。它会让防御机制保护那些本该被修正的错误答案。论文甚至做了个匪夷所思的实验：给AI一个随机生成的信心分，效果居然比用它自己计算的真实信心分还要好！」

衡量有效努力：钻进大脑，寻找「深度思考词源」

我：「既然不能信它的迷之自信，也不能看字数，那怎么分辨它是真努力还是瞎忙？」

老白：「我们别再盯着AI输出了多少字了，那都是表面功夫，我们得钻到它的大脑里去看看。你可以把AI的大脑想象成一个有几十层的深度加工厂。当我们问它一个问题，它要生成一个词，这个念头会从第一层开始，一层一层往下传递和加工，直到最后一层才最终确定。」

我：「这怎么看出深浅呢？」

老白：「如果一个词很简单，比如『中国的首都是__』，那个『北京』的念头可能在第一、二层就已经非常确定了，后面几十层只是走个流程没怎么变动，这就叫浅层思考。

但如果是一个复杂的数学题的最后一步，比如要算出最终答案『293』。这个『2』字可能在前面几层，AI还在犹豫是1还是8；到了中间几层，它可能觉得是3；直到最后几层，经过反复的计算和验证，才最终锁定是2。

你看，这个『2』的念头在AI的大脑里经历了持续的、剧烈的变化和修正，直到很深的层次才最终收敛。论文把这种词叫做深度思考词源（Deep Thinking Token）。一篇回答里这种词的比例越高，说明内部计算越剧烈，思考的劲儿才算使到位了。」

我：「听起来有点道理，但对我们用户来说实操起来过于复杂，想抓住模型偷懒没那么容易。」

老白点点头。

遇事不决？大脑里的「发散警报器」

我：「那如果它在加工厂里转了半天，发现自己真的不懂怎么办？硬编吗？」

老白：「这就涉及到一种很精妙的纠错机制。当AI在生成一句话的过程中，如果发现某个点的『曲率』是一个很大的负数——简单来说就是出现了发散，这说明它自己对接下来要说什么感到了极大的困惑和不确定。」

我：「相当于脑子突然卡壳了？」

老白：「对，但这其实是一个极好的警报信号！这时候AI可以立刻停下来，拿着这个发散点周围的上下文，去资料库里检索一下，获取外部知识来消除不确定性，然后再继续生成。这就让检索变得非常精准和高效，再也不用像以前那样盲目瞎搜了。」

逃离迷宫：AI的「金发姑娘」刷题策略

我：「那它平时是怎么像学生一样刷题进步的？做错题了有人给它讲题吗？」

老白：「AI训练本质上是一种试错和奖励的机制。做对一道题给个赞，做错了告诉它不对。问题是，对于一道复杂的数学题，它可能写了十步推导，第九步错了，导致最终答案不对。这时候，你只能告诉它『你错了』，但它根本不知道自己错在哪一步。这就叫稀疏奖励（Sparse Reward）。」

我：「这听起来效率太低了。」

老白：「就像你在一个巨大的迷宫里找出口，无论怎么走、走多少步，都没有任何提示。只有当你正好踩在出口上时，才会有个声音告诉你成功了。这种学习效率得多低啊！

为了打破僵局，研究者提出了金发姑娘策略（Goldilocks）。核心是建立一个『老师-学生』模型。学生负责解题，老师唯一任务是挑题——专挑那些学生做对概率在50%左右的题。太简单浪费时间，太难大概率瞎蒙。成功率在50%附近时，模型获得的『梯度信号』最强，进步动力最大。这样，算力永远花在最能让人成长的『刀刃』上。」

终极浪漫：在向量空间里，画一幅人类世界的地图

我：「这么听下来，AI不仅是在死记硬背，它其实在建立自己对事物的理解规律？」

老白（喝了口咖啡，眼神亮了起来）：「理解世界正是如此。我们知道一年有四季轮回，知道历史长河滚滚向前，知道北京在中国北方……这些知识的背后，都隐藏着关于时间、空间的对称性和连续性。而大模型用它自己的方式，通过分析语言的统计数据，竟然在它那个高维的向量空间里，把我们这个世界的底层几何给画了出来。」

我：「怎么画出来的？有这么具象吗？」

老白：「比你想象的还要具象！在模型的内部，那些我们熟悉的概念竟然会自发地组织成非常漂亮的几何形状。比如说，一年中的12个月份，在模型的世界里不是一条直线，而是一个完美的圆环，一月挨着二月，十二月又挨着一月，首尾相连。

而像1700年、1800年、1900年这些历史年份呢？它们就真的像在时间轴上一样，排成了一条长长的平滑的线。更神奇的是，对于世界上的城市，模型竟然能通过简单的线性变换，就直接计算出它们的经纬度！」

我：「这个画出来应该挺震撼的。」

老白：「所以，下次你在感叹AI神奇的时候，可以多想一层：它所展现的智能，很大程度上，是我们人类千百年来沉淀在语言中的集体智慧和结构模式的一种数学投影。它不是创造了新世界，而是为我们自己的世界，画了一幅我们从未见过，但又无比熟悉的地图。」

总结与启发：警惕你的「讨好型军师」

临走前，老白又叮嘱了我一句：「下一次当你使用AI这个『军师』时，可以多留一个心眼。它给出的答案，可能只是在那个瞬间，综合了你的提问方式、它的知识储备，以及它那点『小个性』之后，得出的一个最讨好的结论。」

确实，它很聪明，是个无所不知的巨兽，但离成为一个真正靠谱、有定力的伙伴，还有一段路要走。

从解决「丢钥匙」的记忆调取，到靠发散警报器自我纠错；从拒绝迷之自信的瞎忙，到在50%挑战区里的精准刷题，再到高维空间里那令人起鸡皮疙瘩的几何投影。

这些AI底层的进化逻辑，不仅是代码和算法的狂欢，更像一面镜子，映照着我们人类自身的学习与成长。了解它的短板，欣赏它的智慧，或许这才是我们在AI时代，最该拥有的清醒与定力。

Source:
人人能懂AI前沿 · 回忆的瓶颈，思考的深度与语言的曲率
 人人能懂AI前沿 · AI的瘦身术、换挡术与定心术