悬空的语言:大语言模型与人类对“理解“的本质差异
大语言模型能说出正确的答案却不知道自己为什么对。人能感受到苹果的重量才真正懂得苹果会落下。这一行字的距离是人与机器之间最深的鸿沟。一、从一句话开始桌上有个苹果。当你读到这句话脑海里浮现的不只是五个汉字。你看见了那个圆润的、泛着光泽的红色物体感觉到它的重量落在掌心甚至能预见到一口咬下去的清脆声响。你知道苹果放在桌上意味着它随时可以被拿起来知道如果轻推一下它会因为重力滚落知道如果你饿了它是食物。这一切发生在瞬间自然而然不需要推导。现在同样这句话输入一个大语言模型。它没有浮现任何画面没有感受到重量没有预判苹果会不会滚落。它所做的是在几百亿个参数构成的巨大数学函数里迅速计算出在桌上有个苹果这一上下文之后哪些词语最可能跟随出现。它输出了正确的答案。但它不知道自己为什么对。二、理解是世界在心智中的投影人类的理解根植于感官与身体。当一个孩子第一次触碰火焰手指的灼痛感在她的神经系统里留下了无法抹去的印记。此后她理解火是危险的不是因为她读过关于火的定义而是因为那份疼痛已经成为她对火这个概念的一部分。她的理解有重量、有温度、有来源。心理学家将这种现象称为具身认知——人类的思维并不是悬浮在大脑里的纯粹符号运算而是深深嵌入在身体与世界的交互之中。你对重的理解来自你搬过的东西对快的理解来自你奔跑的记忆对孤独的理解来自某个具体的深夜。真正的理解是概念在感官经验的土壤里生根。离开了那片土壤概念就只是符号。正是因为有了这个底层的感知模型人类才能做到一件极为重要的事迁移。你从未见过某种外星植物但只要有人描述它长在土里圆的里面有水分你立刻能推断出关于它的大量信息——因为你有一套关于物理世界的通用模型在支撑。理解是可以生长、延伸、类推的。三、建模是语言空间里的漂浮大语言模型学习的方式根本上是统计。它被输入了人类书写过的几乎所有文字——新闻、小说、教科书、对话——并在这片文字海洋中学会了一件事预测。给定一段文字下一个词最可能是什么它从未被告知苹果是什么但它见过数以亿计的句子知道苹果后面常常跟着吃、甜、维生素。它在语言的拓扑结构里找到了词与词之间精确的距离关系。这套系统极为强大。它能写出优雅的散文能解释量子纠缠能分析一首宋词的平仄。但在这一切的底层它从未触碰过任何真实的事物。它的所有知识都锚定在语言上——而语言是锚定在世界上的但大语言模型跳过了那一步。人类的理解大模型的建模出发点感官经验文本数据概念基础身体记忆作为根基词语的统计关系迁移能力能迁移到全新情境陌生情境下容易失准认知深度理解为什么只能输出是什么语言角色理解世界的出口唯一的世界四、说对但不知为何对这里藏着一个微妙却根本的差异。大语言模型能够说出苹果从桌上推下去会滚落因为重力。这句话是正确的。但它说对这句话走的路径是训练数据里苹果与滚落、重力高度共现——所以这个词序列的概率最高。它没有任何关于重力的物理直觉没有任何物体在斜面上运动的视觉经验。它不知道重力是什么感觉。用一个比喻来说一个从未走出过图书馆的人读过所有关于游泳的书籍能准确描述自由泳的每一个动作要领甚至能指出初学者常犯的错误。但当他第一次跳进泳池他会溺水。因为真实的水与书页上的描述之间隔着一整个身体的经验。大语言模型永远在岸上。五、这是人与AI最深的边界有人可能会说这不过是程度的差异随着技术进步终将弥合。但我认为这是一个结构性的差异不是工程问题。即便给大语言模型接入摄像头、麦克风、机械手臂它所获得的也是传感器数据的数字编码而非人类那种在存活压力下与环境磨合出的具身经验。人类的理解是有代价的——疼痛的代价、饥饿的代价、失去的代价。正是这种代价让概念有了真实的重量。大语言模型可以学到所有关于失去的诗句可以输出关于悲伤的精准描述但它从未失去过任何东西。这不是遗憾而只是事实。人理解世界然后用语言描述它。大语言模型学习语言然后模拟描述它的样子。前者的语言有根后者的语言悬空。这一行字的距离也许是当下人与AI之间最诚实的边界。