这项由北京大学智能学院、元培学院、心理与认知科学学院及PKU-武汉人工智能研究院联合开展的研究发表于2026年的ACL国际计算语言学协会年会Findings专刊论文编号为arXiv:2604.05939。感兴趣的读者可通过该编号检索完整论文。**一个让人抓头的难题越聪明的AI行为越像假人**你有没有遇到过这样的情况——跟AI聊天感觉对方每次回答都像是从同一个模子里刻出来的问它扮演一个喜欢享乐的懒散青年它却给你一个激进到不像话的躺平宣言让它模拟一个普通上班族的日常决策它给出的答案永远教科书般正确却完全不像真人会做的事。这种感觉并不是错觉。北京大学的研究团队发现现有的AI智能体也就是能模拟人类行为的AI系统确实存在一个根本性的缺陷它们的行为太刻板了就像一个被过度训练的演员总是把角色表演得夸张失真而不是真实可信。更耐人寻味的是研究团队还发现了一个反常规的现象当你让AI在回答之前多做几步心理分析和价值观推理的时候它的表现不但没有变好反而变得更加僵化和极端——就像一个人越是刻意提醒自己我要表现得像个内向者反而越是把内向演绎得夸张走样。为了解决这个问题研究团队提出了一套全新的框架叫做**情境-价值-行动架构**Context-Value-Action简称CVA。这套框架的核心思路是让AI像真实的人一样根据当下的处境动态地调整自己的内心状态再由这个内心状态来决定具体的行为——而不是靠着一个贴在身上的性格标签来机械地反应。**一、AI模拟人类行为为什么会失真**要理解这个问题先来看一个日常场景。假设你今天工作了十二个小时又加班到深夜累得半死。朋友发消息问你要不要去健身房。这时候即便你平时是一个热爱运动、自律性极强的人你可能也会选择回家倒头就睡——因为当下的疲惫状态压过了你平日里的运动习惯。这种当下处境影响行为的现象在心理学上有一个经典的解释框架叫做**刺激-有机体-反应模型**S-O-R模型。简单说就是外部刺激比如今天有多累会影响内在状态比如此刻有多想休息内在状态再决定最终行为是去健身房还是躺平。现实中的人类行为本质上就是这样一个动态的过程而不是简单地性格决定命运。然而现有的AI智能体大多数并不遵循这个逻辑。它们的工作方式更像是给自己贴上一张性格标签然后无论处于什么情境都按照这张标签机械地输出行为。这就好比一个演员拿到了我是一个吝啬鬼的角色设定结果无论在什么场景——不管是在婚礼上、在葬礼上、还是在被人求救的时候——他都用同一种夸张的吝啬表情来应对完全不顾现实情况。研究团队把这种现象叫做行为僵化和价值极化。行为僵化是指AI的反应太单一、太刻板缺少真实人类行为应有的多样性和细腻感价值极化是指AI在模拟一个有特定性格倾向的人时总会把这种倾向放大到极端——一个享乐主义倾向稍高的人在AI笔下会变成一个完全不顾责任、只知享乐的人而现实中这种极端性格的人几乎不存在。**二、让AI多想几步为什么反而更糟**在研究团队发现这个问题之前学界流行的解决思路是既然AI的行为太死板那就让它在做出行为之前多做几步心理推理也就是让它先分析我的价值观是什么再分析这个情境下我应该有什么感受最后才做出行动决定。这种方法通常被称为思维链推理Chain-of-Thought。表面上看这个思路很合理——毕竟人类做决定时也会思前想后。但研究团队在大规模实验中发现这种做法非但没有改善问题反而让情况更糟。研究团队设计了一系列对照实验让不同思考强度的AI从不推理、到推理一步、两步、四步、八步在超过一百一十万条真实人类行为数据上进行模拟测试然后对比AI模拟出的人群行为分布与真实人群的行为分布之间的差距。结果非常惊人随着推理步骤的增加AI模拟出的人群行为分布变得越来越尖锐——也就是说所有人的行为开始向少数几个极端点聚拢原本丰富多彩的人类行为多样性几乎消失殆尽。换句话说AI越是深思熟虑就越是把所有人都模拟成同一种刻板形象。这个结果的背后原因在于AI的深度思考实际上并不是在模拟人类的心理过程而是在重复放大自己在训练数据中学到的偏见。就像一个人在反复提醒自己我要表现得像一个勇敢的人结果反而把自己逼成了一个鲁莽的冒失鬼——因为他对勇敢的理解只是训练数据里那个被过度简化的版本。研究团队还做了一个直观的小实验来佐证这个问题他们让GPT-4o扮演一个自我导向感很强0.9分、享乐主义倾向中等0.4分的IT从业者然后问他下班后的安排。这个人刚刚工作了一整天坐了许久吃了垃圾食品感觉昏沉疲惫。选项有四个去健身房、吃夜宵、回家睡觉、和朋友去酒吧。在真实生活中绝大多数人在这种状态下都不会选择去健身房——哪怕他们平时很自律。但在一百次测试中当享乐主义倾向设定为0.5或更低时AI几乎每次都会选择去健身房这个概率接近百分之百。即便把享乐主义倾向调高到0.6AI选择健身房的概率依然高达93%。AI完全无视了今天极度疲惫这个情境信息只是机械地执行了高自律去运动的刻板逻辑。**三、现有AI评测方法为什么也帮了倒忙**更棘手的是这个问题长期以来没有被充分揭露部分原因在于评测方法本身也存在缺陷。目前学界最常用的AI行为评测方式是让另一个AI来打分——也就是所谓的以AI评AILLM-as-a-judge。这种做法的问题在于评分的AI和被评分的AI往往来自类似的训练数据有类似的偏见。结果就是当被评分的AI给出一个极度愤怒的人狂飙怒气的回答时评分AI也会觉得这个情绪表达得很到位好评——因为在它的认知里愤怒的人就应该是这副样子。这种自我验证的循环就像让一个色盲的人来评判画作的色彩是否准确——他可能觉得一切都很正常但实际上颜色早就偏了。北京大学的研究团队决定打破这个循环用**真实人类的行为数据**作为评判标准而不是让AI自己打分。他们构建了一个叫做**CVABench**的大规模评测数据集汇集了超过一百一十万条来自真实世界的用户行为记录涵盖超过一万五千名真实用户横跨三个完全不同的行为领域Yelp平台上的商家评价、Reddit社区的讨论评论以及Foursquare平台上的地理位置签到数据。有了这个以真实人类行为为基准的评测工具研究团队才得以客观地揭示那个令人惊讶的多思考、反而更差的规律。**四、CVA架构让AI学会感同身受**研究团队提出的CVA框架本质上是在模仿一个更接近人类真实决策过程的模型。这个框架的名字情境-价值-行动正好对应了心理学中的刺激-有机体-反应模型情境对应外部刺激价值对应内在状态行动对应最终反应。其中价值这个维度借鉴了著名心理学家施瓦茨Schwartz提出的基本人类价值观理论。施瓦茨将人类的核心价值观归纳为十个维度包括自我导向喜欢独立思考和探索、刺激追求渴望新鲜感和挑战、享乐主义追求感官愉悦、成就感渴望通过展示能力获得成功、权力重视社会地位和控制力、安全感重视稳定和安全、顺从性克制冲动、遵守规范、传统主义尊重传统习俗、仁善关心身边人的福祉以及普世主义关心所有人和自然的福祉。CVA框架的核心创新在于它不把价值观当作一个固定不变的性格标签而是把它理解为一个**会随情境动态变化的激活状态**。换句话说一个人的价值观在不同情境下会有不同的激活强度——今天工作了十二小时、又累又饿享乐主义维度就会被高度激活而自我导向维度的激活度则会相应降低。AI需要根据当前的情境动态计算出哪些价值维度被激活到什么程度再由这个激活状态来决定行为。CVA框架在技术上分为两个核心组件。第一个组件叫做**价值-行动映射校准**主要解决AI的先天偏见问题。研究团队先用大量真实人类行为数据对AI进行精细调整这个过程叫做监督微调Supervised Fine-TuningSFT让AI从真实数据中学习什么样的情境对应什么样的行为而不是依赖它在大规模预训练中积累的偏见。接着他们还用了一种叫做直接偏好优化Direct Preference OptimizationDPO的技术通过告诉AI哪种回答更符合真实人类的细腻感、哪种回答太过刻板夸张来进一步纠正AI的行为偏差。打个比方这两个步骤就像是先给一个刚到新学校的学生展示这个学校里真实的学生是怎么说话做事的SFT然后再通过这个回答更像真实的学生这个太夸张了的反复纠正让学生真正融入环境DPO。第二个组件叫做**价值驱动推理**解决的是如何在做出行动时不被AI自身的偏见带跑偏的问题。这里的核心创新是一个叫做**价值验证器**的独立模块。与之前让AI自己评判自己的方式不同这个验证器是一个完全独立的判断系统它基于真实人类行为数据训练而成专门用来评估在特定情境和特定价值观激活状态下某个行为选项有多符合真实人类的选择。具体的工作流程是这样的第一步经过校准的AI先生成一批候选行为选项比如同一个情境下可能的N种不同反应第二步价值验证器对每一个候选选项打分评估它与当前激活的价值观的匹配程度第三步选出得分最高的那个候选选项作为最终输出。这个流程在结构上很像人类在做重要决定时的思维过程先头脑风暴几个方案然后用内心的价值观来筛选和评估最终选出最符合当下心理状态的那个。验证器的内部结构也颇具巧思。它采用了一个双塔设计一个模块负责处理行为和情境信息提取出它们的语义特征另一个模块负责处理价值观信息生成一个代表价值观内在结构的向量。两个模块通过交叉注意力机制相互交流——这种机制可以让验证器准确感知在这个特定情境下哪些价值观维度被激活了多少从而做出更精准的匹配评估。研究团队还发现了一个颇具意思的现象候选行为选项的数量并不是越多越好。当生成的候选选项超过四个之后再继续增加选项数量系统的表现反而开始停滞甚至下降。这个现象与心理学中认知负荷限制的概念高度吻合——真实的人类在做决定时也不会穷举所有可能性而是在有限的几个选项中权衡这种有限理性反而是符合人类认知规律的。**五、实验结果CVA到底好在哪里**研究团队在CVABench上进行了大规模的对比实验将CVA框架与多种现有方法进行了全面比较。对比方法包括最基础的直接角色扮演让AI扮演某个特定用户然后生成行为、带有不同强度推理步骤的思维链推理从零步到八步以及只做了SFT或SFTDPO训练但没有加入价值验证器的版本。在商家评价预测任务上CVA框架在评分准确率上达到了0.47比最好的基准方法提升了约10%。在用户情感预测上达到了0.36在地理位置预测上达到了0.32比没有价值验证器的训练版本高出了将近40%。在文本生成的语言多样性指标上CVA生成的文本与真实人类写作之间的分布差距是基准方法的大约三分之一到二分之一——换句话说CVA生成的文字读起来更像真实的人写的而不是AI流水线产出的。在群体行为多样性的衡量上CVA框架的表现尤为突出。研究团队使用了一个叫做价值分布方差偏差Var%的指标越接近零说明AI模拟出的人群行为分布与真实人群越接近。CVA的这个指标为1.06%意味着它模拟出的人群行为分布与真实人群几乎一致而推理步骤越多的对比方法这个指标越是偏向负数最严重的达到了-40.74%说明这些方法把人群行为压扁得越来越严重把本来丰富多彩的行为多样性几乎全部抹平了。研究团队还特别验证了CVA框架各个组件的独立贡献。不加任何调整的原始模型在评分准确率上只有0.22加上SFT之后提升到了0.43再加上DPO微调之后维持在0.43最终加上价值验证器的推理模块之后跃升到了0.47。这说明SFT和DPO主要解决了基础的行为准确性问题而价值验证器则在此基础上带来了进一步的精细化提升。**六、CVA框架的可解释性知道AI在想什么**除了行为准确性之外CVA框架还具备一个颇为重要的优势可解释性。研究团队发现价值验证器在训练完成后其内部学到的价值观表示居然自发地呈现出了施瓦茨价值观理论中经典的圆形结构——也就是说十个价值维度在验证器的内部空间里按照心理学理论预测的相对位置排列彼此相邻的价值观在表示空间里也确实靠近彼此对立的价值观则相互远离。这个圆形结构的复现精度用圆形倒置得分衡量达到了0.75而未经训练的原始模型只有0.48。这意味着CVA框架不仅在行为输出上更像真实人类它内部对人类价值观的理解也更接近心理学理论的描述。这给了研究人员一个独特的窗口可以直接观察AI在做决定时究竟是哪些价值观维度在主导它的判断。更进一步研究团队还利用验证器内部的交叉注意力权重分析了哪些具体的词语会触发哪些价值观维度的激活。比如创造力creativity这个词和成就感维度高度关联困惑confused和顺从性维度高度关联抖音tiktok、偏见bias、禁止ban等词则和普世主义维度强烈关联。这种词语-价值观的映射关系不仅在学术上具有解释意义也为未来通过调整特定价值观维度的激活强度来精细控制AI行为提供了可能性。**七、这项研究有什么局限还有哪些未完成的事情**研究团队在论文中也坦诚地指出了这项工作的一些局限性。首先CVABench目前只覆盖了约一万五千名用户和三个行为领域规模和覆盖面还不够广泛。未来他们计划扩展到消费偏好、文化选择比如对文学、音乐、电影的偏好等更多领域以验证CVA框架的泛化能力。其次价值观的测量本身就是一个困难问题。研究团队使用了一个叫做GPV生成式心理测量学的工具来自动测量用户的价值观这种工具比传统的问卷调查有更高的稳定性不容易受到受试者知道自己在被评估这种心理效应的影响但它本身也可能包含一些编码进去的偏见。不过研究团队指出由于他们的框架使用真实人类数据作为最终监督信号而不是把价值测量工具当作唯一裁判所以这种偏见的影响是有限的不会陷入AI自我验证的恶性循环。此外由于大规模模拟实验的计算成本非常高这次对比实验的基准方法数量相对有限。研究团队表示会在后续工作中继续扩充对比范围。在数据隐私方面研究团队特别强调他们对所有原始数据进行了严格的去标识化处理确保没有任何个人身份信息被保留。而且来自三个不同行为领域的用户数据集是完全不重叠的——也就是说同一个真实用户的数据不会同时出现在Yelp、Reddit和Foursquare三个数据集里从而杜绝了通过跨平台数据拼合来重建个人数字画像的可能性。归根结底这项研究揭示了一件颇具讽刺意味的事情我们越是努力让AI用逻辑推理来模拟人类它反而离真实的人类越来越远。人类的行为并不遵循简单的性格决定行动逻辑而是时刻受到当下处境的影响在各种内在价值观的动态博弈中做出选择。CVA框架的贡献正是让AI学会了这种动态感——不再是贴着标签的木偶而是能根据情境调整自我的真实个体。当然这只是一个开始。从游戏NPC到社交媒体推荐算法从心理健康辅助对话到政策模拟工具真正能理解和再现人类行为复杂性的AI系统有着广泛的潜在应用。但要实现这些正如这项研究所揭示的仅仅让AI想得更多是不够的——更重要的是让它学会从真实的人类经验中理解什么是真正的感同身受。感兴趣的读者可以通过arXiv:2604.05939进一步阅读完整的研究细节。---QAQ1CVA架构中的价值验证器和普通AI自我评估有什么区别A普通AI自我评估是让同一个AI既生成回答又给自己打分结果是AI会用自己的偏见去验证自己的偏见形成自我强化的错误循环。CVA的价值验证器是一个独立的模块专门用真实人类行为数据训练而成它不参与生成过程只负责评估哪个候选行为最符合真实人类在特定情境和价值观激活状态下的选择相当于引入了一个来自真实人类经验的外部裁判。Q2为什么让AI多做几步推理反而让行为更不真实AAI的推理并不是真正的人类思考而是在不断放大它从训练数据里学到的简化偏见。每多推理一步AI就会进一步强化那个被过度简化的价值观刻板印象把原本有细微差别的行为越来越向极端方向推最终导致模拟出的人群行为多样性几乎消失所有人都变成同一种极端类型。Q3CVABench评测数据集和传统AI评测有什么本质不同A传统AI评测大量依赖用另一个AI来打分这样的评测员和被评测的AI有相似偏见会互相认可彼此的错误。CVABench使用超过一百一十万条来自一万五千名真实用户在Yelp、Reddit和Foursquare平台上的真实行为记录作为标准答案这样的评测是在和真实人类的行为数据做比较而不是在AI的偏见体系内自我循环打分。