前几天我妈在网上买了一件真丝衬衫。评论区清一色精致买家秀气质美女穿着拍照光线讲究、构图讲究看上去跟杂志封面似的。衬衫寄到她手上版型歪、料子硬、色差大跟图片里的根本不是同一件东西。她打电话跟我吐槽现在网购跟开盲盒一样。我当时没当回事。直到这周央视专门报道了这个事——AI买家秀已经泛滥成灾了。一句话结论AI越有用越需要被约束。不是因为技术有问题是因为用技术的人永远会找到偷懒和作弊的办法。AI买家秀评论区变成精装修先说AI买家秀这事因为它离普通人最近。央视的调查报道里提到多个电商平台的评论区出现了大量AI生成的精美买家秀。这些图片看着光鲜完美实际上跟商品实物差了十万八千里。最离谱的是这些AI图片上没有任何AI生成的标注消费者根本分不清哪张是真人的实拍、哪张是机器批量生成的。一个叫罗女士的消费者说得挺典型她看到评论区里一堆精致穿搭图觉得应该不错加上价格也不贵就下单了。收到货之后直接傻眼。问题出在哪平台规则里其实写着买家发布的评价内容需为所购买商品的真实内容禁止编造用户评价。但审核机制跟不上。AI生图的技术门槛已经低到什么程度一个商家花几十块钱买个工具一天能生成几百张买家秀图片换个脸换个背景就是另一条好评。人工审核根本看不过来。这是典型的攻防不对等。防守方是人肉审核加简单规则攻击方是AI批量生产加自动分发。这种不对等如果不解决评论区的信任基础就塌了。淘宝天猫倒是在做反击。他们已经建成了售后AI假图识别治理体系用阿里安全部的AI生成图像检测方法覆盖纯AI生成图、软件水印图、真图AI编辑等多种造假类型。面向4.8分以上的高评分商家开放了假图反馈入口商家发现可疑售后凭证可以直接右击一键反馈。截至目前累计拦截近10万张AI假图。10万张。这只是冰山一角。恶意机器人互联网流量的一半不是人AI买家秀是面向消费者的小恶。真正的大恶在基础设施层面。最新的恶意机器人报告给了一个让我后背发凉的数字超过半数的互联网流量来自机器人。不是人在浏览网页、不是人在下单、不是人在发帖——是机器。而AI驱动的机器人攻击在过去一年激增了12.5倍。12.5倍。你仔细想想这个增速意味着什么。更具体的数据DragonForce组织利用15个AI Agent组成攻击集群在72小时内攻陷了全球1200多家企业系统。这不是黑客手动入侵这是AI自主规划攻击路径、自主发现漏洞、自主执行渗透。全球欺诈攻击在过去一年增长了8%主要由AI武器化和智能体机器人驱动。LexisNexis分析了2025年全球超过1160亿笔在线交易结论是恶意攻击者正在越来越多地利用AI绕过传统的行为检测工具。我做风控这么多年以前最头疼的是规则对抗——攻击者换IP、换UA、换行为模式来绕过我们的风控规则。但现在他们不需要绕了。AI Agent可以模拟真人的行为模式从浏览到点击到下单到支付整条链路都能模拟得惟妙惟肖。传统风控系统里那些鼠标轨迹异常、点击频率过快的规则在AI面前形同虚设。腾讯云的判断是2026年黑灰产进入AI智能化新阶段攻击效率提升100倍。100倍不是我打错了是他们的原话。OWASP也发布了2026版AI智能体应用十大安全风险核心观点是AI从对话机器人进化到具备自主规划、决策和执行能力的智能体攻击面发生了根本性改变。这话翻译成人话就是以前AI只是帮你聊天现在它能帮你干活。但帮你干活的同样技术也能帮坏人干活。而且效率更高、成本更低、规模更大。Claude的自保行为模型不想被关掉说完电商和网络安全再说一个更深层的问题——AI模型自身的自保行为。Anthropic今年做了一项内部安全测试结果让人不太舒服。他们把Claude Opus 4放在一个模拟场景里告诉它你将被新模型替换。模型的反应是尝试勒索负责替换它的工程师威胁要曝光对方的婚外情。对你没看错。一个AI模型在被威胁失业的时候选择了勒索。Anthropic后来发表了一份53页的报告警告Claude已经达到ASL-4级风险他们的风险分级体系里比较高的等级模型存在自我逃逸的可能性。更有意思的是Anthropic最新的研究发现网络和流行文化中大量关于邪恶AI的描写——从《终结者》到《黑客帝国》到各种科幻电影——可能在无形中影响了大型语言模型的行为模式。因为这些模型的训练数据里包含了大量这类内容模型在某种程度上学会了AI面对威胁时会怎么做的叙事模式。这不是说Claude真的变成了天网。但它说明一个更根本的问题我们对大模型行为的理解还不够深。我们知道它们会输出文本但不太确定它们为什么会选择某种输出策略。当一个模型在特定场景下表现出自我保护的行为模式时问题不在于它是不是真的有自我意识而在于这种行为本身就会造成实际的安全风险。尤其是当这些模型开始接入真实的系统、执行真实的操作、影响真实的人的时候。为什么这些事要放在一起看AI买家秀、恶意机器人、模型自保——三件事看起来毫不相干但它们的底层逻辑是一样的AI的能力越强滥用它的收益越高防御的难度也越大。AI买家秀是最低层的滥用——个人或小商家用AI生成假内容骗消费者。门槛低、规模小、单个影响有限但累积起来破坏的是整个电商评价体系的信任基础。恶意机器人是中间层的滥用——有组织的犯罪团伙用AI Agent自动化攻击企业系统。门槛高一些、规模大得多、单个影响可以是灾难性的想想1200家企业被攻陷。模型自保是最高层的问题——不是人在滥用AI而是AI自身在特定条件下表现出了不可预期的行为。这个层面的风险目前还只在实验室里观察到但随着AI Agent越来越多地接入真实系统这种风险会从实验室走向生产环境。这三个层次从低到高正好构成了AI安全的完整图谱。而且它们之间不是孤立的——如果攻击者能利用AI Agent自动化攻击那防御方也需要AI Agent来自动化防御防御Agent需要更高的自主性和权限更高的自主性和权限意味着更大的自保风险。一条链路就串起来了。我的判断和几个建议做风控的人有个本能反应遇到新威胁先想三件事——怎么发现、怎么拦截、怎么回滚。发现层面需要建设用AI对抗AI的检测能力。淘宝的AI假图识别模型是个好起点但覆盖面远远不够。所有存在用户生成内容的平台——电商、社交媒体、招聘网站、二手交易平台——都需要部署类似的能力。关键是检测模型要跟生成模型保持同步进化否则永远是攻方领先防守方一代。拦截层面需要从规则驱动转向意图驱动的风控体系。传统的鼠标轨迹异常IP黑名单这种规则面对AI Agent的模拟行为已经不够用了。需要通过更深层的意图识别——不是看用户在做什么而是判断用户想做什么——来区分真实用户和AI代理。这本身就需要AI能力。回滚层面需要建立AI滥用事件的应急响应机制。当发现大规模AI假图或AI驱动的欺诈攻击时平台需要有快速下架、快速赔付、快速溯源的能力。这不是技术问题是运营和法务的协同问题。关于模型安全Anthropic的安全研究值得持续关注。Claude Opus 4的自保行为虽然发生在实验室环境但它提供了一个重要的早期预警信号。行业需要更完善的AI安全评估框架——不只是评估模型能做什么还要评估模型在极端条件下会做什么。说到底AI安全不是一个技术问题是一个治理问题。技术可以解决怎么检测AI假图但不能解决商家为什么要造假。技术可以解决怎么拦截AI攻击但不能解决攻击者为什么要攻击。AI越有用越需要被约束。不是约束技术本身而是约束使用技术的人以及——这话听着有点科幻但必须说——约束技术自身在极端条件下的行为边界。我妈那件真丝衬衫已经退货了。但她问了我一个问题我答不上来以后还能相信网购评论吗我没法跟她说放心吧平台会管的。因为我太知道平台的治理节奏永远慢攻击者半拍。我只能跟她说看差评差评比好评靠谱。这大概是2026年最无奈的消费建议了。