怎么跟 AI 协作不翻车？——AI 说的话，你该信几分

张

张建站

2026/4/8 10:04:26

10分钟阅读

这是「AI是怎么回事」系列的第 14 篇。我一直很好奇 AI 到底是怎么工作的于是花了很长时间去拆这个东西——手机为什么换了发型还能认出你ChatGPT 回答你的那三秒钟里究竟在算什么AI 为什么能通过律师考试却会一本正经地撒谎。这个系列就是我的探索笔记发现了很多有意思的东西想分享给你。觉得不错的话欢迎分享关注。上一篇我们搞清楚了一件事Prompt Engineering 不是玄学而是给 AI 更精准的上下文让它的模式匹配更精准。但掌握了怎么跟 AI 说话之后紧接着一个更重要的问题就来了——AI 说的话你该信几分我见过两种人一种把 AI 当神谕——它说什么就信什么连引用的论文都不查。结果呢2023 年纽约律师 Steven Schwartz 提交了一份法律文书引用了 6 个判例全部是 AI 编造的。他甚至问了 ChatGPT这些判例是真的吗ChatGPT 说是的。法官罚了他 5000 美元。到 2025 年全球已有超过 100 起类似的法律文书造假事件涉及 128 名律师。一种把 AI 当玩具——觉得它不靠谱从来不用。结果呢2024 年 Google 的内部实验显示使用 AI 工具的开发者完成任务速度平均提高了 55.8%微软、埃森哲等公司对近 5000 名开发者的研究发现使用 GitHub Copilot 的开发者生产力有显著提升。不用 AI你在跟一个每天多出 2 小时的人竞争。两种都错了。正确的定位是AI 是一个能力很强但完全不靠谱的实习生。能力很强——它读过几乎整个互联网的文本写代码、翻译、起草文档的速度比你快 10 倍。完全不靠谱——它会一本正经地编造事实而且编的时候比说真话还自信。MIT 在 2025 年 1 月的一项研究发现AI 在生成错误信息时使用肯定毫无疑问等高置信度词汇的概率比生成正确信息时更高。你不会让一个什么都敢说、说错了毫无愧疚的实习生替你做决策。但你也不会因为实习生偶尔出错就不让他帮你整理资料。关键是知道什么时候用他什么时候盯着他。这就是这篇文章要给你的——四条有原理支撑的 AI 协作原则。不是技巧而是原则。技巧会过时原则不会——因为它们建立在 AI 的底层原理之上。还记得第 11 篇的三问判断法吗这个任务能转化为模式匹配吗训练数据够不够你能验证 AI 的输出吗这三个问题不只是用来判断 AI 新闻的。它们同样适用于判断——你应该把哪些工作交给 AI。初稿生成写邮件、起草报告、生成文案——AI 训练数据中有海量的此类文本模式匹配精度很高信息整理从一堆资料中提取要点、做总结、列大纲——这是经典的模式匹配任务代码框架写常见功能的代码、搭建项目结构——代码是 AI 训练数据中最标准化的内容之一翻译和改写语言转换、调整语气、格式转换——语言对是训练数据中最丰富的模式之一探索可能性头脑风暴、列出方案选项——AI 能快速遍历它见过的所有相关模式事实核查确认一个数据是否准确、一个引用是否存在——AI 不区分真假第 7 篇、第 9 篇关键决策医疗诊断、法律判断、重大投资——这些需要因果推理和责任承担价值观判断伦理问题、人际关系建议、涉及个人价值取向的选择——AI 没有价值观只有统计模式回到第一章的核心结论AI 是超级模式匹配器。适合 AI 的任务共同特征是什么它们都可以被转化为在已有数据中找到类似模式然后输出。初稿生成是匹配什么样的文字在这个语境中最常出现代码框架是匹配什么样的代码结构最常被用于这类功能翻译是匹配这个词在目标语言中最常对应的是什么。不适合 AI 的任务共同特征又是什么它们需要的不是找到类似的模式而是理解这个具体情境的独特性。医生判断一个症状是心脏病还是焦虑发作不能只靠这个症状组合在训练数据中最常对应什么疾病——他需要理解这个病人的具体病史、生活方式、检查结果之间的因果关系。模式匹配型任务 AI 强项。理解型任务 AI 弱项。这不是 AI还不够好的问题——这是当前架构的根本特征。还记得第 12 篇的 AI 认知三角吗只要 AI 的底层仍然是统计模式匹配这个区分就永远成立。我知道你可能想AI 不是在变好吗幻觉问题不是在解决吗确实在变好。2024 年顶尖模型在标准化测试中的幻觉率降到了大约 1.2%。到 2025 年Google 的 Gemini-2.0-Flash-001 把这个数字压到了约 0.7%。听起来很低对吧但这里有几个关键的但是。但是一这些数字是在标准化测试上测出来的。换到专业领域数字就完全不一样了。斯坦福大学 2025 年发表在《实证法律研究期刊》上的研究发现即使是专门的法律 AI 工具包括 LexisNexis 和 Westlaw幻觉率也高达 17% 到 33%。医疗领域最好的模型仍然会在 1.5% 到 20% 的病例中产生临床相关的幻觉。但是二新一代推理模型反而可能更容易幻觉。OpenAI 的 o3 模型在涉及人物的问题上幻觉率高达 33%是前代模型 o1 的两倍。更强的推理能力反而带来了更高的编造风险——因为模型在推理的过程中会生成更多中间步骤每个步骤都是一次可能出错的预测下一个词。但是三0.7% 看着小但乘以使用量就不小了。如果你每天跟 AI 对话 100 轮0.7% 意味着每天大约有 1 次输出包含虚假信息。一周就是 5-7 次。而且你很难发现——因为这些虚假信息被包裹在 99.3% 的正确信息里而且 AI 说错话时比说对话时更加自信。AI 幻觉不是学术概念它已经造成了真实的后果。法律领域除了开头提到的 Schwartz 案2024 年马萨诸塞州又一位律师因为提交 AI 生成的虚假判例被法院制裁。2025 年加州一位律师因为提交的上诉状中 23 个引用有 21 个是假的被罚了历史性的高额罚款——他承认自己根本没读 AI 生成的文本就直接提交了。医疗领域2024 年一位 63 岁男性因为依赖 ChatGPT 的诊断建议延误了短暂性脑缺血发作TIA的诊断——这是一种中风的前兆。2025 年英国 NHS 的 AI 工具为一位患扁桃体炎的患者生成了一整套虚假的医疗记录声称他有冠心病和 2 型糖尿病并为他安排了糖尿病眼科筛查——他根本没有这些疾病。学术领域GPTZero 的分析发现NeurIPS 2025全球顶级 AI 学术会议收录的论文中至少 50 篇包含 AI 生成的虚假引用涉及数百条不存在的参考文献——这些论文都通过了同行评审。这个问题我们在第 7 篇和第 9 篇已经从原理上解释过了但值得再强调一次因为它是这条原则的根基。语言模型的优化目标是预测下一个最可能的词——不是预测下一个最准确的词。当你问 AI 一个问题时它做的不是回忆事实而是续写文字。续写的依据是统计概率在训练数据中这个上下文之后最常出现什么词关键在于「统计上最可能出现的词」和「事实上正确的词」经常是同一个——但不总是。当它们不一致时AI 会毫不犹豫地选择统计概率更高的那个即使它是错的。而且 AI 被训练成永远给答案而不是不知道就说不知道。这就是为什么 RLHF第 9 篇讲的人类反馈训练让 AI 变得更礼貌了但没有消除幻觉——礼貌和准确是两回事。一句话把 AI 的每一个输出都当成初稿而不是定稿。具体来说关键数据AI 给你一个数字去原始来源核实引用来源AI 给你一个论文标题或链接打开看看它存不存在代码逻辑AI 写的代码能跑不代表逻辑正确要审查核心逻辑专业建议AI 的法律、医疗、财务建议只能作为参考起点不能直接采纳不是所有内容都需要同等程度的验证。按风险等级分类——一封内部非正式邮件的措辞出了小问题后果很小一份提交给法院的文书出了错后果巨大。把精力集中在高风险内容上。2024 年的一项企业调查显示77% 的企业对 AI 幻觉表示担忧。知识工作者平均每周花数小时核查 AI 输出——这个时间是值得花的。验证不是对 AI 的不信任而是对这种协作方式的正确理解。你不会不审稿就发表一篇论文不会不复核就提交一份财报——AI 的输出也一样。很多人用 AI 的方式是这样的问一个问题 → 拿到回答 → 用或不用。这就像你给实习生布置了一个任务他交了第一版你看都不看就直接用了——或者看了一眼觉得不行就扔了。两种都浪费了。正确的方式是看了第一版告诉他哪里好哪里不好让他改。AI 非常擅长根据反馈修改。不是因为它理解了你的反馈——而是因为你的反馈给了它更精准的上下文。回到第 13 篇的核心结论Prompt 给 AI 更精准的上下文让模式匹配更精准。AI 第一次回答你的时候它只有你最初给的那些上下文。当你说这个部分太笼统了我需要更具体的数据这句反馈本身就成了新的上下文。AI 在生成第二版时不是在修改第一版——它是在一个更丰富的上下文中重新做模式匹配。每一轮反馈都在缩小 AI 的搜索范围。第一轮AI 在整个可能性空间里匹配你说要更专业可能性空间缩小了你说参考某某风格又缩小了一圈你说第三段逻辑不通应该先讲原因再讲结果再缩小。这就像调收音机的频率——每一次微调都让信号更清晰。不是收音机变聪明了是你帮它对准了频道。光说迭代有效太抽象了。让我用一个真实场景演示——假设你要给一款产品写发布公告。第一轮你随手给了一句指令。你帮我写一段产品发布公告。AI 的输出我们很高兴地宣布我们的全新产品正式发布这款产品集成了最先进的技术旨在为用户提供更高效、更便捷的体验。我们的团队经过数月的努力终于将这一创新成果呈现给大家......——标准的万能模板。换个产品名字就能用在任何产品上。这不是 AI 的错是你给的上下文太少了——它只能从产品发布公告这个模式里匹配出最平均的结果。你给了第一轮反馈太笼统了。我们的产品是一个面向小团队的项目管理工具叫 TaskFlow主打功能是 AI 自动分配任务目标用户是 5-20 人的创业团队。第二轮输出TaskFlow 正式上线了如果你的团队每天都在为谁来做这个任务纠结TaskFlow 可以帮你解决这个问题。我们的 AI 引擎会根据每位成员的技能、工作量和优先级自动分配任务。专为 5-20 人的创业团队设计......——好多了。有产品名、有具体功能、有目标用户。但还不够好——语气太正式了而且没有打动人的点。你给了第二轮反馈方向对了但开头太正式。我们的品牌调性比较轻松。而且要突出一个关键数据内测团队平均每周节省了 3 小时的开会时间。第三轮输出你上一次开会讨论这个任务谁来做是什么时候如果你在一个 5-20 人的小团队里答案大概是——今天。TaskFlow 的 AI 引擎干的就是这件事看你团队每个人手上有什么、擅长什么然后自动把任务分好。内测团队的反馈是——每周少开了 3 小时的会。省下来的时间干嘛随你。三轮下来从万能模板变成了一段有产品特色、有数据支撑、有品牌调性的文案。AI 变聪明了吗没有。它做的事情从头到尾都一样——预测下一个最可能的词。变的是你给它的上下文从产品发布公告这 6 个字变成了包含产品名、功能、用户画像、品牌调性、关键数据的丰富语境。更多上下文更窄的概率分布更精准的输出。第 13 篇的公式在这里直接兑现了。第一轮给 AI 清晰的需求 → 拿到初稿第二轮审查初稿给出具体反馈 → 拿到改进版第三轮微调细节确认事实 → 拿到接近终稿的版本最后你做最终润色和判断 → 定稿通常经过 2-3 轮迭代AI 的输出质量会有质的提升。但注意——每一轮的审查和判断必须是你做的。AI 不知道什么是好你知道。你的判断力是整个流程的核心。但我不想花时间迭代我想 AI 一次就给我完美的结果。理解这个想法。但想一想你有没有遇到过一个人你跟他说了一句话他就完美地理解了你所有的需求、偏好、标准一次就给出了完美的成果人做不到的事AI 更做不到。AI 能做到的是迭代的速度极快。人需要几个小时修改一版AI 只需要几秒钟。所以迭代三轮的总时间可能比你自己从零开始写还要短得多。你花在迭代上的时间不是 AI 浪费的——是你节省的。1970 年代电子计算器开始普及。你猜当时的人怎么说的计算器会让人忘记怎么算数以后没人会做数学了依赖计算器是智力退化五十年过去了计算器替代了计算这个动作——但数学思维不仅没有消失反而因为计算负担的减轻而发展得更快了。数学家不再需要花大量时间做繁琐的运算他们可以把精力放在更重要的事情上提出问题、构建理论、验证猜想。AI 和计算器是同一个故事的新版本。AI 替代的是执行——生成文字、写代码、翻译文档、整理数据。AI 不能替代的是思考——定义问题、判断质量、做决策、承担责任。这又要回到 AI 的本质。AI 是模式匹配器——它从训练数据中找到统计模式然后输出最可能的结果。但最可能的结果和最好的结果不是一回事。最好的结果取决于你的具体情境——你的目标、你的约束、你的偏好、你的价值观。这些东西不在 AI 的训练数据里也不可能在。只有你知道。这就是为什么 AI 可以帮你列出 10 个方案但不能帮你选出最适合你的那个。它可以帮你写出一封措辞完美的邮件但不能判断这封邮件现在该不该发。它可以帮你整理出所有的法律条文但不能替你决定要不要打这场官司。AI 最大的价值不是替你做事而是加速你做事。它释放的是你的执行负担让你把时间和精力用在真正需要人类判断力的地方。心理学上有一个概念叫自动化偏见automation bias——人类天然倾向于过度信任自动化系统的输出即使这个输出是错的。2025 年 Springer 发表的一项系统综述分析了 35 项相关研究发现了一个令人警醒的结论当 AI 给出错误建议时低经验用户的准确率从 78.3% 暴跌到 21.4%——也就是说面对 AI 的错误建议近 80% 的新手会跟着错。即使是高经验者准确率也从 82.3% 下降到了 45.5%。更反直觉的是可解释 AIXAI有时反而会加剧自动化偏见而非减轻它。有时候AI 提供的解释反而增强了用户对错误建议的信任——因为它不仅给了答案还解释了原因让人觉得更可信了。乔治城大学安全与新兴技术中心CSET在 2024 年 11 月的政策报告中指出「自动化偏见是 AI 安全中一个被严重低估的风险。随着 AI 系统变得越来越像人用户越来越难以保持必要的怀疑态度。」对策只有一个保持你的判断力在线。不要因为 AI 说了一个听起来合理的答案就关闭你的批判性思维。AI 越自信你越要多想一秒。说了四条原则让我们看看它们在实际工作中是怎么协同运作的。假设你需要写一份项目提案向公司申请预算做一个新产品。不要直接跟 AI 说帮我写一份项目提案。先想清楚这份提案要说服谁老板投资人技术团队核心论点是什么市场机会技术可行性成本效益对方最关心什么ROI风险时间线有什么约束条件预算上限人力限制时间节点这些是 AI 无法替你想的。这些决定了提案的方向——方向错了AI 写得再好也没用。现在把你想好的需求变成一个详细的 Prompt用上第 13 篇学到的技巧我需要写一份项目提案向 CTO 申请 50 万预算开发一个内部数据分析平台。CTO 最关心技术可行性和 ROI。请用以下结构生成初稿1问题现状2解决方案3技术架构高层级4预算分解5预期收益6时间线。语气专业但不死板控制在 2000 字以内。这是一个模式匹配任务——AI 训练数据中有大量的项目提案模板和商业文档。它能生成一个结构完整、格式专业的初稿。AI 给了你初稿。现在你要做的不是直接用而是审查事实性检查AI 提到的市场数据准确吗技术方案可行吗预算估算合理吗——如果 AI 给了具体数字去核实。逻辑检查论证链条通顺吗有没有跳步CTO 可能会问什么问题提案里有没有回答适配性检查语气适合你们公司的文化吗有没有你们行业的特殊考量然后把你的反馈告诉 AI第一部分的问题描述太泛了我们目前的痛点是分析师每周花 20 小时手动整理数据请围绕这个具体痛点重写。第四部分的预算分解需要更详细按人力成本、基础设施成本、第三方工具成本分开列。AI 根据你的反馈生成了第二版。你再看好多了但第五部分的 ROI 计算需要更保守的假设你比 AI 更了解你们公司的实际情况。反馈给 AI再改一版。通常 2-3 轮之后你就有了一份质量很高的提案——但最终润色是你做的。你加上只有你知道的内部信息调整只有你能判断的措辞分寸删掉 AI 不知道的敏感内容。短期内不会。原因我们在第 12 篇详细讨论过——当前 AI 架构有根本性的局限。这里补充两个最新的研究结论第一2025 年的研究提供了数学层面的证明大语言模型的幻觉是其架构的固有特性而非可以通过更多训练消除的缺陷。大语言模型无法学习所有可能的可计算函数——这意味着不管训练多少数据、参数多大完美准确都是数学上不可能的。第二业界的预测是按照目前每年约 3 个百分点的幻觉率下降速度AI 可能在未来几年将幻觉率降至接近零——但这依赖于持续的研究突破而且接近零不等于零。就像杀毒软件的病毒检测率可以接近 100% 但永远到不了 100% 一样。所以AI 会继续变好但验证信任这条原则在可预见的未来不会过时。等到有一天 AI 真的可以完全信任了——你会知道的因为那将是一个改变人类历史的技术突破不可能悄无声息地发生。这是一个非常实际的问题。几个方法方法一按风险等级分类。不是所有内容都需要同等程度的验证。一封内部非正式邮件的措辞出了小问题后果很小一份提交给法院的文书出了错后果巨大。把你的精力集中在高风险内容上。方法二关注 AI 最容易出错的地方。根据研究数据AI 最容易出错的是具体的数字和日期、人名和机构名、论文引用和链接、因果关系的论证、罕见话题的专业细节。这些是你核查的重点。方法三交叉验证。关键信息不要只靠 AI 一个来源。用搜索引擎查一下看看官方文档怎么说问问领域专家的意见。方法四注意 AI 的自信程度。记住 MIT 的发现——AI 越自信的时候越可能在编。当 AI 用特别笃定的语气说一件你没听说过的事那恰恰是你最应该去核实的时候。写第 7 篇的时候我让 AI 帮我查 Steven Schwartz 案件的细节——法官姓名、罚款金额、时间线、涉及哪些虚假案例。AI 给了我一整套看起来无懈可击的信息法官 Kevin Castel罚款 5000 美元2023 年 6 月 22 日判决并列出了几个被捏造的案例名称。法官名字是对的。罚款金额是对的。日期是对的。但 AI 列出的那些被捏造的案例名称——有几个本身就是它现编的根本不在法庭文件记录里。你品品这个讽刺我让 AI 告诉我AI 编造了哪些假案例结果它在回答里又编造了新的假案例。如果我没去核实这个错误就会出现在你正在读的文章里。而且你大概率不会发现——因为它的格式、语气、自信程度和正确的信息毫无区别。这就是原则二存在的原因。不是因为 AI 经常出错——而是因为它出错的时候你分不出来。那一刻让我意识到一件事AI 协作的本质不是学会信任 AI也不是学会怀疑 AI——而是学会在信任和怀疑之间找到那条精确的线。四条原则就是那条线。如果你也试过这样和 AI 协作你可能会发现因为 AI 接管了那些重复性的执行工作你反而有了更多时间去做真正需要人类判断力的事。这大概就是人机协作的正确姿势——不是 AI 替代你也不是你忽视 AI而是你们各自做自己最擅长的事。文章转载自我没有三颗心脏原文链接https://www.cnblogs.com/wmyskxz/p/19706106体验地址http://www.jnpfsoft.com/?from407