所谓的 MOE,说白了就是“三个臭皮匠,顶个诸葛亮“的 AI 版
所谓的 MOE说白了就是三个臭皮匠顶个诸葛亮的 AI 版——别被那些混合专家的英文缩写唬住了今天给你讲透它是怎么省钱的说实话看到MOE这三个字母的时候很多人的第一反应是懵的。混合专家模型Mixture of Experts。听起来像是某个学术大牛在讲台上吐出来的高深词汇对吧但如果你耐着性子往下看你会发现这玩意儿不仅不复杂而且跟你每天去菜市场买菜、去医院看病的逻辑一模一样。先说答案。如果考试题问你 MOE 的核心是什么记住这几个字分而治之按需激活。选这个别犹豫。选错了我也没办法虽然我以前兜过底但这次你自己来。一、什么叫 MOE说人话版本别管论文里那些数学公式。我用一句话告诉你 MOE 是什么MOE 就是不养闲人的 AI。传统的 AI 模型像什么 GPT-3 或者早期的那些大家伙它是全才。你问它数学它用全部的脑细胞回答你问它写诗它还是用全部的脑细胞回答。不管问题难不难它都全力以赴。这有什么问题费电。费钱。反应慢。MOE 的思路变了。它把一个大模型拆成了成千上万个小专家。有的专家擅长数学有的擅长写代码有的擅长翻译有的擅长讲笑话。当你问一个问题时模型里有一个门卫也就是 Router路由器先看一眼你的问题“哦这是个数学题。数学专家你上。其他人休息。”结果就是 模型虽然很大知识库很大但每次只动用一小部分脑子。又快又准又省钱。这就叫 MOE。二、为什么非要用它好问题来了。既然拆成专家这么好为什么以前不用因为以前算力便宜大家不在乎。现在不一样了。现在的模型动不动就是万亿参数。你让一个万亿参数的模型回答今天天气怎么样就像让爱因斯坦去算 11 等于几。杀鸡用牛刀不仅浪费而且牛也很累。我上个月跟一个在阿里的朋友老李吃饭。他在做模型部署。他跟我抱怨“现在的模型太贵了用户问个问题我要烧掉好几厘钱的电。用户多了我底裤都要赔掉。”我说“那你用 MOE 啊。”他说“用了啊。不用 MOE 我早就破产了。”你看这就是现实。MOE 的出现不是为了什么人类智慧的升华纯粹是因为太贵了用不起。这不丢人。在工程世界里能活下来比什么都重要。那些还在死磕单体大模型的如果不是家里有矿就是在做慈善。三、跟单体模型比它牛在哪这道题通常会有个干扰项说什么MOE 训练更简单。那是扯淡。MOE 的训练比单体模型难得多。你要协调这么多专家还要训练那个门卫别派错人。如果门卫派错了——你问数学题它派了个写诗的专家——那结果就是一场灾难。MOE 真正的优势只有两个推理成本低刚才说了按需激活。你只为你用到的部分买单。知识容量大你可以无限加专家模型越来越大但推理速度不慢。这就好比一家医院。你可以有无限多的专科医生容量大但每个病人进来只需要看一个医生成本低。如果你非要搞一个全能医生他什么都会但他看病一定慢而且一定贵。四、一个让你彻底明白的例子想象你在做一个客服系统。没有 MOE 的时候用户问“我的快递到哪了”系统调动整个大脑思考了 0.5 秒回答“在路上了。”系统内心我明明只用了 1% 的能力你却让我跑了全程。有了 MOE 之后用户问“我的快递到哪了”门卫一看“物流问题。物流专家上”物流专家瞬间回答“在路上了。”耗时 0.01 秒。电费省了 99%。这就是 MOE。它不神奇它就是精细化的管理。把合适的人放在合适的位置上干合适的活。听起来是不是很像你公司里那个最会管人的老板五、这道题的坑在哪里再看一眼这道题的常见坑点坑 AMOE 不需要训练错。它需要训练两个东西专家和路由。路由训练不好就是人工智障。坑 BMOE 的参数量一定比单体小错。MOE 的参数量通常更大。因为专家多。只是激活的参数量小。这点一定要分清。总人数和上班人数是两码事。六、一句话总结MOE 的本质就是 AI 领域的降本增效。它承认了全知全能是不现实的也是不经济的。它选择了一条更务实的路虽然我不是每时每刻都聪明但我可以在你需要的时候聪明得刚刚好。这就够了。“在这个算力比金子还贵的时代懂得’偷懒’的技术才是好技术。”