就在今天凌晨阿里最新一代千问大模型Qwen3.5-omni来了仅激活19B参数就在音频和视听理解基准上超越 Gemini-3.1 Pro就在今天凌晨阿里最新一代千问大模型Qwen3.5-omni来了仅激活19B参数就在音频和视听理解基准上超越 Gemini-3.1 Pro整体感受上有三大亮点。首先就是它的“音频-视觉氛围编码”能力。据X上Qwen官方账号介绍它是一款自然涌现视听Vibe Coding 能力、内置网页搜索和复杂函数调用的模型。当你向镜头口述新冒出的点子Qwen3.5-Omni-Plus 便能立即构建一个功能齐全的网站或游戏。如果你要出门旅行可以和它视频它能帮你确认带的衣服适不适合出行目的地的天气。其次Qwen3.5-omni系列是真正的原生全模态AI模型。对于纪录片、电影、游戏视频和生活短视频无论是主题概述、剧情大纲画面场景、人声对白还是视听风格Qwen3.5-omni都能分析得明明白白。它还支持类人对话能理解你的真实意图可以像人一样自由控制声音的大小、语速与情绪还能克隆你的音色。最后拥有超长上下文和多语言识别能力。X上一枚歪果仁不禁感叹“阿里巴巴和 Qwen3.5 正在大放异彩。来看看这些多模态基准分数”有人评论“Qwen3-Omni 是首款在视频、文本、音频和图像方面均具优异表现的型号。”还有位土耳其大哥说“中国又一次做到了”Qwen3.5-Omni这么厉害是如何做到的从技术上看Qwen3.5-Omni有四点改进值得关注他们研发了自己的音频Transformer AuT、音频Token 速率降低至 12.5 Hz、Talker 输入的组织方式采用了自适应速率交错对齐ARIA与音频合成采用多码本语音合成Multi-Codebook Speech Synthesis。Qwen3.5-Omni延续了上一代的 Thinker-Talker 分工架构并将Thinker和Talker两部分都升级为 Hybrid-Attention MoE。在架构中Thinker 负责理解通过 Vision Encoder 和 AuT 接受视觉和音频信号输入处理全模态信号并输出文本。在此之前Qwen使用 OpenAI 的 whisper 作为他们的音频编码器但现在Qwen团队研发了自己的音频 TransformerAuT。AuT 在语音识别和通用音频理解任务上都进行了训练这使得它更加通用。在AuT的注意力层之前音频滤波器组特征会通过 Conv2D 模块进行 8 倍下采样从而将 Token 速率降低至 12.5 Hz。12.5 Hz 的频率至关重要——这意味着一个音频Token代表 80 毫秒的音频。较低的Token 速率等于更少的计算量因此支持流式传输。由于 chunk-wise 的流式输入设计和流式 Talker 设计整个模型可以进行实时交互。Talker 负责表达通过接收来自 Thinker 的多模态输入以及文本进行 contextual 语音生成语音表征通过 Qwen3-Omni 提出的 RVQ 编码来替代繁重的 DiT 运算。不同于上一代 Qwen3-Omni 的双轨 Talker 输入Talker 在输入的组织方式上采用了ARIA这能避免由于文本与语音 Token 编码效率差异导致的语音不稳定性让表达和发音更准确。此外声音听起来像人类的关键在于多码本语音合成第一个码本捕捉粗粒度语音内容后续码本捕捉音色、韵律、情感、说话者身份内容。通过这项技术Talker 不是生成原始音频而是生成离散代码这些代码会被解码成波形。同时千问团队将旧版的慢速扩散解码器替换为轻量级的卷积神经网络ConvNet语音延迟极短可以进行实际对话。实测确实夯爆了光说不练假把式我们直接实测1.多模态分析能力最近“这是鸡那么这是××”的抽象测试风靡网络直接让Qwen3-Omni来揭示谜底我问我们将进行谜底测试请你给出视觉内容、推理过程、以及最终谜底经过超长无比的推理之后千问终于给出了它的答案“照相机”。而我们的ChatGPT的直接给出了“吉祥”的回答。你觉得正确答案是哪一个呢2.超详细视频脚本根据Qwen3.5-Omni 在X上的推文其中一个非常重要的功能就是能够生成带有时间戳、场景剪辑和扬声器映射的详细视频脚本。不得不说看到千问给的案例确实非常精彩小编自己也上手测了下确实很夯3.音视频编程如果说上面的功能是夯那么下面这个只能是夯爆了真的有人不想体验一下言出法随吗对着镜头说需求Qwen3.5-Omni-Plus 直接生成可运行网页或小游戏例如下面的贪吃蛇短短几分钟就可以直接上手试玩了。Qwen3.5-Omni生成贪吃蛇小游戏可谓是易如反掌在油管上也有网友第一时间进行了测评并且评价它“The Most Powerful AI Ever Built”当然除了以上的功能之外还能够识别识别113种语言、语义打断、音色克隆等等功能大家可以亲自上手试用一下~地址小编也帮大家扒下来了https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Offline-DemoQwen3.5正在重新定义AI的走向进入2026以来相信关注Qwen的朋友能有一个明显的体感在让大模型进入“参与世界”的执行层面阿里团队可以说不遗余力。单拿这次的Qwen3.5-Omini来看就能明显看出三点方向。首先是人机交互的重写。单一的键盘输入正在让位于语音、视觉与上下文的实时协同表达。紧接着被重构的是创作门槛过去无论是写代码、剪视频还是做内容都依赖专业技能的积累而现在表达能力本身正在变成生产力本身谁能把需求讲清楚谁就更接近完成创作。再往下看Qwen显然正在致力于Agent真正落地。当一个模型同时具备多模态理解、实时交互和工具调用能力它就不再只是一个模型而是一个可以持续运行、持续执行任务的智能体。因此把以上这些串起来看就会发现Qwen3.5-Omni带来的变化不止只是一个“更强的叙事”而是一个更完备的Agentic 模型冲锋信号AI正在获得对世界的完整感知能力并开始具备直接行动的能力。这可能是这次Omni模型发布给业界带来最大的惊喜吧Agent时代国产模型都有着怎样的发展思考相信在接下来的几个月大家就会得到答案。Lets Scaling up to AGI参考链接https://x.com/Alibaba_Qwen/status/2038636335272194241https://qwen.ai/blog?idqwen3.5-omni