开发者朋友们大家好这里是「RTE 开发者日报」每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTEReal-Time Engagement 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」但内容仅代表编辑的个人观点欢迎大家留言、跟帖、讨论。本期编辑koki、鲍勃01 有话题的技术1、腾讯发布并开源混元世界模型 HY-World 2.0腾讯混元团队日前正式发布并开源了多模态世界模型 HY-World 2.0。该模型支持通过文本、图像和视频等多模态输入自动生成、重建并模拟可交互的完整 3D 世界。与以往仅生成像素级视频的模型不同HY-World 2.0 直接输出 Mesh、3DGS 和点云等真正可编辑且持久化的 3D 资产能够无缝导入 Unity、Unreal Engine 等主流游戏引擎进行二次开发。其不仅原生具备 3D 一致性还内置了支持物理碰撞和物理感知移动的交互式角色探索模式。目前官方已在 GitHub 和 Hugging Face 等平台开源了技术报告、WorldMirror 2.0 的推理代码与模型权重其余核心模块代码及权重也即将陆续释出。https://github.com/Tencent-Hunyuan/HY-World-2.0https://huggingface.co/tencent/HY-World-2.0橘鸦 Juya2、OpenAI 发布 Codex 更新集成 gpt-image-1.5支持视觉驱动的背景计算机操控OpenAI 宣布 Codex 完成多模态能力重构从单一的代码文本生成演进为「视觉-操作」闭环系统。新版本通过集成 gpt-image-1.5 模型与计算机操控Computer Use技术使智能体能够感知 UI 像素、自主跨应用执行任务并直接在开发工作流中生成与迭代视觉资产。像素级背景计算机操控Background Computer Use基于多模态视觉感知Codex 能够识别屏幕元素并驱动独立光标进行点击与输入。支持在 macOS 背景环境中多智能体并行操作无需 API 即可通过视觉反馈完成前端调试、应用测试及复杂 UI 交互。gpt-image-1.5 原生集成Codex 现支持在代码编辑器内直接调用图像模型。开发者可结合代码逻辑与屏幕截图生成并迭代产品原型图、前端视觉组件及游戏素材实现从代码到视觉资产的同环境转换。多模态交互浏览器与富媒体预览内置浏览器支持开发者在页面直接标注commenting以提供视觉指令侧边栏新增对 PDF、电子表格、幻灯片及文档的深度解析与预览增强了非文本类工程文档的上下文提取能力。长效记忆Memory与多模态自动化支持跨会话保留视觉偏好与操作修正记录。智能体可根据 Google Docs 评论、Slack 消息及 Notion 截图的多维上下文自动规划并执行跨度数周的长周期开发任务。MCP 插件体系扩展新增 90 多个插件支持通过模型上下文协议MCP整合 Atlassian Rovo、CircleCI、GitLab 等工具使智能体能够在视觉操作的同时通过标准化接口获取深度技术上下文。参考链接https://openai.com/index/codex-for-almost-everything/( OpenAI)3、OpenMOSS 开源音频统一理解模型 MOSS-AudioOpenMOSS 团队正式开源MOSS-Audio 音频统一理解模型。该模型通过模块化架构整合了语音识别、环境声感知、音乐分析及复杂音频推理能力实现了极高精度的词级/句级时间戳定位在多项音频理解基准测试中以 4B/8B 参数规模超越了更大尺寸的开源及闭源模型。DeepStack 跨层特征注入机制不同于传统仅提取编码器顶层特征的方案MOSS-Audio 选取编码器早期和中间层特征通过独立投影注入 LLM 前几层。该架构有效保留了韵律、音色、瞬态事件及局部时频结构等底层声学细节。显式时间感知表示Time Marker在预训练阶段按固定时间间隔插入显式时间标记使模型在统一文本生成框架下具备细粒度时间定位能力。其在 AISHELL-1 上的 AAS 指标35.77相比 Qwen3-Omni 和 Gemini-3.1-Pro 实现了数量级领先。13 维度细粒度语音描述能力支持对性别、年龄、口音、音高、音量、语速、音色质感、情绪及个性特征等 13 个维度进行结构化分析MOSS-Audio-8B-Instruct 在综合评分中位列 SOTA。思维链CoT与推理增强MOSS-Audio-8B-Thinking 版本通过 CoT 训练与强化学习支持对复杂音频内容进行多跳推理其通用音频理解平均准确率达到 71.08超越了部分 30B 规模的开源模型。通用音频描述 Demo:音档内容是一位男性说话者语气带有自信和些许夸耀。说话者透过一连串反问句来强调自己的经历与能力句末常带有上扬的语调例如「你干过吗」. 语速整体中等偏快尤其在列举成就时更为明显。内容围绕说话者声称自己完成了许多令人惊叹或不寻常的事情例如跳过楼、与坦克近距离接触被坦克压过、野外生存、吃遍各种蚯蚓、开飞机、坦克漂移以及完成两项电影史上的首次活动《战狼 1》、《战狼 2》。说话者在[00:08]处有轻微的口腔音。最后以「我觉得这是我最大的成就」作结语气显得相当肯定。整体语篇结构是列举式陈述透过对比来突显自身与众不同之处。音档中没有明显的背景噪音或其他说话者。说话者在[00:00]-[00:06]、[00:07]-[00:13]、[00:15]-[00:20]及[00:23]-[00:29]进行了多次提问和陈述其间穿插了短暂停顿如[00:06]和[00:13]的停顿。这些停顿有助于听者消化信息并在说话者转换话题或强调下一点之前制造悬念。例如在[00:25]提到「中国电影人之前没人干的事儿」时语气略带自豪。最后的陈述语气坚定。说话者以一连串充满自信的反问句开场列举了自己多项惊人的个人经历包括完成电影史上的重要拍摄以及多项常人难以企及的举动。其语气坚定句末语调上扬强调个人成就的独特性并在结尾处以肯定的语气总结认为这些是他的最大成就。GitHub:https://github.com/OpenMOSS/MOSS-AudioHuggingFace:https://huggingface.co/collections/OpenMOSS-Team/moss-audio模思智能02 有亮点的产品1、Claude 桌面端发布 Bluetooth API支持硬件设备实时监听智能体状态Anthropic 在 Claude 桌面应用Cowork 与 Code 模式中上线原生 Bluetooth API。该接口允许开发者构建外部硬件设备通过蓝牙实时同步 Claude 的内部运行状态实现 LLM 软件与物理世界的异步交互。支持跨模式硬件联动Bluetooth API 覆盖 Claude 桌面端的 Cowork 与 Code 核心模式允许第三方硬件作为 Claude 的物理外设运行。状态触发机制硬件设备可实时监听 Claude 的特定事件例如当智能体agent因安全策略挂起并「等待用户操作权限」时触发物理信号。面向 Maker 生态的端到端交互开发者可利用该 API 开发专用通知器、物理控制台或嵌入式交互设备如桌面宠物通过物理震动、光效或音频解决用户在多任务办公时错过 AI 授权请求的痛点。https://github.com/anthropics/claude-desktop-buddy(felixriesebergX)2、Phonely 获 A 轮融资通过自研专用小模型集群架构实现百万级语音 AI 通话优化语音 AI 初创公司 Phonely YC S24 宣布完成由 Base10 领投的 A 轮融资。该公司弃用通用大模型方案通过自研的专用小模型集群技术栈为保险、呼叫中心等行业提供高并发、低延迟的入站通话智能体服务旨在通过数据驱动的脚本微调提升电话业务转化率。多专用小模型Specialized Small Models架构针对「信息提取」、「潜在客户识别」等特定子任务部署独立的小型化模型替代单一大型 LLM。该方案在降低推理成本的同时显著解决了语音交互中的高延迟问题。语音转化率优化CRO for Voice引入类似 Web 端的转化率优化机制支持企业根据统计反馈微调 AI 提问逻辑。数据显示通过优化特定提问环节业务结果产出可提升 5%。规模化入站Inbound处理目前每月处理数百万次跨行业通话核心应用场景集中在广告引流后的入站咨询与初步筛选目标在今年年底实现通话者近乎无感知的 AI 交互体验。端到端工程化优化创始人表示延迟Latency已不再是技术瓶颈当前研发重点已转向对话的逻辑准确性与「非判断性」交互体验以消除用户面对人工客服时的心理压力。(dessaigneX)3、Speechmatics 发布语音生物标记平台15 秒采样识别 30 余种健康信号包括 2 型糖尿病、精神压力、疲劳及抑郁症状Speechmatics 与 thymia 宣布达成深度合作推出集成医疗级语音转文字STT与临床级语音生物标记智能的联合平台。该系统能够从15 秒的自然语音中实时提取并分析 30 多种健康指标包括 2 型糖尿病、精神压力、疲劳及抑郁症状。15 秒采样与实时推断系统以 15 秒为间隔处理音频流通过分析声学Acoustic与语言Linguistic模式中的神经学特征提取健康信号在提供标准转录的同时实时返回诊断参考。高鲁棒性多模态数据集模型基于超过 75,000 个独特声音的动态测量数据跨越 6 年研发以及数百万小时的多口音语音数据训练确保非母语及带口音语音下的识别准确率维持在 85% 以上。无硬件依赖的 API 集成采用单一 API 接口提供服务支持云端、本地及设备端部署无需传感器或其他专用硬件可直接嵌入现有语音智能体、呼叫中心系统或车载终端。( globenewswire)4、Eigen 完成 1500 万美元种子轮融资Benchmark 领投主攻「共时性」社交智能体AI 初创公司 Eigen 宣布完成1500 万美元种子轮融资由 Benchmark 领投Pinterest 联合创始人 Ben Silbermann 及 Meta 前高管 David Singleton 参投。该公司旨在开发一种「亲社会Pro-social」的 AI 架构核心逻辑是从「个人 AI 伴侣」转向创造人类用户之间的「共享、共时性体验」。「互为好友」式产品架构不同于 Replika 或 Character.ai 等主打 1 对 1 私密陪伴的路径Eigen 试图构建一种作为「共同好友」存在的智能体旨在增强现实社交关系而非替代社交通过 AI 媒介实现多用户间的同步交互。「U 型」团队组织模式公司跳过中层管理岗位由资深技术专家直接与年轻创意人才协作。团队成员包含多名初创公司创始人及专业编剧强调工程开发与叙事逻辑的深度耦合。对抗超个性化Hyper-personalization孤岛Scherer 提出 AI 不应仅为个人定制「完美世界」而应构建群体共享的数字环境。其技术逻辑侧重于通过 AI 智能体协调多方上下文缓解数字化进程中个人社交原子化趋势。高估值市场切入公司目标指向 2035 年预计达 5524.9 亿美元的全球 AI 伴侣市场。种子资金将主要用于组建核心工程团队目前产品细节仍处于隐形阶段。( fortune)03 有态度的观点1、黄仁勋若 DeepSeek 率先在华为平台上出现「对美国将是可怕的结果」英伟达 CEO 黄仁勋近日在接受科技播客主持人 Dwarkesh Patel 专访时就美国对华 AI 芯片出口管制政策发出警告。针对 Patel「向中国出售英伟达芯片可能助其训练具备网络攻击能力的 AI 模型」这一质疑黄仁勋直言「你的前提就是错的」。他指出Anthropic 旗下 Claude 模型是在规模相当普通的算力上训练完成的而此类算力在中国「大量可得」中国拥有全球约 50% 的顶尖 AI 研究人员算力限制反而倒逼出「极其聪明的算法」DeepSeek 的出现「绝非无关紧要的进步」。他随即抛出核心警告「如果 DeepSeek 第一款在华为上发布那对美国将是一个可怕的结果。」在他看来极端的出口管制会形成反效果——迫使中国顶尖开源模型专门针对华为等本土硬件深度优化一旦这些模型在华为架构上跑得最好英伟达平台的全球吸引力将被直接削弱。如果我们被迫离开中国这会加速他们的芯片产业发展并迫使他们所有的 AI 生态系统专注于自己的内部架构。黄仁勋指出随着中国 AI 模型以开放标准向全球南方国家扩散美国可能在长期技术标准竞争中陷入被动而这一切的根源正是主动放弃全球第二大市场的战略失误。( APPSO) Voice Agent 学习笔记了解最懂 AI 语音的头脑都在思考什么写在最后我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创感兴趣的朋友请通过开发者社区或公众号留言联系记得报暗号「共创」。对于任何反馈包括但不限于内容上、形式上我们不胜感激、并有小惊喜回馈例如你希望从日报中看到哪些内容自己推荐的信源、项目、话题、活动等或者列举几个你喜欢看、平时常看的内容渠道内容排版或呈现形式上有哪些可以改进的地方等。作者提示: 个人观点仅供参考