OpenAI发布三款音频模型，欲借差异化路线“通吃”语音AI市场！

张

张建站

2026/5/8 17:32:10

10分钟阅读

OpenAI发布三款音频模型昨天凌晨OpenAI发布了三款音频模型GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。OpenAI官网称新模型能让开发者构建可在用户说话时“推理、翻译和转写”的实时语音产品且三款模型已开放给开发者测试。三款模型的场景分工与价格这次更新重点是三款模型的不同场景分工。GPT-Realtime-2面向实时语音Agent场景是OpenAI首个具备“GPT-5级推理”的语音模型可处理复杂请求、调用工具、处理中途打断并在更长语音会话中维持上下文。GPT-Realtime-Translate面向实时语音翻译场景支持70多种输入语言到13种输出语言。GPT-Realtime-Whisper面向实时语音转写能在人说话时生成文本用于字幕、会议记录和工作流更新。同时价格也同步公布GPT-Realtime-2按token计费音频输入起价为32美元/百万token音频输出为64美元/百万tokenGPT-Realtime-Translate按分钟计费价格为0.034美元/分钟GPT-Realtime-Whisper同样按分钟计费价格为0.017美元/分钟。模型应用案例与能力特点相关报道显示Zillow、Priceline和德国电信等企业用户已在测试这些模型。这是OpenAI过去一年语音路线的延伸。从2024年开放ChatGPT高级语音模式背后的低延迟语音能力到2025年推出首个正式版Gpt-Realtime再到今年2月Gpt-Realtime-1.5成为上一代主力模型如今的2.0版本三大模型矩阵更像是Realtime产品线从体验功能走向企业API的版本升级。先看GPT-Realtime-2它是第一款具备“GPT-5级推理”的语音模型可处理复杂请求、调用工具、处理中断并在长语音会话中保持上下文对应语音Agent落地常见问题。它把上下文窗口从32K提升到128K对长会话场景意义重大。工具调用也是更新关键词RealtimeAPI可构建调用工具的语音体验。美国房地产信息查询网站Zillow用GPT-Realtime-2构建语音助手在对抗性测试中电话任务成功率从69%提升到95%FairHousing相关合规表现更稳定。Booking子公司Priceline也在测试GPT-Realtime-2系列语音Agent若稳定接入后台系统有望把“问答”推进到“办事”。德国电信也是已知客户电信行业是语音模型落地的天然场景。GPT-Realtime-2还有可调推理强度的细节开发者可根据任务复杂程度调整推理强度平衡性能和响应。OpenAI称GPT-Realtime-2在Big Bench Audio上比GPT-Realtime-1.5高15.2%在Audio MultiChallenge上高13.8%。第二款模型GPT-Realtime-Translate主打实时语音到语音翻译适合广播、直播、电话和视频对话能自动识别输入语言输出翻译后的语音和文本支持70多种输入语言到13种输出语言更接近连续口译形态。OpenAI将其场景分为广播式翻译和对话式翻译覆盖企业付费的跨语言场景。第三款模型GPT-Realtime-Whisper强调实时流式转写可生成字幕、会议记录和工作流更新商业门槛最低价格仅为0.017美元/分钟。OpenAI的商业布局与市场竞争三款模型将实时音频拆成三个明确入口OpenAI欲在差异化路线上“通吃”语音AI市场。除Zillow、Priceline和德国电信外视频平台Vimeo、企业知识管理工具Glean、客服软件公司Intercom、面向企业语音Agent的BolnaAI等也在使用这批语音模型。GPT-Realtime系列已成为OpenAI成熟的商业化版图覆盖多类开发者。语音AI市场升温ElevenLabs靠AI配音等业务出圈今年2月完成5亿美元D轮融资估值达110亿美元近期年化经常性收入超5亿美元。Deepgram长期做语音识别基础设施近年补上文本转语音和语音Agent接口。Cartesia主打低延迟和实时交互其Sonic系列强调低延迟文本转语音。早期TTS竞争注重声音像真人如今语音Agent要求完整链路。OpenAI优势在于模型栈可将企业调用TTS的链路放在同一开发者平台降低开发者和企业成本。不过语音市场不缺强势玩家ElevenLabs、Deepgram、Cartesia都有不错表现。奥特曼称GPT-Realtime-2进入API是“相当大的一步前进”OpenAI还在改进ChatGPT语音体验。从企业用户测试情况看OpenAI新一代语音模型值得期待。那么OpenAI能否在语音AI市场取得更大成功呢

新手入门教程使用 curl 快速测试 Taotoken 的大模型聊天补全接口

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度新手入门教程使用 curl 快速测试 Taotoken 的大模型聊天补全接口当你刚拿到 Taotoken 的 API Key，最直接的验证方式就…...

2026/5/8 17:31:14 阅读更多 →

Unity在Linux下中文输入失灵？手把手教你用C#和NPinyin库自己造一个输入法

在Unity中打造独立中文输入法的全流程实战指南当你在Linux环境下使用Unity开发时，是否遇到过这样的尴尬场景：精心设计的UI输入框突然"罢工"，任凭你怎么敲击键盘，屏幕上就是蹦不出一个汉字。系统输入法与Unity的兼容性问…...

2026/5/8 17:30:42 阅读更多 →

强制动量自动下载钓鱼攻击机理与行为驱动防御研究

摘要以 Dropbox、Google Drive 等可信 SaaS 平台为载体的强制动量自动下载钓鱼已成为当前企业邮件安全的核心威胁。该攻击通过滥用平台原生自动下载参数、双后缀伪装、身份绑定访问限制等技术，消除用户犹豫窗口，绕过传统静态检测，实现从点击…...

2026/5/8 17:30:08 阅读更多 →

ColorControl：一键掌控多设备显示与智能控制的终极方案

ColorControl：一键掌控多设备显示与智能控制的终极方案【免费下载链接】ColorControl Easily change NVIDIA display settings and/or control LG TVs 项目地址: https://gitcode.com/gh_mirrors/co/ColorControl ColorControl 是一个专注于显示参数优化与智…...

2026/5/8 2:36:29 阅读更多 →

使用Taotoken CLI工具一键配置开发环境与多工具API密钥的教程

使用Taotoken CLI工具一键配置开发环境与多工具API密钥的教程 1. 安装Taotoken CLI工具 Taotoken CLI工具提供两种安装方式。对于需要频繁使用CLI的场景，推荐全局安装： npm install -g taotoken/taotoken若只需临时使用或避免全局依赖，可通…...

2026/5/5 1:47:46 阅读更多 →

C语言固件完整性保护全栈方案（含国密SM4+可信执行环境TEE落地代码）

更多请点击： https://intelliparadigm.com 第一章：Shell脚本的基本语法和命令 Shebang 与执行方式每个可执行 Shell 脚本的第一行应以 Shebang（ #!/bin/bash）开头，用于指定解释器路径。保存为 hello.sh 后&#xf…...

2026/5/7 11:30:49 阅读更多 →

在 Node.js 后端服务中集成 Taotoken 实现多模型对话路由

在 Node.js 后端服务中集成 Taotoken 实现多模型对话路由 1. 准备工作在开始集成 Taotoken 之前，需要确保您的开发环境已满足以下条件。Node.js 版本建议使用 18.x 或更高 LTS 版本。通过运行 node -v 可以检查当前版本。如果尚未安装 openai 包，可以…...

2026/5/8 6:34:49 阅读更多 →