OpenAI发布三款音频模型昨天凌晨OpenAI发布了三款音频模型GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。OpenAI官网称新模型能让开发者构建可在用户说话时“推理、翻译和转写”的实时语音产品且三款模型已开放给开发者测试。三款模型的场景分工与价格这次更新重点是三款模型的不同场景分工。GPT-Realtime-2面向实时语音Agent场景是OpenAI首个具备“GPT-5级推理”的语音模型可处理复杂请求、调用工具、处理中途打断并在更长语音会话中维持上下文。GPT-Realtime-Translate面向实时语音翻译场景支持70多种输入语言到13种输出语言。GPT-Realtime-Whisper面向实时语音转写能在人说话时生成文本用于字幕、会议记录和工作流更新。同时价格也同步公布GPT-Realtime-2按token计费音频输入起价为32美元/百万token音频输出为64美元/百万tokenGPT-Realtime-Translate按分钟计费价格为0.034美元/分钟GPT-Realtime-Whisper同样按分钟计费价格为0.017美元/分钟。模型应用案例与能力特点相关报道显示Zillow、Priceline和德国电信等企业用户已在测试这些模型。这是OpenAI过去一年语音路线的延伸。从2024年开放ChatGPT高级语音模式背后的低延迟语音能力到2025年推出首个正式版Gpt-Realtime再到今年2月Gpt-Realtime-1.5成为上一代主力模型如今的2.0版本三大模型矩阵更像是Realtime产品线从体验功能走向企业API的版本升级。先看GPT-Realtime-2它是第一款具备“GPT-5级推理”的语音模型可处理复杂请求、调用工具、处理中断并在长语音会话中保持上下文对应语音Agent落地常见问题。它把上下文窗口从32K提升到128K对长会话场景意义重大。工具调用也是更新关键词RealtimeAPI可构建调用工具的语音体验。美国房地产信息查询网站Zillow用GPT-Realtime-2构建语音助手在对抗性测试中电话任务成功率从69%提升到95%FairHousing相关合规表现更稳定。Booking子公司Priceline也在测试GPT-Realtime-2系列语音Agent若稳定接入后台系统有望把“问答”推进到“办事”。德国电信也是已知客户电信行业是语音模型落地的天然场景。GPT-Realtime-2还有可调推理强度的细节开发者可根据任务复杂程度调整推理强度平衡性能和响应。OpenAI称GPT-Realtime-2在Big Bench Audio上比GPT-Realtime-1.5高15.2%在Audio MultiChallenge上高13.8%。第二款模型GPT-Realtime-Translate主打实时语音到语音翻译适合广播、直播、电话和视频对话能自动识别输入语言输出翻译后的语音和文本支持70多种输入语言到13种输出语言更接近连续口译形态。OpenAI将其场景分为广播式翻译和对话式翻译覆盖企业付费的跨语言场景。第三款模型GPT-Realtime-Whisper强调实时流式转写可生成字幕、会议记录和工作流更新商业门槛最低价格仅为0.017美元/分钟。OpenAI的商业布局与市场竞争三款模型将实时音频拆成三个明确入口OpenAI欲在差异化路线上“通吃”语音AI市场。除Zillow、Priceline和德国电信外视频平台Vimeo、企业知识管理工具Glean、客服软件公司Intercom、面向企业语音Agent的BolnaAI等也在使用这批语音模型。GPT-Realtime系列已成为OpenAI成熟的商业化版图覆盖多类开发者。语音AI市场升温ElevenLabs靠AI配音等业务出圈今年2月完成5亿美元D轮融资估值达110亿美元近期年化经常性收入超5亿美元。Deepgram长期做语音识别基础设施近年补上文本转语音和语音Agent接口。Cartesia主打低延迟和实时交互其Sonic系列强调低延迟文本转语音。早期TTS竞争注重声音像真人如今语音Agent要求完整链路。OpenAI优势在于模型栈可将企业调用TTS的链路放在同一开发者平台降低开发者和企业成本。不过语音市场不缺强势玩家ElevenLabs、Deepgram、Cartesia都有不错表现。奥特曼称GPT-Realtime-2进入API是“相当大的一步前进”OpenAI还在改进ChatGPT语音体验。从企业用户测试情况看OpenAI新一代语音模型值得期待。那么OpenAI能否在语音AI市场取得更大成功呢