当前位置:文章 > 列表 > 正文

OpenAI敞开三大实时音频模型:告别纯文本,AI智能体进入“实时听与做”时代

探索。
📅 2026-05-17 13:41:30 🏷️ 贵金属现货投资 👁️ 450
OpenAI敞开三大实时音频模型:告别纯文本,AI智能体进入“实时听与做”时代

本次亮相之三款核心模型分别为GPT-Realtime-2、GPT-Realtime-Translate以及GPT-Realtime-Whisper。

目前,包括于线房地产平台Zillow(ZG.O)、于线旅行社Priceline以及欧洲电信运营商德国电信(DTEGn.DE)于内之多家企业主顾,正对上述模型进行早期测试。

黄粱美梦。

此举旨于大幅提升语音智能体之交互自度,并赋予其于实时对话中直接执行差事之本领。

知名企业

该模型支将70多种源言辞实时转变为13种宗旨言辞,直指智能客服、于线教导等全球化应用场景。

Soul。普京

5月8日消息,美国光阴周四,OpenAI面向掘发者正式发布三款全新音频大模型。

(易句) 随之新版API之敞开,OpenAI正跨越旧俗之“语音转录”与“文本聊天”阶段,向构建具备实时监听、翻译及执行本领之智能体延伸。

于用户发言之同时,该模型可齐步生成字幕与集会纪要,甚至自动触发后续之工流更新。

新男友不仅帅气多金,还甚有情调,于酒吧,于家里,皆会亲吻韩安冉,韩安冉眼神中之福感完全藏不住。

学习。

目前,上述模型均已于OpenAI之掘发者测试平台上线。

技术思维

实在来看,三款模型于应用场景上各有所长: All Rights Reserved 新浪公司 版权所有 旗舰模型GPT-Realtime-2专攻繁差事办理。

用户。

新男友不仅帅气多金,还甚有情调,于酒吧,于家里,皆会亲吻韩安冉,韩安冉眼神中之福感完全藏不住。

GPT-Realtime-Translate主攻跨言辞通。

Blue Tech。

GPT-Realtime-Whisper聚焦实时语音识别(STT)。

它不仅能精准调用外部器物,还能从容对付用户于对话中之随时打断,并于超长语音交互中保高度之语境(Context)连贯性。

定价方面,GPT-Realtime-2之音频输入本金为每百万Token 32美元起;GPT-Realtime-Translate与GPT-Realtime-Whisper之计费标准则分别为每分钟0.034美元与0.017美元。

李浩

上一篇:用代码“敲”出属于华夏之铺丝机 全国五一劳动奖章得者聂海平:突围国外技艺壁垒 下一篇:我国拟修订农业法加快建立农业强国