10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
GPT-Realtime-2 将 GPT-5 智能引入语音 API
OpenAI在周三通过其API发布了新一代语音模型,为开发者提供了构建能够理解语音请求、支持超过70种语言翻译以及实时转录语音的应用工具。
这三款模型分别命名为GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。它们将AI语音界面从简单的问答交流提升到一个AI代理可以听、思考和在对话中行动的领域。
GPT-Realtime-2带来更强的推理能力
GPT-Realtime-2是旗舰产品。OpenAI表示它具备GPT-5级别的推理能力,比其前身GPT-Realtime-1.5有了显著提升。
该模型在音频智能基准Big Bench Audio上的得分高出15.2%,在测试多轮语音指令遵循的Audio MultiChallenge中高出13.8%。
实用升级旨在帮助开发者构建生产级语音代理。该模型现在支持128K的上下文窗口,是之前32K限制的四倍,并提供五个可调节的推理努力等级,从“最小”到“极高”。
它可以同时调用多个工具,能够通过语音确认从错误中恢复,并在处理请求时生成简短的过渡短语,如“让我检查一下”。
GPT-Realtime-Translate支持实时语音翻译。它接受超过70种输入语言,输出13种,旨在与说话者保持同步。
GPT-Realtime-Whisper提供流式语音转文本(STT),在说话时实时转录单词,而不是等待完整的语句。
Zillow、Deutsche Telekom在生产环境中测试这些模型
一些公司已获得早期访问权限。Zillow正在构建一个可以处理复杂房地产查询、调用工具搜索房源并遵守公平住房法规的语音助手。
该公司报告在经过GPT-Realtime-2提示优化后,在最难的对抗性基准测试中的通话成功率提升了26个百分点,达到95%,而之前为69%。
Deutsche Telekom正在测试实时翻译,用于客户支持,允许来电者用自己偏好的语言讲话,模型在双方之间进行转换。
Priceline正在探索一种基于语音的旅行助手,能够在一次会话中管理航班搜索、酒店变更和现场翻译。
这些模型面向希望扩展客户服务能力的企业,但也指出在教育、媒体、活动和创作者平台等领域具有潜在应用。
OpenAI表示在新模型中加入了内容审核机制,能够检测到违反有害内容指南的对话并予以中止。公司将这些保护措施描述为防止垃圾信息、欺诈和其他滥用行为的屏障。
关于定价,Translate和Whisper模型按分钟计费。GPT-Realtime-2则按令牌消耗计费。所有三款模型都可以通过OpenAI的实时API访问,支持WebRTC、WebSocket和SIP连接方式。
如果你在阅读这篇文章,说明你已经走在了前列。通过我们的新闻通讯保持领先。