正文
OpenAI推出新一代语音模型:GPT-Realtime-2引领语音AI新纪元
编辑:Kala发布时间:3小时前
OpenAI发布三款新一代语音模型
5月8日,OpenAI在其API中新增了三款新一代语音模型:GPT-Realtime-2、Realtime-Translate和Realtime-Whisper。其中,GPT-Realtime-2是首个具备GPT-5级别推理能力的语音模型,在多项基准测试中表现卓越。
GPT-Realtime-2:语音助手的“思考”能力
GPT-Realtime-2的设计目标是让语音模型不仅保持对话流利度,还具备处理复杂事务所需的推理与行动能力。它在Big Bench Audio语音智能评估中的准确率达到96.6%,较上一代提升了15.2个百分点。
自然对话与专业场景的双重优化
该模型引入了前导语机制,能够通过简短提示语告知用户请求正在处理中。同时,其上下文窗口从32K扩展至128K,支持更长、更复杂的多轮对话。此外,GPT-Realtime-2增强了对特定领域术语的理解能力,适用于更多专业场景。
实时翻译与语音转文本的突破
Realtime-Translate专注于实时多语言翻译,支持超过70种输入语言,可实时输出至13种目标语言。而Realtime-Whisper则是一款低延迟语音转文本模型,适用于会议实时字幕、课堂笔记等场景。
安全与定价策略
在安全层面,Realtime API部署了多层护栏,能够实时监控会话并终止违规交互。定价方面,GPT-Realtime-2按语音token计费,每100万输入token价格为32美元;Realtime-Translate和Realtime-Whisper则按时长计费。
未来展望:语音互动的趋势
OpenAI首席执行官山姆·奥特曼表示,语音与AI的互动正逐渐普及,尤其是年轻人群体更倾向于使用语音交流。这一趋势是否会延续到中老年用户,仍有待观察。






