正文

OpenAI推出新一代语音模型：GPT-Realtime-2引领语音AI新纪元

编辑：Kala发布时间：3小时前

5月8日，OpenAI在其API中新增了三款新一代语音模型：GPT-Realtime-2、Realtime-Translate和Realtime-Whisper。其中，GPT-Realtime-2是首个具备GPT-5级别推理能力的语音模型，在多项基准测试中表现卓越。

GPT-Realtime-2的设计目标是让语音模型不仅保持对话流利度，还具备处理复杂事务所需的推理与行动能力。它在Big Bench Audio语音智能评估中的准确率达到96.6%，较上一代提升了15.2个百分点。

该模型引入了前导语机制，能够通过简短提示语告知用户请求正在处理中。同时，其上下文窗口从32K扩展至128K，支持更长、更复杂的多轮对话。此外，GPT-Realtime-2增强了对特定领域术语的理解能力，适用于更多专业场景。

Realtime-Translate专注于实时多语言翻译，支持超过70种输入语言，可实时输出至13种目标语言。而Realtime-Whisper则是一款低延迟语音转文本模型，适用于会议实时字幕、课堂笔记等场景。

在安全层面，Realtime API部署了多层护栏，能够实时监控会话并终止违规交互。定价方面，GPT-Realtime-2按语音token计费，每100万输入token价格为32美元；Realtime-Translate和Realtime-Whisper则按时长计费。

OpenAI首席执行官山姆·奥特曼表示，语音与AI的互动正逐渐普及，尤其是年轻人群体更倾向于使用语音交流。这一趋势是否会延续到中老年用户，仍有待观察。