正文

ElevenLabs 宣称打造首个能真实发笑的人工智能

编辑：NamchaTa发布时间：5小时前

情感感知语音合成技术的重大突破

ElevenLabs 发布了一项号称是首个能够生成真实笑声的人工智能系统，这标志着情感感知语音合成领域取得了重要进展。该公司的模型基于超过 50 万小时的音频数据进行训练，能够在无需人工干预的情况下生成与上下文相符的情感反应，包括各种类型的笑声。

超越传统文本到语音的技术局限

这一技术的核心在于模型能够仅通过文本解读情感线索。例如，在处理有关胜利或幽默的内容时，系统会自动产生非语言的声音表达，如轻笑或夸张的“sooooo funny”等反应。

这项技术的突破性在于其上下文感知能力。模型能够处理同形异义词（即拼写相同但发音不同的单词），例如根据上下文正确区分“read”的现在时和过去时、“minute”作为时间单位或尺寸单位的不同含义——这些通常是大多数文本到语音系统的难点。

此外，该人工智能还能处理书面语中不直接对应口语表达的规则。例如，它知道 FBI 需要逐字母拼读，而 NASA 则作为一个单词发音；同时可以将“$3tr”自动转换为“三万亿美元”，且无需人工干预。

市场影响：AI 基础设施投资的新热点

对于关注 AI 基础设施建设的投资者来说，这一技术的推出时机尤为重要。2 月 18 日，Nvidia 的股价在盘前交易中出现波动，而整个 AI 行业正在推动技术供应链的需求增长。语音合成正成为 AI 应用层的一个快速扩展领域。

ElevenLabs 并不是唯一一家致力于情感 AI 的公司。京都大学的研究人员在《机器人与人工智能前沿》期刊上发表了一篇论文，详细介绍了他们为类人机器人 Erica 开发的“共享笑声”模型，该模型通过子系统检测、决策并选择适当的笑声回应。这种学术研究与 ElevenLabs 在内容生产领域的商业化目标形成了鲜明对比。

商业应用前景广阔

ElevenLabs 的技术瞄准了多个垂直领域：新闻出版商可以通过该技术生成文章的音频版本，从而节省配音演员的成本；有声书制作可以在几分钟内生成具有不同角色声音的内容；游戏开发者则可以经济高效地为每个 NPC（非玩家角色）赋予声音。

广告代理商也能从中受益——授权的语音克隆可以即时调整，无需演员到场，从而避免了购买合成语音的复杂谈判。

技术挑战与行业影响

目前，ElevenLabs 正在为其平台运行测试版程序。公司承认，该模型偶尔会在处理非常规文本时遇到困难，并正在开发一个不确定性标记系统，以帮助用户识别和修正问题段落。

对于配音行业而言，这项技术既带来了机遇，也引发了颠覆。当情感细微差别——以往是人类表演者的专属领域——变得可编程时，行业的经济模式将发生巨大变化。

ElevenLabs Claims First AI Capable of Genuine Laughter