正文

从“词元”到“符元”：Token中文命名背后的认知与技术之争

编辑：星球日报发布时间：9小时前

近日，全国科学技术名词审定委员会发布公告，推荐将人工智能领域中的“Token”译为“词元”，并面向社会试用。随后，《人民日报》发文《专家解读 token 中文名为何定为“词元”》，对这一命名从专业角度进行了系统阐释。

文中提到，“token”一词源于古英语 tācen，意为“符号”或“标记”。在语言模型中，token 是文本经过切分或字节级编码后得到的最小离散单元，既可以表现为词、子词、词缀或字符等不同形式。模型正是通过对 token 序列的建模，展现出一定的智能能力。

文章观点（中国科学院计算技术研究所研究员陈熙霖）：Token 在人工智能中的初始角色是“语言基本语义单元”，因此“词元”能够更贴合其本质。

这一判断在历史语境中具有合理性，但在技术范式大跃迁的当下，这种思维本质上是一种“学术刻舟求剑”。在术语定义的逻辑层面，必须严厉区分“初始应用场景”与“结构本质属性”。

Token 确实起源于自然语言处理（NLP），但在 AGI 的进化路径中，它早已突破了语言模型的边界，演化为统一处理文本、图像、语音乃至物理信号的基础单元。在现代计算体系中，Token 真正的结构本体是“离散符号单元”，而非单一模态的语言单位。

文章观点（清华大学计算机系副教授东昱晓）：可以通过“词云”“词袋”等类比，将多模态中的离散单元理解为“广义的词”。

东昱晓教授的类比有助于理解，但不应替代定义。这一思路在解释层面具有一定启发性，但若进一步上升为命名依据，则可能引发概念层面的范畴错位。

从方法论上看，类比的作用在于降低理解门槛，而定义的职责在于划定语义边界。当“词”被扩展以覆盖图像块（patch）、语音片段、向量表示（embedding）乃至更广泛的感知信号时，其原有的语言属性已被不断稀释，语义边界趋于模糊。

文章观点（综合专家意见）：“词元”表述简洁，符合中文习惯，易于传播。

这一判断在传播层面具有一定合理性，但其隐含前提是：公众能够接受“词”的跨模态类比。然而，类比本质上是一种专家思维工具，而非大众的自然认知方式。对于普通用户而言，“词”具有极强的语义锚定效应——一旦听到“词”，其直觉指向必然是语言系统，而非图像、声音或动作等其他模态。

文章观点（名词审定原则）：“词元”符合单义性原则，有助于解决译法混乱问题。

在术语单义性方面，需要特别关注“一词两义”可能引发的系统性风险。在科学名词审定中，“单义性”是基础性原则之一。一个术语如果需要依赖语境或额外解释才能区分含义，那么它作为标准件的价值就已经丧失。

文章观点（通用解释）：Token 是语言模型中用于处理文本的最小单位。

这一表述在功能层面是成立的，但仍停留在“如何使用”的层级，而未触及其在计算理论中的本体属性。从信息论与计算理论的角度看，计算系统所处理的基本对象并非“词”，而是“符号”（symbol）。

文章观点（综合解读）：“词元”已在中文学术界逐渐形成使用基础，具备一定传播优势。

在跨语言语境下，需要警惕术语“回译断裂”所带来的系统性影响。衡量一个科技术语是否具备长期生命力，不仅取决于其在中文语境中的表意能力，更取决于其能否在国际学术体系中实现稳定映射。

文章观点（综合专家意见）：“词元”在表达风格上与“嵌入”“注意力”等术语保持一致，简洁、抽象，符合中文技术语境。

结论先行：术语体系的统一，应建立在“概念同构”之上，而非“语言同形”。

从本质上看，术语的选择并不仅是语言问题，而是对一个领域认知结构的早期塑形。一旦命名在初始阶段偏离其结构本体，后续体系只能通过不断解释来维持运转，而难以形成自洽的概念网络。