从“词元”到“符元”:Token中文命名背后的认知与技术之争
引言:Token中文命名引发争议
近日,全国科学技术名词审定委员会发布公告,推荐将人工智能领域中的“Token”译为“词元”,并面向社会试用。随后,《人民日报》发文《专家解读 token 中文名为何定为“词元”》,对这一命名从专业角度进行了系统阐释。
文中提到,“token”一词源于古英语 tācen,意为“符号”或“标记”。在语言模型中,token 是文本经过切分或字节级编码后得到的最小离散单元,既可以表现为词、子词、词缀或字符等不同形式。模型正是通过对 token 序列的建模,展现出一定的智能能力。
定义的错位:不能用“起源”替代“本质”
文章观点(中国科学院计算技术研究所研究员陈熙霖):Token 在人工智能中的初始角色是“语言基本语义单元”,因此“词元”能够更贴合其本质。
这一判断在历史语境中具有合理性,但在技术范式大跃迁的当下,这种思维本质上是一种“学术刻舟求剑”。在术语定义的逻辑层面,必须严厉区分“初始应用场景”与“结构本质属性”。
Token 确实起源于自然语言处理(NLP),但在 AGI 的进化路径中,它早已突破了语言模型的边界,演化为统一处理文本、图像、语音乃至物理信号的基础单元。在现代计算体系中,Token 真正的结构本体是“离散符号单元”,而非单一模态的语言单位。
类比的边界:解释一旦变成定义就会开始偏离
文章观点(清华大学计算机系副教授东昱晓):可以通过“词云”“词袋”等类比,将多模态中的离散单元理解为“广义的词”。
东昱晓教授的类比有助于理解,但不应替代定义。这一思路在解释层面具有一定启发性,但若进一步上升为命名依据,则可能引发概念层面的范畴错位。
从方法论上看,类比的作用在于降低理解门槛,而定义的职责在于划定语义边界。当“词”被扩展以覆盖图像块(patch)、语音片段、向量表示(embedding)乃至更广泛的感知信号时,其原有的语言属性已被不断稀释,语义边界趋于模糊。
认知的代价:当语义锚点制造系统性误解
文章观点(综合专家意见):“词元”表述简洁,符合中文习惯,易于传播。
这一判断在传播层面具有一定合理性,但其隐含前提是:公众能够接受“词”的跨模态类比。然而,类比本质上是一种专家思维工具,而非大众的自然认知方式。对于普通用户而言,“词”具有极强的语义锚定效应——一旦听到“词”,其直觉指向必然是语言系统,而非图像、声音或动作等其他模态。
单义性的幻觉:当一个词试图承载两个体系
文章观点(名词审定原则):“词元”符合单义性原则,有助于解决译法混乱问题。
在术语单义性方面,需要特别关注“一词两义”可能引发的系统性风险。在科学名词审定中,“单义性”是基础性原则之一。一个术语如果需要依赖语境或额外解释才能区分含义,那么它作为标准件的价值就已经丧失。
本体的回归:Token 本质上是“符号”,而非“词”
文章观点(通用解释):Token 是语言模型中用于处理文本的最小单位。
这一表述在功能层面是成立的,但仍停留在“如何使用”的层级,而未触及其在计算理论中的本体属性。从信息论与计算理论的角度看,计算系统所处理的基本对象并非“词”,而是“符号”(symbol)。
语言的断裂:回译机制中的映射失效
文章观点(综合解读):“词元”已在中文学术界逐渐形成使用基础,具备一定传播优势。
在跨语言语境下,需要警惕术语“回译断裂”所带来的系统性影响。衡量一个科技术语是否具备长期生命力,不仅取决于其在中文语境中的表意能力,更取决于其能否在国际学术体系中实现稳定映射。
统一的误区:形式一致不等于结构一致
文章观点(综合专家意见):“词元”在表达风格上与“嵌入”“注意力”等术语保持一致,简洁、抽象,符合中文技术语境。
结论先行:术语体系的统一,应建立在“概念同构”之上,而非“语言同形”。
结语:术语选择是对认知结构的早期塑形
从本质上看,术语的选择并不仅是语言问题,而是对一个领域认知结构的早期塑形。一旦命名在初始阶段偏离其结构本体,后续体系只能通过不断解释来维持运转,而难以形成自洽的概念网络。






