词元是什么意思？一文读懂 AI 时代的新度量衡

最近，“词元” 这个词突然走进了大众视野，不少人在科技新闻、AI 产品介绍里都看到了这个陌生又有点熟悉的词，纷纷好奇：词元到底是什么意思？它和我们常说的字、词有什么区别？为什么国家要专门给它定一个统一的中文名？

从译名混战到官方定名：词元的正式落地

这一切的源头，是 2026 年 3 月 23 日在中国发展高层论坛 2026 年年会上的一次重磅官宣。国家数据局局长刘烈宏在演讲中正式宣布，人工智能领域的核心术语 “Token”，其标准中文译名定为 “词元”。

Token中文名确定为词元

（图片来源：新浪微博）

这看似只是一个简单的翻译统一，实则终结了困扰 AI 产业多年的术语混乱。在此之前，“Token” 这个英文词在不同领域、不同圈子里有着完全不同的叫法：

在区块链领域，它被译为 “代币”“通证”；
在网络安全领域，它被叫做 “令牌”；
在编译原理领域，它被称为 “标记”；
而在 AI 大模型圈子里，更是出现了 “智元”“模元”“符元” 等十余个候选译名，各有各的主张，各有各的道理。

这种混乱不仅让普通用户一头雾水，甚至连行业内部的交流、产业统计、政策落地都遇到了障碍。直到这次官方定名，才终于给这场持续多年的争论画上了句号。

学科领域	中文名	英文名
计算机科学技术/人工智能	词元	token

事实上，“词元” 这个译名并非临时起意。早在多年前，全国科学技术名词审定委员会就已经在《计算机科学技术名词》中，将自然语言处理领域的 Token 规范审定为 “词元”，复旦大学等高校的专业教材、中国计算机学会的学术文档也早已沿用这一译法。这次官方官宣，相当于给这个学术规范赋予了产业层面的统一效力，让它从圈内的专业术语，变成了全社会通用的标准概念。

全国科学技术名词审定委员会审定出版《计算机科学技术名词（第三版）》

计算机科学技术名词（第三版）

词元到底是什么？AI 世界的最小信息原子

搞懂了定名的背景，我们再来回答最核心的问题：词元到底是什么？

用最通俗的话来说：如果说图像的最小组成单元是像素，计算机存储的最小计量单位是字节，那么大模型处理信息的最小单元，就是词元。

我们人类可以直接读懂一整句话、一整篇文章，但 AI 做不到。它没办法直接理解 “我爱中国” 这四个字背后的情感和意义，它必须先把我们输入的文本、代码，甚至是图像、音频等多模态信息，拆分成一个个最小的、可以被机器计算的信息小单元，然后把这些单元转换成数字编号，再进行编码、推理、运算，最后才能生成我们看到的回答。这些被拆分出来的最小单元，就是词元。

举个最直观的例子：当你输入 “我爱中国！” 这句话时，大模型会先把它拆分成 “我”“爱”“中国”“！” 这四个独立的词元，然后再对这四个词元进行处理。

很多人会问：那词元不就是我们说的字或者词吗？其实并不是。词元的划分是由模型的分词器（Tokenizer）决定的，它的粒度介于 “字” 和 “词” 之间，非常灵活：

它可以是一个完整的汉字，比如 “我”；
它可以是一个常用的词语，比如 “中国”；
它可以是一个标点符号，比如感叹号；
它甚至可以是一个单词的片段，比如英文里的 “unhappiness”，会被拆成 “un” 和 “happiness” 两个词元，这样既能压缩词表大小，又能处理那些罕见的、没见过的新词。

对于中文用户来说，有一个非常实用的换算经验：通常情况下，1 个词元大约对应 1.5\1.7 个汉字。也就是说，我们平时写的一篇 1000 字的文章，大概会被拆成 600\700 个词元。这个换算关系，也是我们平时看大模型的计费套餐、上下文窗口限制时，最核心的参考依据。

为什么词元这么重要？它是智能时代的价值锚点

词元之所以能成为国家级的标准术语，绝不仅仅因为它是一个技术概念，更因为它已经成为了智能时代的核心价值锚点，是整个 AI 产业商业化、规范化的基础。

1. 它是 AI 服务的通用计费单位

相信很多用过 AI API 服务的用户都见过这样的定价：输入 1000 词元多少钱，输出 1000 词元多少钱。为什么大模型不按字数计费，非要按词元？

原因很简单：大模型的运算成本，是由词元数量决定的。不管你输入的是汉字、英文、代码还是标点，每处理一个词元，模型消耗的算力、显存、时间都是相对固定的。按词元计费，是最贴合大模型实际运行成本的方式，也是全球行业通用的标准。

2. 它是衡量模型能力的核心标尺

我们平时常说的 “8k 上下文”“32k 上下文”“128k 上下文”，这里的单位其实就是词元。它代表着这个大模型最多能同时处理多少个词元的信息，换句话说，就是模型一次最多能 “记住” 多少内容。超过这个限制，模型就会把前面的内容 “忘掉”，无法再参考之前的对话或者文档。

3. 它是智能时代的新度量衡

国家数据局的官方表述说得非常清楚：词元不仅是智能时代的价值锚点，更是连接技术供给与商业需求的 “结算单位”，为商业模式的落地提供了可量化的可能。

就像工业时代，我们用 “瓦特” 来衡量动力的大小；互联网时代，我们用 “流量” 来衡量信息传输的规模；到了人工智能时代，词元就成了衡量智能服务规模的新标尺。

官方数据显示，我国的日均词元调用量，已经从 2024 年初的 1000 亿，跃升至 2026 年 3 月的 140 万亿，两年时间增长了超千倍。这个爆炸式的数字，背后是 AI 产业的爆发式发展：AI 客服、智能座舱、编程助手、内容生成…… 每一次 AI 交互，都在消耗词元。

更重要的是，词元让智能服务第一次变得可以量化、可以定价、可以交易。有媒体把词元比喻为智能时代的 “标准化集装箱”：就像集装箱让任何货物都能被标准装卸、全球运输，词元让任何智能服务都能被计量、被定价、被 API 调用。甚至出现了 “词元出口” 这种全新的贸易形态：中国西部的绿电，没办法直接出口，但可以用来驱动 GPU 运算，产出词元，然后通过网线卖给全球用户，增值效率是直接卖电的 22 倍。

别搞混了！这些同名概念要分清

随着 “词元” 这个词的爆火，很多人也产生了新的混淆：原来我之前也听过 “词元”，是不是同一个东西？这里要给大家理清两个最容易搞混的概念：

1. 不同领域的 “Token” 不是一回事

我们刚才说过，“Token” 是一个跨领域的通用词，在不同的场景下，它的意思完全不同：

AI 大模型领域：Token = 词元，是我们这篇文章讲的，信息处理的最小单元；
区块链领域：Token = 代币 / 通证，是加密货币里的价值凭证；
网络安全领域：Token = 令牌，是身份验证的临时凭证。

这次官方把 AI 领域的 Token 定名为 “词元”，就是为了彻底区分这些不同的概念，避免大家混淆。

2. 语言学里的 “词元” 是另一个概念

很多学语言学的朋友会问：我学过的 “词元”（Lexeme），是不是就是这个？其实不是，这是两个完全不同的概念，只是刚好同名而已。

语言学里的词元，指的是词的基本形式，是同一个词的不同变形的抽象原型。比如 “run”“runs”“ran”“running”，这四个是同一个词的不同时态变形，它们对应的同一个抽象的词的原型，就是语言学里的词元。

而我们现在说的 AI 里的词元，是大模型处理信息的最小计算单元，两者的内涵完全不同，只是刚好用了同一个中文译名而已，大家不要搞混了。

写在最后

词元这个小小的概念，从符号学里走来，在计算语言学中成长，最终在大模型时代迎来了爆发。它的定名，不仅仅是一个翻译的统一，更是中国 AI 产业从野蛮生长走向规范化、标准化的标志。

有了统一的术语，我们才有了统一的统计口径、统一的产业标准、统一的交流语言，这为 AI 产业的商业化落地、数据要素的市场化配置，打下了最基础的地基。

未来，当你再和 AI 聊天、再用 AI 工具的时候，不妨想一想：你输入的这句话，被拆成了多少个词元？这些小小的单元，背后是算力的支撑、是产业的爆发，更是智能时代的全新脉搏。