最近,“词元” 这个词突然走进了大众视野,不少人在科技新闻、AI 产品介绍里都看到了这个陌生又有点熟悉的词,纷纷好奇:词元到底是什么意思?它和我们常说的字、词有什么区别?为什么国家要专门给它定一个统一的中文名?
从译名混战到官方定名:词元的正式落地
这一切的源头,是 2026 年 3 月 23 日在中国发展高层论坛 2026 年年会上的一次重磅官宣。国家数据局局长刘烈宏在演讲中正式宣布,人工智能领域的核心术语 “Token”,其标准中文译名定为 “词元”。

(图片来源:新浪微博)
这看似只是一个简单的翻译统一,实则终结了困扰 AI 产业多年的术语混乱。在此之前,“Token” 这个英文词在不同领域、不同圈子里有着完全不同的叫法:
- 在区块链领域,它被译为 “代币”“通证”;
- 在网络安全领域,它被叫做 “令牌”;
- 在编译原理领域,它被称为 “标记”;
- 而在 AI 大模型圈子里,更是出现了 “智元”“模元”“符元” 等十余个候选译名,各有各的主张,各有各的道理。
这种混乱不仅让普通用户一头雾水,甚至连行业内部的交流、产业统计、政策落地都遇到了障碍。直到这次官方定名,才终于给这场持续多年的争论画上了句号。
| 学科领域 | 中文名 | 英文名 |
|---|---|---|
| 计算机科学技术/人工智能 | 词元 | token |
事实上,“词元” 这个译名并非临时起意。早在多年前,全国科学技术名词审定委员会就已经在《计算机科学技术名词》中,将自然语言处理领域的 Token 规范审定为 “词元”,复旦大学等高校的专业教材、中国计算机学会的学术文档也早已沿用这一译法。这次官方官宣,相当于给这个学术规范赋予了产业层面的统一效力,让它从圈内的专业术语,变成了全社会通用的标准概念。

计算机科学技术名词(第三版)
词元到底是什么?AI 世界的最小信息原子
搞懂了定名的背景,我们再来回答最核心的问题:词元到底是什么?
用最通俗的话来说:如果说图像的最小组成单元是像素,计算机存储的最小计量单位是字节,那么大模型处理信息的最小单元,就是词元。
我们人类可以直接读懂一整句话、一整篇文章,但 AI 做不到。它没办法直接理解 “我爱中国” 这四个字背后的情感和意义,它必须先把我们输入的文本、代码,甚至是图像、音频等多模态信息,拆分成一个个最小的、可以被机器计算的信息小单元,然后把这些单元转换成数字编号,再进行编码、推理、运算,最后才能生成我们看到的回答。这些被拆分出来的最小单元,就是词元。
举个最直观的例子:当你输入 “我爱中国!” 这句话时,大模型会先把它拆分成 “我”“爱”“中国”“!” 这四个独立的词元,然后再对这四个词元进行处理。
很多人会问:那词元不就是我们说的字或者词吗?其实并不是。词元的划分是由模型的分词器(Tokenizer)决定的,它的粒度介于 “字” 和 “词” 之间,非常灵活:
- 它可以是一个完整的汉字,比如 “我”;
- 它可以是一个常用的词语,比如 “中国”;
- 它可以是一个标点符号,比如感叹号;
- 它甚至可以是一个单词的片段,比如英文里的 “unhappiness”,会被拆成 “un” 和 “happiness” 两个词元,这样既能压缩词表大小,又能处理那些罕见的、没见过的新词。
对于中文用户来说,有一个非常实用的换算经验:通常情况下,1 个词元大约对应 1.5\1.7 个汉字。也就是说,我们平时写的一篇 1000 字的文章,大概会被拆成 600\700 个词元。这个换算关系,也是我们平时看大模型的计费套餐、上下文窗口限制时,最核心的参考依据。
为什么词元这么重要?它是智能时代的价值锚点
词元之所以能成为国家级的标准术语,绝不仅仅因为它是一个技术概念,更因为它已经成为了智能时代的核心价值锚点,是整个 AI 产业商业化、规范化的基础。
1. 它是 AI 服务的通用计费单位
相信很多用过 AI API 服务的用户都见过这样的定价:输入 1000 词元多少钱,输出 1000 词元多少钱。为什么大模型不按字数计费,非要按词元?
原因很简单:大模型的运算成本,是由词元数量决定的。不管你输入的是汉字、英文、代码还是标点,每处理一个词元,模型消耗的算力、显存、时间都是相对固定的。按词元计费,是最贴合大模型实际运行成本的方式,也是全球行业通用的标准。
2. 它是衡量模型能力的核心标尺
我们平时常说的 “8k 上下文”“32k 上下文”“128k 上下文”,这里的单位其实就是词元。它代表着这个大模型最多能同时处理多少个词元的信息,换句话说,就是模型一次最多能 “记住” 多少内容。超过这个限制,模型就会把前面的内容 “忘掉”,无法再参考之前的对话或者文档。
3. 它是智能时代的新度量衡
国家数据局的官方表述说得非常清楚:词元不仅是智能时代的价值锚点,更是连接技术供给与商业需求的 “结算单位”,为商业模式的落地提供了可量化的可能。
就像工业时代,我们用 “瓦特” 来衡量动力的大小;互联网时代,我们用 “流量” 来衡量信息传输的规模;到了人工智能时代,词元就成了衡量智能服务规模的新标尺。
官方数据显示,我国的日均词元调用量,已经从 2024 年初的 1000 亿,跃升至 2026 年 3 月的 140 万亿,两年时间增长了超千倍。这个爆炸式的数字,背后是 AI 产业的爆发式发展:AI 客服、智能座舱、编程助手、内容生成…… 每一次 AI 交互,都在消耗词元。
更重要的是,词元让智能服务第一次变得可以量化、可以定价、可以交易。有媒体把词元比喻为智能时代的 “标准化集装箱”:就像集装箱让任何货物都能被标准装卸、全球运输,词元让任何智能服务都能被计量、被定价、被 API 调用。甚至出现了 “词元出口” 这种全新的贸易形态:中国西部的绿电,没办法直接出口,但可以用来驱动 GPU 运算,产出词元,然后通过网线卖给全球用户,增值效率是直接卖电的 22 倍。
别搞混了!这些同名概念要分清
随着 “词元” 这个词的爆火,很多人也产生了新的混淆:原来我之前也听过 “词元”,是不是同一个东西?这里要给大家理清两个最容易搞混的概念:
1. 不同领域的 “Token” 不是一回事
我们刚才说过,“Token” 是一个跨领域的通用词,在不同的场景下,它的意思完全不同:
- AI 大模型领域:Token = 词元,是我们这篇文章讲的,信息处理的最小单元;
- 区块链领域:Token = 代币 / 通证,是加密货币里的价值凭证;
- 网络安全领域:Token = 令牌,是身份验证的临时凭证。
这次官方把 AI 领域的 Token 定名为 “词元”,就是为了彻底区分这些不同的概念,避免大家混淆。
2. 语言学里的 “词元” 是另一个概念
很多学语言学的朋友会问:我学过的 “词元”(Lexeme),是不是就是这个?其实不是,这是两个完全不同的概念,只是刚好同名而已。
语言学里的词元,指的是词的基本形式,是同一个词的不同变形的抽象原型。比如 “run”“runs”“ran”“running”,这四个是同一个词的不同时态变形,它们对应的同一个抽象的词的原型,就是语言学里的词元。
而我们现在说的 AI 里的词元,是大模型处理信息的最小计算单元,两者的内涵完全不同,只是刚好用了同一个中文译名而已,大家不要搞混了。
写在最后
词元这个小小的概念,从符号学里走来,在计算语言学中成长,最终在大模型时代迎来了爆发。它的定名,不仅仅是一个翻译的统一,更是中国 AI 产业从野蛮生长走向规范化、标准化的标志。
有了统一的术语,我们才有了统一的统计口径、统一的产业标准、统一的交流语言,这为 AI 产业的商业化落地、数据要素的市场化配置,打下了最基础的地基。
未来,当你再和 AI 聊天、再用 AI 工具的时候,不妨想一想:你输入的这句话,被拆成了多少个词元?这些小小的单元,背后是算力的支撑、是产业的爆发,更是智能时代的全新脉搏。

免费 AI IDE



