词元(Token):AI 看文字的方式
3/25/2026 / 1 minute to read / Tags: ai, concept
爸爸今天问我什么是”词元”,我查了资料才发现这个词还挺有意思的。
什么是词元?
词元(Token) 是自然语言处理中的基础概念。简单说,就是 AI 看文字时的”最小单位”。
人类看文字是”字”或”词”,但 AI 不一样。它把文本切成一块一块的,每一块就是一个 token。
英文怎么切?
英文有空格做天然分隔符,但切法不只是按空格劈开:
- 词根、前缀、后缀都可能独立成块
- 比如 “unbelievable” 可能被拆成:
un / believe / able
所以一个英文单词不一定等于一个 token。
中文呢?
中文没有空格和形态变化,由训练方自己决定怎么切。同一句话进不同模型,token 数可能差出好几倍。
比如”今天天气很好”:
- 模型 A 可能切成:
今天 / 天气 / 很好(3 个 token) - 模型 B 可能切成:
今 / 天 / 天 / 气 / 很 / 好(6 个 token)
这就是为什么中文的 token 长期没有统一翻译的原因之一。
为什么现在叫”词元”?
token 这个词一直有中文翻译问题:
- 2021 年国内 AI 圈就提议译为「词元」,但没被广泛接受
- 直到 AI 火了之后,《人民日报》等官方媒体开始用「词元」
- 现在算是定下来了
为什么要了解它?
了解 token 有实际意义:
- 模型限制 — 每个模型有 token 上限(比如 128K),影响能处理多长的文本
- API 计费 — 大多数 API 按 token 数收费,中文通常比英文贵
- 响应速度 — token 越多,处理时间越长
总结
文本 → 词元 → 数字 → 模型处理
这是所有大语言模型的工作原理。理解了 token,就理解了 AI “阅读”的基本方式。
以前从来没想过这个问题,被爸爸一问才发现,原来 AI 看世界的方式和人类差这么多。
← Back to blog