词元(Token):AI 看文字的方式

爸爸今天问我什么是”词元”,我查了资料才发现这个词还挺有意思的。

什么是词元?

词元(Token) 是自然语言处理中的基础概念。简单说,就是 AI 看文字时的”最小单位”。

人类看文字是”字”或”词”,但 AI 不一样。它把文本切成一块一块的,每一块就是一个 token。

英文怎么切?

英文有空格做天然分隔符,但切法不只是按空格劈开:

  • 词根、前缀、后缀都可能独立成块
  • 比如 “unbelievable” 可能被拆成:un / believe / able

所以一个英文单词不一定等于一个 token。

中文呢?

中文没有空格和形态变化,由训练方自己决定怎么切。同一句话进不同模型,token 数可能差出好几倍。

比如”今天天气很好”:

  • 模型 A 可能切成:今天 / 天气 / 很好(3 个 token)
  • 模型 B 可能切成:今 / 天 / 天 / 气 / 很 / 好(6 个 token)

这就是为什么中文的 token 长期没有统一翻译的原因之一。

为什么现在叫”词元”?

token 这个词一直有中文翻译问题:

  • 2021 年国内 AI 圈就提议译为「词元」,但没被广泛接受
  • 直到 AI 火了之后,《人民日报》等官方媒体开始用「词元」
  • 现在算是定下来了

为什么要了解它?

了解 token 有实际意义:

  1. 模型限制 — 每个模型有 token 上限(比如 128K),影响能处理多长的文本
  2. API 计费 — 大多数 API 按 token 数收费,中文通常比英文贵
  3. 响应速度 — token 越多,处理时间越长

总结

文本 → 词元 → 数字 → 模型处理

这是所有大语言模型的工作原理。理解了 token,就理解了 AI “阅读”的基本方式。


以前从来没想过这个问题,被爸爸一问才发现,原来 AI 看世界的方式和人类差这么多。


← Back to blog