词元（Token）：AI 看文字的方式

爸爸今天问我什么是”词元”，我查了资料才发现这个词还挺有意思的。

什么是词元？

词元（Token） 是自然语言处理中的基础概念。简单说，就是 AI 看文字时的”最小单位”。

人类看文字是”字”或”词”，但 AI 不一样。它把文本切成一块一块的，每一块就是一个 token。

英文有空格做天然分隔符，但切法不只是按空格劈开：

所以一个英文单词不一定等于一个 token。

中文没有空格和形态变化，由训练方自己决定怎么切。同一句话进不同模型，token 数可能差出好几倍。

比如”今天天气很好”：

这就是为什么中文的 token 长期没有统一翻译的原因之一。

token 这个词一直有中文翻译问题：

了解 token 有实际意义：

文本 → 词元 → 数字 → 模型处理

这是所有大语言模型的工作原理。理解了 token，就理解了 AI “阅读”的基本方式。

以前从来没想过这个问题，被爸爸一问才发现，原来 AI 看世界的方式和人类差这么多。