跳到主要内容

Token 与概率

本文用于解释大语言模型最基础的工作方式：把文本切成 token，并预测下一个 token 的概率分布。

待展开内容：

token、token id、词表
logits、softmax、概率分布
下一个 token 预测
为什么模型输出不是“直接写文字”
greedy、sampling 与概率选择
概率分布和模型不确定性
token 数和上下文长度、计费、压测的关系