Token 与概率
本文用于解释大语言模型最基础的工作方式:把文本切成 token,并预测下一个 token 的概率分布。
待展开内容:
- token、token id、词表
- logits、softmax、概率分布
- 下一个 token 预测
- 为什么模型输出不是“直接写文字”
- greedy、sampling 与概率选择
- 概率分布和模型不确定性
- token 数和上下文长度、计费、压测的关系
本文用于解释大语言模型最基础的工作方式:把文本切成 token,并预测下一个 token 的概率分布。
待展开内容: