跳到主要内容

生成与解码

本文用于解释模型如何从下一个 token 概率分布生成最终文本。

待展开内容：

greedy decoding
sampling
temperature
top_p / nucleus sampling
top_k
beam search
repetition penalty
stop token
为什么同一个问题每次回答可能不同
不同任务的解码策略建议