知识体系LLM 基础生成与解码生成与解码 本文用于解释模型如何从下一个 token 概率分布生成最终文本。 待展开内容: greedy decoding sampling temperature top_p / nucleus sampling top_k beam search repetition penalty stop token 为什么同一个问题每次回答可能不同 不同任务的解码策略建议