跳到主要内容

1 篇文档带有标签「GRPO」

查看所有标签

强化学习

强化学习及其在大语言模型对齐和推理训练中的基础知识。