📄️ Chat Template1. 为什么需要 Chat Template📄️ 模型尺寸与显存估算总体公式📄️ 模型性能压测指标模型服务压测不应该只看“每秒多少请求”。LLM 推理有输入阶段、生成阶段、流式返回、KV Cache 和显存管理等特征,所以需要同时关注延迟、吞吐、token 分布、稳定性和资源利用率。📄️ 模型质量待补充模型质量相关指标、评测方法和案例。
📄️ 模型性能压测指标模型服务压测不应该只看“每秒多少请求”。LLM 推理有输入阶段、生成阶段、流式返回、KV Cache 和显存管理等特征,所以需要同时关注延迟、吞吐、token 分布、稳定性和资源利用率。