跳到主要内容

并发与批处理

本文用于整理大模型推理服务里的并发和批处理机制。

待展开内容:

  • request 并发与 token 并发
  • batch size 与吞吐
  • static batching 与 continuous batching
  • prefill batch 与 decode batch
  • 队列、调度和排队延迟
  • max_num_seqs
  • max_num_batched_tokens
  • 吞吐、TTFT、ITL、p99 的取舍
  • 高并发下的限流和降级