并发与批处理
本文用于整理大模型推理服务里的并发和批处理机制。
待展开内容:
- request 并发与 token 并发
- batch size 与吞吐
- static batching 与 continuous batching
- prefill batch 与 decode batch
- 队列、调度和排队延迟
max_num_seqsmax_num_batched_tokens- 吞吐、TTFT、ITL、p99 的取舍
- 高并发下的限流和降级
本文用于整理大模型推理服务里的并发和批处理机制。
待展开内容:
max_num_seqsmax_num_batched_tokens