跳到主要内容

流式输出

本文用于整理大模型服务中 streaming 输出的工程实现。

待展开内容:

  • 为什么需要流式输出
  • OpenAI-compatible streaming 响应结构
  • SSE 与 WebSocket 的区别
  • TTFT 与用户体感延迟
  • chunk、delta、finish_reason
  • 前端渲染和中断处理
  • 服务端取消生成
  • 流式输出中的错误处理
  • 日志、审计和内容安全