知识体系工程化知识流式输出流式输出 本文用于整理大模型服务中 streaming 输出的工程实现。 待展开内容: 为什么需要流式输出 OpenAI-compatible streaming 响应结构 SSE 与 WebSocket 的区别 TTFT 与用户体感延迟 chunk、delta、finish_reason 前端渲染和中断处理 服务端取消生成 流式输出中的错误处理 日志、审计和内容安全