跳到主要内容

可观测性

本文用于整理大模型应用的线上观测和排障体系。

待展开内容:

  • 请求日志
  • prompt 和 output 采样
  • token usage
  • TTFT、ITL、E2E latency
  • GPU 利用率和显存
  • 错误码和异常分类
  • trace id 和链路追踪
  • RAG 召回日志
  • 工具调用日志
  • 安全与隐私脱敏
  • 告警和仪表盘