LLM 可观测性工程实战 2026:从 OpenTelemetry GenAI 语义约定到生产级 trace 架构
当 LLM 应用进入生产,APM 工具的 QPS/P95/ErrorRate 已不再充分。本文从 8 个 GitHub 仓库实时数据出发,拆解 LLM 可观测性的 5 类核心信号(token/cost/latency/quality/retrieval)、OpenTelemetry GenAI 语义约定的标准化进程、Langfuse/Opik/Phoenix/OpenLLMetry/Helicone 五大开源项目横向对比,以及 5 个生产级工程模式与三类典型事故案例。