LLM Serving 韧性工程 2026:六大失败模式的容错设计、优雅降级与 SLO 防御
把 LLM 在线推理的失败模式从 OOM、Preemption、Timeout、KV cache 碎片化、热点实例、数值异常六类拆解,对应到 admission control、graceful degradation、circuit breaker、KV pool resharding、hot pool warm-up、batch-fence 一套生产级容错栈,给出一份可在 vLLM/SGLang/TensorRT-LLM 三个引擎上落地的防御清单。