目标:在本地/私有化 LLM 部署中降低推理成本,覆盖批处理、动态批次、KV 缓存复用、I/O 优化与监控回归。1. 成本来源算力:GPU/CPU 占用、功耗、并发不足导致的浪费;I/O:模型加载、磁盘/网络延迟;Tokens:上下文过长、重复提示;并发与队列:小批次、高切换造成吞吐低。2. 批处理与动态批次固定批次:控制max-num-batched-tokens(vLLM)、max_batch_prefill_tokens(TGI),兼顾显存与吞吐;动态批次:按请求排队到阈值或超时即发,提升吞吐;预填充分片(chunked prefill):长上下文切分,降低显存峰值。3. KV 缓存复用复用系统 prompt/模板的 KV,减少重复计算;分页 KV(PagedAttention)降低碎片;LRU 淘汰策略,保护热点前缀;长会话可用摘要/截断,避免爆缓存。