广西壮族自治区网站建设_网站建设公司_过渡效果_seo优化
2026/3/2 12:12:22 网站建设 项目流程

目标:为本地/私有化 LLM 部署建立可观测性,覆盖指标采集、日志结构化、可视化面板与报警实践,适用于 vLLM/TGI/llama.cpp 等。

1. 监控范围

  • 性能:TTFT、p50/p95/p99 延迟、tokens/s、QPS、并发数。
  • 资源:GPU 显存/利用率、CPU、内存、磁盘 I/O、网络。
  • 质量:错误率、超时、重试、拒答率、敏感词命中。
  • 成本:tokens 消耗、缓存命中率。

2. 指标采集

  • vLLM/TGI:自带 Prometheus 端点(如:8000/metrics),包含请求延迟、tokens、显存。
  • llama.cpp:可通过--metrics或 exporter(如 telegraf + exec)采集;
  • GPU:nvidia-smi --query-gpu=utilization.gpu,memory.used --format=csv
  • 自定义:在网关/业务层增加请求计数、错误率、命中缓存等指标。

3. 日志

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询