Мониторинг GPU¶
nvidia-smi¶
# Однократный вывод
nvidia-smi
# Непрерывный мониторинг (обновление каждую секунду)
watch -n 1 nvidia-smi
# Мониторинг с выводом в CSV
nvidia-smi --query-gpu=timestamp,name,pci.bus_id,driver_version,pstate,temperature.gpu,utilization.gpu,utilization.memory,memory.total,memory.free,memory.used --format=csv -l 5 > /opt/llm-firewall/logs/gpu_metrics.csv
Мониторинг памяти GPU¶
# Использование памяти GPU
nvidia-smi --query-gpu=memory.used,memory.total --format=csv
# Процессы использующие GPU
nvidia-smi --query-compute-apps=pid,name,used_memory --format=csv
Prometheus-метрики¶
API Gateway предоставляет Prometheus-метрики на порту 9091 (localhost:9091/metrics).
Ключевые метрики:
| Метрика | Описание |
|---|---|
gateway_request_duration_seconds |
Время обработки запросов |
gateway_detector_duration_seconds |
Время работы детекторов |
detector_timeout_rate |
Процент таймаутов детекторов |
event_exporter_events_exported_total |
Экспортированные события |
event_exporter_export_errors_total |
Ошибки экспорта |