Перейти к содержанию

Мониторинг GPU

nvidia-smi

# Однократный вывод
nvidia-smi

# Непрерывный мониторинг (обновление каждую секунду)
watch -n 1 nvidia-smi

# Мониторинг с выводом в CSV
nvidia-smi --query-gpu=timestamp,name,pci.bus_id,driver_version,pstate,temperature.gpu,utilization.gpu,utilization.memory,memory.total,memory.free,memory.used --format=csv -l 5 > /opt/llm-firewall/logs/gpu_metrics.csv

Мониторинг памяти GPU

# Использование памяти GPU
nvidia-smi --query-gpu=memory.used,memory.total --format=csv

# Процессы использующие GPU
nvidia-smi --query-compute-apps=pid,name,used_memory --format=csv

Prometheus-метрики

API Gateway предоставляет Prometheus-метрики на порту 9091 (localhost:9091/metrics).

Ключевые метрики:

Метрика Описание
gateway_request_duration_seconds Время обработки запросов
gateway_detector_duration_seconds Время работы детекторов
detector_timeout_rate Процент таймаутов детекторов
event_exporter_events_exported_total Экспортированные события
event_exporter_export_errors_total Ошибки экспорта