Мониторинг и оптимизация GPU¶
nvidia-smi¶
# Однократный вывод
nvidia-smi
# Непрерывный мониторинг (обновление каждую секунду)
watch -n 1 nvidia-smi
# Мониторинг с выводом в CSV
nvidia-smi --query-gpu=timestamp,name,pci.bus_id,driver_version,pstate,temperature.gpu,utilization.gpu,utilization.memory,memory.total,memory.free,memory.used --format=csv -l 5 > /opt/llm-firewall/logs/gpu_metrics.csv
Мониторинг памяти GPU¶
# Использование памяти
nvidia-smi --query-gpu=memory.used,memory.total --format=csv
# Процессы, использующие GPU
nvidia-smi --query-compute-apps=pid,name,used_memory --format=csv
Prometheus-метрики¶
API Gateway предоставляет Prometheus-метрики на порту 9091 (localhost:9091/metrics).
| Метрика | Описание |
|---|---|
gateway_request_duration_seconds |
Время обработки запросов |
gateway_detector_duration_seconds |
Время работы детекторов |
detector_timeout_rate |
Процент таймаутов |
event_exporter_events_exported_total |
Экспортированные события |
event_exporter_export_errors_total |
Ошибки экспорта |
Persistence Mode¶
Включение persistence mode уменьшает время инициализации GPU:
Power Management¶
# Максимальная производительность
sudo nvidia-smi -pl 320 # Установите TDP вашей карты
# Для серверных GPU — отключение ECC (если не нужен)
sudo nvidia-smi -e 0 # Требуется перезагрузка
Compute Mode¶
# Дефолтный (несколько процессов на GPU) — рекомендуется
sudo nvidia-smi -c 0
# Эксклюзивный (один процесс на GPU)
sudo nvidia-smi -c 3
Параметры ML-сервисов¶
| Параметр | Сервис | Описание | Рекомендация |
|---|---|---|---|
THREAT_DETECTOR_N_THREADS |
threat-detector | Потоки для CPU-части | 4 |
TRANSLATION_SERVICE_GPU_COMPUTE_TYPE |
translation-service | Точность: float16/int8 | float16 |
CONTENT_POLICY_CACHE_MAX_SIZE |
content-policy-service | LRU-кеш политик | 1000 |