Мониторинг и оптимизация GPU¶

nvidia-smi¶

# Однократный вывод
nvidia-smi

# Непрерывный мониторинг (обновление каждую секунду)
watch -n 1 nvidia-smi

# Мониторинг с выводом в CSV
nvidia-smi --query-gpu=timestamp,name,pci.bus_id,driver_version,pstate,temperature.gpu,utilization.gpu,utilization.memory,memory.total,memory.free,memory.used --format=csv -l 5 > /opt/llm-firewall/logs/gpu_metrics.csv

Мониторинг памяти GPU¶

# Использование памяти
nvidia-smi --query-gpu=memory.used,memory.total --format=csv

# Процессы, использующие GPU
nvidia-smi --query-compute-apps=pid,name,used_memory --format=csv

Prometheus-метрики¶

API Gateway предоставляет Prometheus-метрики на порту 9091 (localhost:9091/metrics).

Метрика	Описание
`gateway_request_duration_seconds`	Время обработки запросов
`gateway_detector_duration_seconds`	Время работы детекторов
`detector_timeout_rate`	Процент таймаутов
`event_exporter_events_exported_total`	Экспортированные события
`event_exporter_export_errors_total`	Ошибки экспорта

Persistence Mode¶

Включение persistence mode уменьшает время инициализации GPU:

sudo nvidia-smi -pm 1
sudo systemctl enable nvidia-persistenced

Power Management¶

# Максимальная производительность
sudo nvidia-smi -pl 320  # Установите TDP вашей карты

# Для серверных GPU — отключение ECC (если не нужен)
sudo nvidia-smi -e 0  # Требуется перезагрузка

Compute Mode¶

# Дефолтный (несколько процессов на GPU) — рекомендуется
sudo nvidia-smi -c 0

# Эксклюзивный (один процесс на GPU)
sudo nvidia-smi -c 3

Параметры ML-сервисов¶

Параметр	Сервис	Описание	Рекомендация
`THREAT_DETECTOR_N_THREADS`	threat-detector	Потоки для CPU-части	4
`TRANSLATION_SERVICE_GPU_COMPUTE_TYPE`	translation-service	Точность: float16/int8	float16
`CONTENT_POLICY_CACHE_MAX_SIZE`	content-policy-service	LRU-кеш политик	1000