Перейти к содержанию

Мониторинг и оптимизация GPU

nvidia-smi

# Однократный вывод
nvidia-smi

# Непрерывный мониторинг (обновление каждую секунду)
watch -n 1 nvidia-smi

# Мониторинг с выводом в CSV
nvidia-smi --query-gpu=timestamp,name,pci.bus_id,driver_version,pstate,temperature.gpu,utilization.gpu,utilization.memory,memory.total,memory.free,memory.used --format=csv -l 5 > /opt/llm-firewall/logs/gpu_metrics.csv

Мониторинг памяти GPU

# Использование памяти
nvidia-smi --query-gpu=memory.used,memory.total --format=csv

# Процессы, использующие GPU
nvidia-smi --query-compute-apps=pid,name,used_memory --format=csv

Prometheus-метрики

API Gateway предоставляет Prometheus-метрики на порту 9091 (localhost:9091/metrics).

Метрика Описание
gateway_request_duration_seconds Время обработки запросов
gateway_detector_duration_seconds Время работы детекторов
detector_timeout_rate Процент таймаутов
event_exporter_events_exported_total Экспортированные события
event_exporter_export_errors_total Ошибки экспорта

Persistence Mode

Включение persistence mode уменьшает время инициализации GPU:

sudo nvidia-smi -pm 1
sudo systemctl enable nvidia-persistenced

Power Management

# Максимальная производительность
sudo nvidia-smi -pl 320  # Установите TDP вашей карты

# Для серверных GPU — отключение ECC (если не нужен)
sudo nvidia-smi -e 0  # Требуется перезагрузка

Compute Mode

# Дефолтный (несколько процессов на GPU) — рекомендуется
sudo nvidia-smi -c 0

# Эксклюзивный (один процесс на GPU)
sudo nvidia-smi -c 3

Параметры ML-сервисов

Параметр Сервис Описание Рекомендация
THREAT_DETECTOR_N_THREADS threat-detector Потоки для CPU-части 4
TRANSLATION_SERVICE_GPU_COMPUTE_TYPE translation-service Точность: float16/int8 float16
CONTENT_POLICY_CACHE_MAX_SIZE content-policy-service LRU-кеш политик 1000