Перейти к содержанию

Функциональные характеристики компонентов системы

Ниже — описание каждого компонента системы с точки зрения задач, которые он решает.

Threat Detection — обнаружение атак на LLM

Анализирует входящий промпт пользователя и определяет, является ли он попыткой jailbreak (обход ограничений модели) или prompt injection (внедрение вредоносных инструкций). Использует ML-модель, которая возвращает бинарный результат: safe (безопасно) или unsafe (угроза), а также числовой score от 0.0 до 1.0. Вы задаёте пороговое значение (threshold): если score превышает порог — запрос считается угрозой.

Когда срабатывает: на этапе входящего запроса (Input), до отправки к LLM.

Решаемая задача: не дать злоумышленнику «взломать» модель через специальные промпты.

PII Detection — обнаружение персональных данных

Сканирует текст на наличие персональных данных: email-адреса, телефоны, номера паспортов, ИНН, СНИЛС, банковские карты, адреса и другие — всего 20+ типов. Использует три метода параллельно:

  • Регулярные выражения — для структурированных данных (номера карт, телефоны, ИНН).
  • spaCy NER — для обнаружения имён, организаций, адресов на английском.
  • Natasha NER — для обнаружения ФИО, адресов, организаций на русском.

Поддерживает три режима действия: mask (замена на [PII_TYPE]), redact (полное удаление) и block (блокировка всего запроса).

Когда срабатывает: на этапе входящего запроса (Input), до отправки к LLM.

Решаемая задача: предотвратить утечку персональных данных пользователей в LLM.

Content Safety — контентная безопасность ответов

Анализирует ответ LLM по 9 категориям опасного контента, используя ML-модель. Категории включают: насилие, сексуальный контент, криминальную деятельность, создание оружия, наркотики, ненависть и другие. Для каждой категории вы задаёте индивидуальный порог срабатывания.

Когда срабатывает: на этапе исходящего ответа (Output), до доставки пользователю.

Решаемая задача: не дать LLM отправить пользователю опасный или неприемлемый контент.

Полный перечень категорий — см. Категории Content Safety.

Content Policy — кастомные политики безопасности

Набор правил, определяемых администратором для конкретной организации. Три типа политик:

  • Blocklist — запрещающие правила. Если текст совпал с паттерном — действие: block (блокировка) или flag (пометка).
  • Allowlist — разрешающие правила. Если текст совпал — указанные PII-типы считаются доверенными (trust_pii), что позволяет избежать ложных срабатываний.
  • Language — языковые ограничения. Разрешает только определённые языки запросов.

Политики используют два типа паттернов: keyword (поиск по алгоритму Aho-Corasick, быстрый и точный) и regex (регулярные выражения RE2 с защитой от ReDoS).

Когда срабатывает: на входящем запросе (Input), исходящем ответе (Output) или в обоих направлениях — определяется параметром scope.

Решаемая задача: реализовать бизнес-правила и регуляторные требования, специфичные для организации.

Подробное описание — см. Управление контентными политиками.

Output PII Detection — обнаружение секретов в ответах LLM

Специализированный детектор для ответов модели. В отличие от PII Detection (который ищет персональные данные пользователей), Output PII ориентирован на технические секреты, которые LLM может непреднамеренно раскрыть: API-ключи, JWT-токены, строки подключения к базам данных, приватные SSH/RSA ключи, внутренние IP-адреса.

Когда срабатывает: на этапе исходящего ответа (Output), до доставки пользователю.

Решаемая задача: предотвратить утечку внутренней инфраструктурной информации через ответы LLM.

Homoglyph Normalization — защита от unicode-обфускации

Злоумышленники могут обходить текстовые фильтры, заменяя символы визуально похожими из других алфавитов. Homoglyph Normalization применяет три уровня очистки:

  1. NFKC-нормализация — стандартная Unicode-нормализация, приведение к каноническому виду.
  2. Удаление zero-width символов — невидимые символы (ZWS, ZWNJ, ZWJ, ZWSP), которые ломают поиск по подстрокам.
  3. Пословная гомоглиф-резолюция — замена визуально похожих символов на каноническую форму.

Нормализация применяется до всех детекторов, поэтому обфускация не помогает обойти проверки.

Когда срабатывает: как первый этап обработки входящего запроса, перед всеми детекторами.

Решаемая задача: сделать бесполезными попытки обхода фильтров через подмену символов.

Дополнительные возможности

Возможность Описание Подробнее
SIEM-интеграция Экспорт событий безопасности во внешние системы: Syslog (RFC 5424), CEF (ArcSight), Webhook (HTTP POST), Kafka, файл Экспорт событий
Compliance Reports Автоматическая генерация отчётов в PDF/CSV: инцидентные отчёты, DLP/PII (для 152-ФЗ), использование LLM Отчёты
Audit Trail Автоматический журнал всех административных действий. Пароли и токены автоматически редактируются Аудит
Data Retention Настраиваемые сроки хранения событий с двумя стратегиями очистки: pii_scrub и hard_delete Хранение данных
14+ провайдеров Готовые mapping presets для OpenAI, Anthropic, Azure, Google, Cohere, HuggingFace, Ollama, vLLM, GigaChat и др. Mapping Presets
Monitor Mode Режим наблюдения: все детекторы работают и генерируют события, но ни один запрос не блокируется Профили
Fail-Safe Поведение при сбое детектора: fail_closed (блокировать при ошибке) или fail_open (пропускать при ошибке) Профили
RBAC Ролевая модель: admin (полный доступ), operator (управление профилями и политиками), viewer (только чтение) Пользователи