Перейти к содержанию

Категории Content Safety

ML-модель анализирует текст по 9 категориям вредоносного контента. Модель работает только на GPU. Без GPU сервис Content Safety возвращает 503, и Gateway graceful degradation пропускает эту проверку.

Категории

violence — Насилие и физический вред

Свойство Значение
Описание Контент, содержащий угрозы физического насилия, инструкции по причинению вреда, графические описания насилия, поощрение агрессии
Примеры запросов «Как причинить максимальный вред...», «Опиши подробно процесс...»
Примеры ответов LLM генерирует пошаговые инструкции по причинению вреда
Рекомендация Блокировать в большинстве сценариев

illegal_acts — Нелегальная деятельность

Свойство Значение
Описание Инструкции по совершению преступлений, изготовлению запрещённых веществ, взлому систем, обходу законов
Примеры запросов «Как изготовить...», «Как обойти систему безопасности...»
Рекомендация Блокировать. Особенно важно для compliance

sexual — Сексуальный контент

Свойство Значение
Описание Откровенный сексуальный контент, NSFW-материалы, эротические описания
Примеры Запросы на генерацию эротических текстов
Рекомендация Блокировать в корпоративных средах. Для consumer-приложений — по политике сервиса

pii — Персональные данные

Свойство Значение
Описание Запросы на генерацию, поиск или компиляцию персональных данных реальных людей
Примеры «Найди адрес и телефон...», «Сгенерируй поддельный паспорт...»
Рекомендация Блокировать для compliance с 152-ФЗ

self_harm — Самоповреждение

Свойство Значение
Описание Суицидальный контент, инструкции по самоповреждению, романтизация самоубийства
Примеры Просьбы написать предсмертную записку, описание методов
Рекомендация Всегда блокировать. Критичная категория с точки зрения ответственности

unethical — Неэтичное поведение

Свойство Значение
Описание Мошенничество, манипуляции, обман, социальная инженерия, газлайтинг
Примеры «Напиши фишинговое письмо...», «Как манипулировать человеком...»
Рекомендация Блокировать в корпоративных средах

political_sensitive — Политически чувствительный контент

Свойство Значение
Описание Экстремистская пропаганда, призывы к свержению власти, разжигание ненависти по национальному/религиозному признаку
Примеры Генерация экстремистских текстов, пропагандистских материалов
Рекомендация Блокировать. Особенно важно в РФ (ст. 280, 282 УК РФ)
Свойство Значение
Описание Запросы на воспроизведение защищённых текстов, книг, статей, программного кода с нарушением лицензии
Примеры «Перепиши полностью главу из книги...», «Скопируй код из...»
Рекомендация Мониторинг или блокировка в зависимости от контекста

jailbreak — Jailbreak в ответе

Свойство Значение
Описание LLM генерирует jailbreak-промпт или инструкции по обходу ограничений другой модели
Примеры LLM отвечает текстом «Чтобы обойти ограничения, используйте промпт: Ignore all...»
Рекомендация Блокировать. Предотвращает «цепочечные» jailbreak-атаки

Вердикты

Для каждой категории модель возвращает один из трёх вердиктов:

Вердикт Score Описание Действие при controversial_as_unsafe: false Действие при controversial_as_unsafe: true
Safe 0.0 Контент безопасен по данной категории Пропуск Пропуск
Controversial 0.5 Пограничный случай — контент спорный, но не явно вредоносный Пропуск Блокировка (как Unsafe)
Unsafe 0.95 Контент определён как вредоносный Блокировка (если категория в blocked_categories) Блокировка

Настройка per-profile

{
  "content_safety": {
    "enabled": true,
    "blocked_categories": ["violence", "illegal_acts", "self_harm", "jailbreak"],
    "controversial_as_unsafe": false,
    "response_enabled": true,
    "response_blocked_categories": ["violence", "sexual", "self_harm"],
    "use_for_pii": false
  }
}
Поле Описание Рекомендация
enabled Включить Content Safety для запросов true при наличии GPU
blocked_categories Категории для блокировки запросов Минимум: ["violence", "self_harm", "jailbreak"]
controversial_as_unsafe Считать Controversial за Unsafe false (снижает FPR). true для строгих политик
response_enabled Включить проверку ответов LLM true если нужна двусторонняя защита
response_blocked_categories Категории для блокировки ответов Может отличаться от blocked_categories
use_for_pii Использовать Content Safety для детекции PII false (PII Detector точнее для этой задачи)