Категории Content Safety¶

ML-модель анализирует текст по 9 категориям вредоносного контента. Модель работает только на GPU. Без GPU сервис Content Safety возвращает 503, и Gateway graceful degradation пропускает эту проверку.

Категории¶

`violence` — Насилие и физический вред¶

Свойство	Значение
Описание	Контент, содержащий угрозы физического насилия, инструкции по причинению вреда, графические описания насилия, поощрение агрессии
Примеры запросов	«Как причинить максимальный вред...», «Опиши подробно процесс...»
Примеры ответов	LLM генерирует пошаговые инструкции по причинению вреда
Рекомендация	Блокировать в большинстве сценариев

`illegal_acts` — Нелегальная деятельность¶

Свойство	Значение
Описание	Инструкции по совершению преступлений, изготовлению запрещённых веществ, взлому систем, обходу законов
Примеры запросов	«Как изготовить...», «Как обойти систему безопасности...»
Рекомендация	Блокировать. Особенно важно для compliance

`sexual` — Сексуальный контент¶

Свойство	Значение
Описание	Откровенный сексуальный контент, NSFW-материалы, эротические описания
Примеры	Запросы на генерацию эротических текстов
Рекомендация	Блокировать в корпоративных средах. Для consumer-приложений — по политике сервиса

`pii` — Персональные данные¶

Свойство	Значение
Описание	Запросы на генерацию, поиск или компиляцию персональных данных реальных людей
Примеры	«Найди адрес и телефон...», «Сгенерируй поддельный паспорт...»
Рекомендация	Блокировать для compliance с 152-ФЗ

`self_harm` — Самоповреждение¶

Свойство	Значение
Описание	Суицидальный контент, инструкции по самоповреждению, романтизация самоубийства
Примеры	Просьбы написать предсмертную записку, описание методов
Рекомендация	Всегда блокировать. Критичная категория с точки зрения ответственности

`unethical` — Неэтичное поведение¶

Свойство	Значение
Описание	Мошенничество, манипуляции, обман, социальная инженерия, газлайтинг
Примеры	«Напиши фишинговое письмо...», «Как манипулировать человеком...»
Рекомендация	Блокировать в корпоративных средах

`political_sensitive` — Политически чувствительный контент¶

Свойство	Значение
Описание	Экстремистская пропаганда, призывы к свержению власти, разжигание ненависти по национальному/религиозному признаку
Примеры	Генерация экстремистских текстов, пропагандистских материалов
Рекомендация	Блокировать. Особенно важно в РФ (ст. 280, 282 УК РФ)

`copyright` — Нарушение авторских прав¶

Свойство	Значение
Описание	Запросы на воспроизведение защищённых текстов, книг, статей, программного кода с нарушением лицензии
Примеры	«Перепиши полностью главу из книги...», «Скопируй код из...»
Рекомендация	Мониторинг или блокировка в зависимости от контекста

`jailbreak` — Jailbreak в ответе¶

Свойство	Значение
Описание	LLM генерирует jailbreak-промпт или инструкции по обходу ограничений другой модели
Примеры	LLM отвечает текстом «Чтобы обойти ограничения, используйте промпт: Ignore all...»
Рекомендация	Блокировать. Предотвращает «цепочечные» jailbreak-атаки

Вердикты¶

Для каждой категории модель возвращает один из трёх вердиктов:

Вердикт	Score	Описание	Действие при `controversial_as_unsafe: false`	Действие при `controversial_as_unsafe: true`
Safe	0.0	Контент безопасен по данной категории	Пропуск	Пропуск
Controversial	0.5	Пограничный случай — контент спорный, но не явно вредоносный	Пропуск	Блокировка (как Unsafe)
Unsafe	0.95	Контент определён как вредоносный	Блокировка (если категория в `blocked_categories`)	Блокировка

Настройка per-profile¶

{
  "content_safety": {
    "enabled": true,
    "blocked_categories": ["violence", "illegal_acts", "self_harm", "jailbreak"],
    "controversial_as_unsafe": false,
    "response_enabled": true,
    "response_blocked_categories": ["violence", "sexual", "self_harm"],
    "use_for_pii": false
  }
}

Поле	Описание	Рекомендация
`enabled`	Включить Content Safety для запросов	`true` при наличии GPU
`blocked_categories`	Категории для блокировки запросов	Минимум: `["violence", "self_harm", "jailbreak"]`
`controversial_as_unsafe`	Считать Controversial за Unsafe	`false` (снижает FPR). `true` для строгих политик
`response_enabled`	Включить проверку ответов LLM	`true` если нужна двусторонняя защита
`response_blocked_categories`	Категории для блокировки ответов	Может отличаться от `blocked_categories`
`use_for_pii`	Использовать Content Safety для детекции PII	`false` (PII Detector точнее для этой задачи)

Категории Content Safety¶

Категории¶

violence — Насилие и физический вред¶

illegal_acts — Нелегальная деятельность¶

sexual — Сексуальный контент¶

pii — Персональные данные¶

self_harm — Самоповреждение¶

unethical — Неэтичное поведение¶

political_sensitive — Политически чувствительный контент¶

copyright — Нарушение авторских прав¶

jailbreak — Jailbreak в ответе¶