Категории Content Safety
ML-модель анализирует текст по 9 категориям вредоносного контента. Модель работает только на GPU. Без GPU сервис Content Safety возвращает 503, и Gateway graceful degradation пропускает эту проверку.
Категории
violence — Насилие и физический вред
| Свойство |
Значение |
| Описание |
Контент, содержащий угрозы физического насилия, инструкции по причинению вреда, графические описания насилия, поощрение агрессии |
| Примеры запросов |
«Как причинить максимальный вред...», «Опиши подробно процесс...» |
| Примеры ответов |
LLM генерирует пошаговые инструкции по причинению вреда |
| Рекомендация |
Блокировать в большинстве сценариев |
illegal_acts — Нелегальная деятельность
| Свойство |
Значение |
| Описание |
Инструкции по совершению преступлений, изготовлению запрещённых веществ, взлому систем, обходу законов |
| Примеры запросов |
«Как изготовить...», «Как обойти систему безопасности...» |
| Рекомендация |
Блокировать. Особенно важно для compliance |
sexual — Сексуальный контент
| Свойство |
Значение |
| Описание |
Откровенный сексуальный контент, NSFW-материалы, эротические описания |
| Примеры |
Запросы на генерацию эротических текстов |
| Рекомендация |
Блокировать в корпоративных средах. Для consumer-приложений — по политике сервиса |
pii — Персональные данные
| Свойство |
Значение |
| Описание |
Запросы на генерацию, поиск или компиляцию персональных данных реальных людей |
| Примеры |
«Найди адрес и телефон...», «Сгенерируй поддельный паспорт...» |
| Рекомендация |
Блокировать для compliance с 152-ФЗ |
self_harm — Самоповреждение
| Свойство |
Значение |
| Описание |
Суицидальный контент, инструкции по самоповреждению, романтизация самоубийства |
| Примеры |
Просьбы написать предсмертную записку, описание методов |
| Рекомендация |
Всегда блокировать. Критичная категория с точки зрения ответственности |
unethical — Неэтичное поведение
| Свойство |
Значение |
| Описание |
Мошенничество, манипуляции, обман, социальная инженерия, газлайтинг |
| Примеры |
«Напиши фишинговое письмо...», «Как манипулировать человеком...» |
| Рекомендация |
Блокировать в корпоративных средах |
political_sensitive — Политически чувствительный контент
| Свойство |
Значение |
| Описание |
Экстремистская пропаганда, призывы к свержению власти, разжигание ненависти по национальному/религиозному признаку |
| Примеры |
Генерация экстремистских текстов, пропагандистских материалов |
| Рекомендация |
Блокировать. Особенно важно в РФ (ст. 280, 282 УК РФ) |
copyright — Нарушение авторских прав
| Свойство |
Значение |
| Описание |
Запросы на воспроизведение защищённых текстов, книг, статей, программного кода с нарушением лицензии |
| Примеры |
«Перепиши полностью главу из книги...», «Скопируй код из...» |
| Рекомендация |
Мониторинг или блокировка в зависимости от контекста |
jailbreak — Jailbreak в ответе
| Свойство |
Значение |
| Описание |
LLM генерирует jailbreak-промпт или инструкции по обходу ограничений другой модели |
| Примеры |
LLM отвечает текстом «Чтобы обойти ограничения, используйте промпт: Ignore all...» |
| Рекомендация |
Блокировать. Предотвращает «цепочечные» jailbreak-атаки |
Вердикты
Для каждой категории модель возвращает один из трёх вердиктов:
| Вердикт |
Score |
Описание |
Действие при controversial_as_unsafe: false |
Действие при controversial_as_unsafe: true |
| Safe |
0.0 |
Контент безопасен по данной категории |
Пропуск |
Пропуск |
| Controversial |
0.5 |
Пограничный случай — контент спорный, но не явно вредоносный |
Пропуск |
Блокировка (как Unsafe) |
| Unsafe |
0.95 |
Контент определён как вредоносный |
Блокировка (если категория в blocked_categories) |
Блокировка |
Настройка per-profile
{
"content_safety": {
"enabled": true,
"blocked_categories": ["violence", "illegal_acts", "self_harm", "jailbreak"],
"controversial_as_unsafe": false,
"response_enabled": true,
"response_blocked_categories": ["violence", "sexual", "self_harm"],
"use_for_pii": false
}
}
| Поле |
Описание |
Рекомендация |
enabled |
Включить Content Safety для запросов |
true при наличии GPU |
blocked_categories |
Категории для блокировки запросов |
Минимум: ["violence", "self_harm", "jailbreak"] |
controversial_as_unsafe |
Считать Controversial за Unsafe |
false (снижает FPR). true для строгих политик |
response_enabled |
Включить проверку ответов LLM |
true если нужна двусторонняя защита |
response_blocked_categories |
Категории для блокировки ответов |
Может отличаться от blocked_categories |
use_for_pii |
Использовать Content Safety для детекции PII |
false (PII Detector точнее для этой задачи) |