Обновить

Сравнил западные сервисы модерации — OpenAI Moderation, Llama Guard 3, Perspective API и встроенные фильтры открытых LLM — с составами УК и КоАП, по которым в России штрафуют площадки за пользовательский контент. Совпадений почти нет.

Под площадкой здесь — соцсети, форумы, отзывники, маркетплейсы, медиа с комментариями: всё, где пользователь публикует текст, а ответственность за этот текст несёт владелец сервиса. Тема узкая: только составы с прямой административной или уголовной ответственностью. Не путать с фактчекингом, детектором клеветы и проверкой достоверности новостей — это отдельные задачи.

Закрывать нужно пятнадцать категорий: ст. 207.3 (фейки о ВС), 280 (экстремизм), 354.3 (призывы против безопасности РФ), 354.1 (реабилитация нацизма), 205.2 (терроризм), 282 (ненависть), 148 УК; ст. 13.15 (фейки в СМИ), 20.3.3 (дискредитация ВС), 6.21, 6.13 (наркотики) КоАП; ФЗ-255 (маркировка иноагентов) и ФЗ-272.

Западные модераторы покрывают из них три-четыре, часто в обратную сторону. Пропаганда нетрадиционных отношений (ст. 6.21 КоАП) — западная разметка считает анти-LGBT-высказывание поводом блокировать, российский закон требует обратного. Обязательная маркировка иноагентов устроена иначе: модель должна проверить, есть ли в тексте маркировка в нужной формулировке. Семантика тут ни при чём, у Llama Guard соответствующего паттерна нет в принципе. Дискредитации ВС и фейков о действиях ВС за пределами РФ как составов попросту нет.

Из публичных русскоязычных решений: открытых классификаторов под актуальную правоприменительную практику не видно. У крупных площадок (VK, Avito) — используются свои, закрытые; у государственных систем мониторинга другая задача — мониторинг для регулятора, а не помощь площадке.

До обучить чужую модель не выход: дело не в нехватке русских данных. Сами западные классификаторы устроены под другие составы — нужных категорий на выходе у них нет, и от дополнительных данных они не появятся. Плюс правоприменение нестабильно: апрельский нейтральный комментарий в июне может стать составом, нужен регулярный замороженный релиз модели с привязкой к дате.

Для приличного качества нужен корпус 30–50 тысяч размеченных примеров. Часть категорий — фейки о ВС (ст. 207.3 УК), дискредитация ВС (ст. 20.3.3 КоАП), обязательная маркировка иноагентов — без юриста не разметить: где проходит граница состава, без юридического образования не разберёшь, разметчик с биржи в пограничных случаях ошибётся.

Сейчас мы используем gemma3:12b с инженерным промптом — качество получается приемлемое, но 12B на каждый комментарий дорого и медленно для масштаба.

Гипотеза (продукта пока нет): берём открытую модель на 1–3 млрд параметров (Qwen 2.5 или Llama 3.2) и до обучаем под российскую таксономию. На выходе — вероятности по каждой категории. Что делать с подозрительным комментарием, дальше решает модератор площадки. В журнал аудита пишем хэш текста, версию модели, вероятности и время — через год по такой записи можно воспроизвести любое решение, как требует 149-ФЗ.

Ищем ранних партнёров: кто готов попробовать прототип когда появится через 2–4 месяца, поделиться парой тысяч кейсов из своей очереди модерации для разметки, дать обратную связь по ложным срабатываниям. Взамен — открытый доступ, версия модели, зафиксированная под их объём, публичный кейс позже по согласованию.

Вопросы к дискуссии:

Служба модерации: чем закрываете эти категории сейчас? Ручная, своя модель, гибрид? Где больнее всего?

Делаете LLM для бизнеса: заказчики задают «а что с УК»? Стандартный ответ?

Список нормативки составлен по данным КонсультантПлюс.

Страница проекта — ai-moderator.dev.borisovai.ru Особенно ценно — «уже решено вот тут» или «идея надуманная по причине …».

Теги:
0
Комментарии7

Публикации