Вы знали, что ниша антиплагиата пухнет от денег? Я тоже не знал, пока не полез в тендеры и мировую статистику. К 2030 году мировой объем долетит до $5.9 млрд. Но на рынке творится какой-то абсурд.
Рынок российского антиплагиата — 1,5 милларда рублей. Официальной статистики вы не найдёте. Эту информацию я нашёл сам в тендерах и базе СПАРК. И эти деньги тратят на проверку «технической» уникальности.
В 2020 году можно было парсить шинглы, с чистой совестью продавать это ВУЗам и знать, что почти наверняка программа поймает всех плагиатчиков. Сейчас картина немного другая:
24% студенческих работ содержат четкие следы ИИ. Это рост в четыре раза по сравнению с 2023.
43% студентов сами признаются, что отдают нейросетям написание рефератов и дипломов.
При этом самая популярная система антиплагиата, по словам директора компании, в начале года ловила на ИИ лишь 15% работ. А с недавних пор начала «ловить» ИИ даже там, где его не было: 1, 2. Это всё уже привлекло внимание представителей ЛДПР и Мизулиной.

Как распределяются деньги на рынке антиплагиата
Судя по тому, что нашёл я, разделение примерно следующее.
Вузы и госсектор — 80%. Министерства заставляют университет сканировать студенческие работы, а вузы покупают софт «для галочки». Средний федеральный университет тратит порядка 2 млн рублей за год.
Студенты — 15%. Они платят 200–300 рублей за прогон файла, чтобы проверить базовую уникальность.
Энтерпрайз — 5%. Крупный бизнес и НИИ смотрят, нет ли у них какого украденного кода или использования чужих патентов. В науке и больших производствах крайне важно не нарушить ничьи права.
Получается, что львиную долю бюджетов генерирует государство. И когда есть устоявшийся подход, сменить его трудно — поэтому ВУЗы закупают всё те же системы, что и пять лет назад.
За что платят миллионы
Профильные тендеры стабильно забирают три класса систем.
Масс-маркет с устаревшими технологиями. Он ловит откровенную копипасту и ленивые решения. Там честно работают отсев шинглов и стопроцентных дублей. Но нейросети ломают эту защиту в один клик. Студентам даже платная подписка не нужна, чтобы обходить такие фильтры.
Энтерпрайз-тяжеловесы. Серьезные продукты для НИИ и крупного бизнеса, которые я упоминал выше. Такие модели хорошо работают. Они анализируют векторную семантику. Скрипт парсит смысл текста, а не отдельные слова. Казалось бы, здорово? С точки зрения результата — да.
Только вот внедрять такие платформы и пользоваться ими — отдельная большая задача, с которой справляются только корпораты. Нужны и свои сервера, и IT-отдел, и небольшое обучение для пользователей — всё-таки там не только кнопка «проверить». Но бизнес и НИИ замотивированы всем этим пользоваться — для них это сейчас единственный рабочий способ не пустить в продакшен сгенерированный шлак.
Чего-то «среднего» нет — либо покупаете дешёвую систему, которая даёт слабые результаты, либо вкладываетесь в энтерпрайз.
Turnitin. Это американский стандарт, который вроде бы решает все проблемы. И все новые технологии использованы, и айтишникам его внедрять проще, и пользователям легко.
Только вот легально купить лицензию нельзя, Turnitin поставлют через пень-колоду. И главное — зарубежный софт абсолютно слеп к сложной морфологии русского языка, отчего часто выдаёт ложноположительные срабатывания (об этом я подробнее расскажу в следующих статьях).
Как итог — по-настоящему удобного решения нет и пока не предвидится. Везде приходится сталкиваться с мощными ограничениями. Ругать рынок бессмысленно — сделать ситуацию лучше прямо сейчас вряд ли получится.
Как LLM ломают рынок прямо сейчас
Старые системы ищут точную копипасту, но любой «шаристый» студент берёт базовую бесплатную LLM и ломает алгоритм:
Кто-то прогоняет фрагменты через каскад переводчиков вроде DeepL. Русский → английский → французский → английский → русский. Смысл сохраняется, но сами слова и предложения меняются полностью.
Кто-то заставляет нейросеть полностью пересобрать текст хитрыми промптами.
Кто-то меняет базу терминов синонимами.
Старые скрипты стали бессильны. В ответ вендоры выкатили новые ИТ-костыли. Разработчики прикрутили модули AI-детекции.
В попытке адаптироваться к ИИ технологии пришли к массовым ложно-положительным срабатываниям. Скрипты сходят с ума, когда проверяют работы. Они игнорируют на контекст и то, что перед ними студенческие работы. Софт видит сложный академический слог и сразу кричит: «нейросеть!». А что студенты обязаны писать таким слогом — ну, это уже другой вопрос.
В итоге системы антиплагиата не помогают отсеивать плагиатчиков, а заставляют студентов и преподавателей совместно переписывать реальные работы, чтобы программа не обвинила их в использовании ИИ.
Что будет с рынком? Расскажу в следующих частях
Пока рынок заливает проблему деньгами, студенты продолжают обходить алгоритмы за пару кликов. В ближайшее время я залезу в эти системы и покажу, как работал антиплагиат раньше, на чем конкретно ломаются старые алгоритмы сейчас, и что может спасти от засилья ИИ-генерации. А потом, может, и какой прогноз соображу.
