Как работает проверка текста на ИИ в 2026 году: что показал анализ 13 000 дипломных работ / Хабр

Антиплагиат ищет заимствования, а детектор ИИ языковые признаки генерации. Это не одна и та же проверка, хотя в разговорах о дипломах их часто смешивают. Я решила разобраться, как устроена проверка текста на ИИ, и взяла для разбора большое исследование почти 13 000 выпускных работ за 2013-2025 годы.

Вокруг проверки студенческих работ на ИИ накопилось много противоречивых утверждений. Одни уверены, что система безошибочно распознаёт ChatGPT, другие считают любую такую проверку случайным генератором процентов. На практике истина находится посередине, детекторы действительно видят статистические закономерности текста, но их результат нельзя воспринимать как доказательство авторства.

Для разбора я использовала открытое исследование ReText.AI. Команда проанализировала 12 996 выпускных работ и более 590 млн символов. Данные интересны не только цифрами: методология хорошо показывает, чем проверка текста на ИИ отличается от привычного антиплагиата и почему один процент не должен становиться основанием для обвинений.

Коротко о выводах

С 2022 по 2025 год доля текста, классифицированного как похожий на ИИ, выросла с 9,9% до 42,3%. Самые высокие значения в 2025 году были во введениях и заключениях. Но речь идёт о вероятностной оценке языковых признаков на уровне большого корпуса, а не о доказательстве того, что конкретную работу написал ChatGPT.

Как работает Антиплагиат и почему он не заменяет детектор ИИ

Главная путаница возникает из-за слова «проверка». Системы антиплагиата и ИИ-детекторы анализируют один и тот же текст, но отвечают на разные вопросы.

Критерий	Антиплагиат	Детектор ИИ
Что ищет	Совпадения с опубликованными источниками и базами документов	Статистические и стилистические признаки, похожие на машинную генерацию
Что показывает	Процент заимствований и ссылки на найденные источники	Вероятностную оценку и фрагменты, которые модель считает подозрительными
Чего не доказывает	Что текст написал сам автор	Что текст точно создала нейросеть
Типичная ошибка	Считать высокий процент оригинальности гарантией самостоятельной работы	Считать высокий AI-процент готовым доказательством нарушения

Поэтому формулировка «видит ли Антиплагиат ChatGPT» не совсем корректна. Классический антиплагиат может показать, что текст оригинален, даже если он полностью сгенерирован, у него просто нет прямых совпадений с опубликованными источниками. И наоборот, человеческий текст с корректными цитатами может иметь заметную долю совпадений, но это ничего не говорит об использовании нейросети.

Как работает проверка текста на ИИ

ИИ-детектор не ищет в интернете точный источник фразы, он оценивает особенности самого текста: предсказуемость формулировок, повторяемость синтаксических конструкций, равномерность стиля, распределение слов и другие признаки, которые модель научилась связывать с человеческими и машинными текстами.

У разных сервисов внутренняя архитектура отличается, но общая логика обычно выглядит так:

текст делится на фрагменты или абзацы;
каждый фрагмент получает вероятностную оценку;
результаты объединяются в общий показатель;
пользователь видит процент и, в некоторых системах, подсвеченные участки.

В исследовании использовался собственный ИИ-детектор ReText.AI. Проверялись не документы целиком, а отдельные абзацы длиной от 500 символов. Это важная деталь, так как диплом почти никогда не бывает однородным. Теоретическая глава, описание расчётов, введение и заключение могут быть написаны и отредактированы совершенно по-разному.

Рис. 1. Ключевые параметры исследования. Источник данных: ReText.AI. — *Рис. 1. Ключевые параметры исследования. Источник данных:* *ReText.AI*.

Что именно вошло в анализ

В корпус вошли 12 996 публично доступных выпускных работ за 2013-2025 годы. После очистки осталось 590 944 775 символов основного текста. Из анализа исключили титульные страницы, оглавления, списки литературы, приложения, подписи к рисункам и формулам, а также короткие фрагменты, на которых классификация была бы слишком нестабильной.

Для каждой работы рассчитывалась AI-доля - доля символов в абзацах, которые детектор классифицировал как похожие на ИИ-генерацию или существенную переработку с помощью языковой модели. Именно поэтому цифра 42,3% не означает, что 42,3% дипломов полностью написал ИИ. Это доля текста по всему корпусу, получившая соответствующую метку.

Важное ограничение

Детектор анализирует готовый текст, но не видит историю его создания. Он не может надёжно различить полную генерацию, перевод, автоматическую редактуру, перефразирование и ручную доработку. Результат лучше использовать как сигнал для дополнительной проверки, а не как окончательный вердикт.

Что показала проверка текста на ИИ по годам

До 2022 года детектор уже находил небольшой фоновый уровень AI-похожих фрагментов. Это ожидаемо, ведь официальный академический стиль часто строится на шаблонных оборотах, длинных определениях и предсказуемых переходах. Такие конструкции могли существовать задолго до появления современных генеративных моделей.

После массового распространения LLM динамика изменилась заметнее:

2022 год — 9,9%;
2023 год — 18,9%;
2024 год — 24,2%;
2025 год — 42,3%.

За три года показатель вырос более чем в четыре раза. Сам по себе этот рост не отвечает на вопрос, как именно студенты использовали ИИ, однако масштаб изменения трудно объяснить только фоновыми ошибками детектора или особенностями академического языка.

Рис. 2. AI-доля по годам. Проценты рассчитаны по числу символов в проанализированных абзацах; n - число работ за год.

Где признаки ИИ встречались чаще всего

Проверка на ИИ показала неравномерное распределение по структуре диплома. В 2025 году наиболее высокие значения были в заключениях - около 56%. Во введениях показатель составил примерно 49%, в основной части - около 41%.

Это выглядит логично. Введение и заключение сильнее зависят от стандартных формул: «актуальность темы обусловлена», «целью работы является», «по результатам исследования можно сделать вывод». Такие фрагменты легче генерировать и одновременно сложнее классифицировать, потому что человеческий академический текст тоже часто шаблонен.

Основная часть обычно содержит больше конкретики: расчёты, ссылки на источники, описание эксперимента, таблицы и авторские интерпретации. Но и здесь показатель к 2025 году оказался высоким - около 41%.

Рис. 3. Доля текста с признаками ИИ по разделам и годам. Значения агрегированы по всему корпусу. — *Рис. 3. Доля текста с признаками ИИ по разделам и годам. Значения агрегированы по всему корпусу*.

Изменилось не только среднее значение

В 2022 году примерно 70% работ попадали в диапазон, где AI-доля составляла не более 10%. К 2025 году таких работ осталось около 23%. Иными словами, рост не был вызван только небольшой группой дипломов с экстремально высоким показателем, признаки ИИ стали заметно шире распределяться по корпусу.

*Рис. 4. Доля работ, в которых AI-доля не превышала 10%, в 2022 и 2025 годах.*

Почему детектор ИИ может ошибаться

Любая проверка текста на ИИ работает с вероятностями. Даже хороший детектор может дать ложноположительный результат и принять человеческий текст за машинный. Особенно уязвимы тексты со следующими особенностями:

формальный и однообразный академический стиль;
большое количество типовых определений и канцелярских оборотов;
перевод с другого языка;
сильная редактура и унификация формулировок;
короткие фрагменты без достаточного контекста.

Есть и обратная ошибка, текст, созданный ИИ, после заметной ручной переработки может выглядеть для модели как человеческий. Поэтому проверка не восстанавливает реальный процесс написания, она показывает, насколько готовый фрагмент похож на примеры, на которых обучался классификатор.

Можно ли доверять результатам ИИ-детектора

Доверять можно, если правильно понимать назначение инструмента. Детектор полезен для первичного скрининга большого массива документов, поиска нетипичных фрагментов и выбора участков, которые стоит проверить вручную. Он гораздо менее надёжен как единственное основание для санкций против конкретного автора.

На практике разумная проверка курсовой или диплома на ИИ должна включать несколько уровней:

результат детектора и анализ подсвеченных фрагментов;
проверку источников, цитат и фактических утверждений;
сопоставление с предыдущими текстами автора;
вопросы по методологии, данным и логике выводов;
при необходимости - черновики и история изменений документа.

Если студент способен объяснить ход исследования, защитить расчёты, показать источники и обосновать выводы, один высокий процент не должен автоматически перечёркивать работу. И наоборот, низкий показатель детектора не гарантирует самостоятельность текста.

Что меняется в проверке дипломов в 2026 году

Антиплагиат никуда не исчезает: заимствования, некорректные цитаты и совпадения по-прежнему нужно выявлять. Но рядом появляется второй слой контроля - анализ признаков ИИ. Эти инструменты дополняют друг друга.

Для университетов главный вызов состоит в том, чтобы определить допустимые сценарии использования нейросетей: можно ли с их помощью править стиль, переводить текст, составлять план, анализировать данные или писать отдельные разделы. Без таких правил даже самый точный детектор будет порождать споры, а не решать проблему.

Для студентов вывод тоже не сводится к поиску способа пройти проверку. Важнее сохранять источники и черновики, проверять факты, понимать каждую часть работы и быть готовым объяснить, где и зачем использовались инструменты ИИ. В условиях, когда проверка текста на ИИ становится обычной частью учебного процесса, прозрачность процесса написания будет важнее попытки добиться идеального процента.

Главный вывод

Исследование почти 13 000 дипломных работ не доказывает, что нейросети написали 42,3% всех выпускных текстов. Оно показывает другое, что после 2022 года доля фрагментов с характерными для ИИ языковыми признаками выросла настолько заметно, что прежней проверки только на заимствования уже недостаточно.

При этом ИИ-детектор не превращается в цифровой полиграф. Его сильная сторона - анализ тенденций и поиск фрагментов для ручной проверки, Слабая - соблазн выдать вероятностную оценку за доказанный факт. Именно от того, смогут ли университеты удержать эту границу, будет зависеть, станет проверка на ИИ полезным инструментом или очередным источником формальных обвинений.

Источник данных и полная методология: «Проверка текста на ИИ: как ReText.AI проанализировал 13 000 дипломов»