victoriously25 ноя 2025 в 07:25

Пишем свой классификатор AI-generated статей для Хабра за ночь

Средний

7 мин

8.3K

Python * Data Engineering * Natural Language Processing *

Кейс

+26

Комментарии 6

AdrianoVisoccini 25 ноя 2025 в 09:31

Как вообще определять, что текст перед вами, написан не человеком?
Все мы читали такие тексты, и замечали, что они... Имеют некие паттерны, повторяющиеся фразы, которые можно запомнить. И это мы можем использовать

Наличие этих паттернов - лишь вопрос правильного промпта. Способ(как и озвучено выше) выдает лишь рандомную цифру, не более.
И что ещё важно - чем короче текст, тем меньше шансов определить авторство нейросети

positroid 25 ноя 2025 в 10:40

Статье не хватает нескольких явных примеров - где определение верное, где нет (они есть в тг-ленте, но без анализа).

А в целом реквестирую расширение браузера, которое бы показывало коэффициент "уверенности" статьям в том, что они сгенерированны AI. Кажется, что это должно быть тривиально. Думал чтобы сделать такое самому, но если будет готовое решение - буду пользоваться)

Andrew_1111 25 ноя 2025 в 12:45

Всё это фигня с поиском паттернов, уж извините. )) Хотя интересно, как практическое упражнение.

В статьях, написанных ИИ раздражают не слова и паттерны, а конкретные недостатки "мусорных" текстов. Я бы выделил следующие:

Много воды (информации не несущей смысла);
Отсутствие одной чёткой идеи в тексте. Вместо этого - несколько идей и "перепрыгивание" между ними;
Много лишней смысловой информации, которая запутывает, а не помогает понять главную идею.

Можно ещё что-то выделить. Но это может сделать только человек, внимательно изучая раздражающие тексты. А потом, на основании этого, сформулировать чёткий промпт, который бы определял эти моменты в статьях.

А все эти типичные паттерны (характерные слова, пробелы, знаки препинания) - для людей особо и не важны. Зато модель, при обучении, скорее всего, именно на них будет обращать внимание. Игнорируя существенные проблемы.

Denis_Chernyshev 25 ноя 2025 в 12:57

Вердикт классификатора на статью о себе.

victoriously 26 ноя 2025 в 02:41

Что забавно - я специально не использовал AI :)
Так что решение требует доработок

naverupbit 26 ноя 2025 в 02:42

Специально зарегался,чтобы тебя плюсануть.Но на это уйдет какое то время.Вопервых ты мог взять прошлые статьи ранних лет и существующие.И получить паттерны.Чтобы зделать все еще проще.Первый шаг оставить.Взять слитые промты(те же системны) ллм.По тому принципу как у них формируется ответ.Дать продвинутой ллм задание построить шаблон на основе этих промтов.Профильтровать статьи до ИИ.Не одна статья не должна быть отмечена как ИИ.Если отмечает.ЛЛМ генерирует другой шаблон.Пока не достигнет результата.С того момента ,когда статьи начали генерится ллм можно взять другой принцип ,но я отавлю тебе эту работу для твоего творческого подхода.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий