Комментарии 6
Как вообще определять, что текст перед вами, написан не человеком?
Все мы читали такие тексты, и замечали, что они... Имеют некие паттерны, повторяющиеся фразы, которые можно запомнить. И это мы можем использовать
Наличие этих паттернов - лишь вопрос правильного промпта. Способ(как и озвучено выше) выдает лишь рандомную цифру, не более.
И что ещё важно - чем короче текст, тем меньше шансов определить авторство нейросети
Статье не хватает нескольких явных примеров - где определение верное, где нет (они есть в тг-ленте, но без анализа).
А в целом реквестирую расширение браузера, которое бы показывало коэффициент "уверенности" статьям в том, что они сгенерированны AI. Кажется, что это должно быть тривиально. Думал чтобы сделать такое самому, но если будет готовое решение - буду пользоваться)
Всё это фигня с поиском паттернов, уж извините. )) Хотя интересно, как практическое упражнение.
В статьях, написанных ИИ раздражают не слова и паттерны, а конкретные недостатки "мусорных" текстов. Я бы выделил следующие:
Много воды (информации не несущей смысла);
Отсутствие одной чёткой идеи в тексте. Вместо этого - несколько идей и "перепрыгивание" между ними;
Много лишней смысловой информации, которая запутывает, а не помогает понять главную идею.
Можно ещё что-то выделить. Но это может сделать только человек, внимательно изучая раздражающие тексты. А потом, на основании этого, сформулировать чёткий промпт, который бы определял эти моменты в статьях.
А все эти типичные паттерны (характерные слова, пробелы, знаки препинания) - для людей особо и не важны. Зато модель, при обучении, скорее всего, именно на них будет обращать внимание. Игнорируя существенные проблемы.

Вердикт классификатора на статью о себе.
Специально зарегался,чтобы тебя плюсануть.Но на это уйдет какое то время.Вопервых ты мог взять прошлые статьи ранних лет и существующие.И получить паттерны.Чтобы зделать все еще проще.Первый шаг оставить.Взять слитые промты(те же системны) ллм.По тому принципу как у них формируется ответ.Дать продвинутой ллм задание построить шаблон на основе этих промтов.Профильтровать статьи до ИИ.Не одна статья не должна быть отмечена как ИИ.Если отмечает.ЛЛМ генерирует другой шаблон.Пока не достигнет результата.С того момента ,когда статьи начали генерится ллм можно взять другой принцип ,но я отавлю тебе эту работу для твоего творческого подхода.

Пишем свой классификатор AI-generated статей для Хабра за ночь