gritger 10 апр 2023 в 17:07

За кулисами интеллекта ChatGPT: рассказ о том, как определяют тексты, созданные ИИ

Средний

10 мин

26K

Блог компании «Антиплагиат»Программирование*Алгоритмы*Машинное обучение*Natural Language Processing*

Кейс

+12

Комментарии 10

vadimr 11 апр 2023 в 03:14

Думаю, что машинное детектирование машинно-генерируемых текстов - это в лучшем случае борьба снаряда и брони, а в худшем - безнадёжное дело.

В то же время, с точки зрения человека, сгенерированный GPT текст имеет вполне заметные особенности. Он не обладает новизной и не содержит прослеживаемой позиции автора.

Другое дело, что многие люди тоже такое пишут в процессе не контролируемого разумом словообразования, но это их проблемы.

yury_chekhovich 11 апр 2023 в 10:22

На данном этапе - точно не безнадежное. Дальше будем смотреть - технологии развиваются очень быстро и нужно будет оценивать, когда выйдет на какой-то стационарный режим.

Arhammon 11 апр 2023 в 12:03

многие люди тоже такое пишут в процессе не контролируемого разумом словообразования, но это их проблемы.

Задача многих людей просто написать текст или растянуть полезную его часть на нормативное количество листов. Использовать для этого ещё разум - дело расточительное. Проблемы не у людей, а у системы...

andriygav 11 апр 2023 в 12:48

В целом генерация текста это дело не всегда плохое, просто нужно всегда проводить четкую границу и понимать где это можно использовать, а где не стоит.

Простой пример, когда мы используем переводчики, в целом это тоже машинная генерация, а главное очень часто является полезной (хотя переводчики тоже иногда могут сгенерировать очень интересный текст, совсем не корректирующий с исходным текстом). Но все пользователи уже привыкли проверять, а что нам там машинный перевод сгенерировал и в конечном итоге правят этот текст.

Также и в случае с полноценной генерацией, тексты, которые были сгенерированные при помощи моделей требуют значительной осмысленной переработки и проверки того, что там написано. И это иногда может быть даже сложнее чем написать текст самому самого начала, так как текст выглядит достаточно правдоподобным, но на деле могут присутствовать большое число ложных фактов (про логические ошибки в повествовании говорилось в самой статье, тут не буду повторяться) :))

Поэтому в случае "растянуть" полезную часть на нормативное количество листов кажется то чем можно пользоваться, но при условии, что то что написано проверено и скорректировано автором. С другой же стороны полная генерация текста является уже не совсем честной (и даже опасным в некоторых случаях --- я думаю никто не хочет, чтобы мосты строились по чертежам, которые сгенерировала модель, не так ли?), так как в этом случае автором является не человек, а модель, которая в целом не несет ответственность за то что она генерирует.

В целом прошу прощение за длинный ответ, но основная идея того, что я хотел сказать это то, что никто не говорит, что машинная генерация это дело плохое. Основная цель этой статьи показать, что машинная генерация не идеальная и для ее использования нужна некоторая культура. А уже после приобретения культуры использования генеративных моделей получиться упростить жизнь людей, которым нужно написать большое число текста ради нормативного числа страниц. Но просто вставлять сгенерированный текст модели это почти тоже самое, что вставить кусок статьи из любого сайта по первой ссылке в поисковой выдаче (по смыслу эти фрагменты будут эквивалентны).

Arhammon 11 апр 2023 в 14:56

А я вот не об этом я писал, а том, что существует огромное количество деятельности где по факту вообще не нужна никакая связность, логика текста. Просто генерация информационного мусора похожего на текст, по разным причинам - без этого мусора не дадут диплом; нельзя просто ответить "как только - так сразу", приходится две страницы канцилярита сгенерировать; просто платят деньги за генерацию текста, нет времени итп.

А вот как только тебе надо, даже просто в комментарии донести свою мысль, тут уже приходиться изгаляться, писать многобукаф со всеми нюансами, свзями, логикой, учетом предполагаемого уровня читателя, уровня его знакомства с контекстом. Потом правда придется половину выбросить, чтоб читающий не уснул по середине прочтения и получится компромисс всё равно кому-то да непонятный.

andriygav 11 апр 2023 в 16:44

Любые бумаги, которые относятся к бюрократическому процессу к сожалению тоже не получится "правильно" сгенерировать при помощи модели (в худшем случае с шаблона либо сгенерировать что-то и потом вставить в шаблон). Опять таки, если нужно просто написать что-то (скорее всего это предполагает, что это никто читать не будет), то всегда можно скопировать с первой попавшейся ссылки в поисковой системе, к сожалению или к счастью результат будет таким же.

К счастью в статье рассматриваются тексты, которые не относятся к информационному мусору (я очень надеюсь на это), поэтому важна творческая составляющая, которой к сожалению у модели нет.

Galiaf2509 27 апр 2023 в 20:35

ИИ обучается и в скором времени будет писать очень хорошие тексты.

Wesha 24 мая 2023 в 17:20

ИИ обучается и в скором времени будет писать очень хорошие тексты.

Всего через каких-то 20 лет у человечества будет работающий термояд!

dprotopopov 12 апр 2023 в 10:34

Проблема в том что в структуре образования дипломные работы являтся чистой формальностью - никто на практике эти работы применять не собирается, нет их потребителей и заинтересованных лиц (голосующих рублём).

Поэтому проверяющие тоже пытаются автоматизировать свою работу...

Думаю это бесполезное состязание пары бессмысленных алгоритмов -генерации дипломов и их проверки

Если же был бы реальный практический выхлоп от дипломной работы, то проблем с плагиатом-антиплагиатом, генератором-негенератором не было бы (регулировалось патентным правом)

ЗЫ

Хотя мне удалось какие-то идееи из своей дипломной работы применить на практике и коллега брал почитать чтобы поюзать ... но тоже в целом осознаю что это была особо нужная никому вещь

yury_chekhovich 12 апр 2023 в 19:12

Я думаю, что широкое использование новых технологий приведет к серьезному пересмотру практики дипломных работ. Надеюсь на это. И сложившаяся практика подготовки и защиты работ и требования к ним отдают архаикой. Выпускников готовят к тому, чтобы они умели подготовить работу, содержащую большое количество текста. Считается (считалось), что много текста = много работы. Генераторы делают очевидным то, что это равенство уже верно. Что будет в итоге пока сказать сложно, но точно будет не так как сейчас.
Пожалуй, самое глупое в такой ситуации, пытаться запретить технологии, чтобы сберечь существующие процессы и требования. Некоторые страны уже пошли по этому пути, и мне кажется совершают большую ошибку.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий