vaganovelena7 часов назад

Ваш текст воняет GPT. 12 мест, откуда несёт и почему

11 мин

Natural Language Processing * Искусственный интеллектМашинное обучение * Управление медиа *

+16

Комментарии 43

У вас слово "сымитированный" с ошибкой написано. Не придираюсь, просто грамматические ошибки в тексте от людей, набирающих "в редакцию" – это хорошо.
Как и чередующиеся длинные тире и дефисы-минусы.
И кавычки-ёлочки в английском тексте.

Эхх.

vaganovelena 6 часов назад

Спасибо, поправлю сейчас. Ирония в том, что опечатки, скачущие тире и кавычки-ёлочки в английском – это буквально маркеры из статьи, только наоборот. У модели их не бывает. Идеальная пунктуация, ноль опечаток, и вот ты уже не веришь тексту.

parakhod_1 6 часов назад

Никакой иронии тут не вижу, к сожалению. Либо неаккуратность, либо попытку сымитировать "человеческий стиль" внося типа "ошибки".
Не знаю прям и что хуже, если честно.

Да, кстати по поводу "не веришь тексту" – вы знаете, когда я читаю старые добрые бумажные книги (особенно старые издания), в них опечаток практически не встречается, и все тире на месте. А вот тексту почему-то веришь.

Не в тире дело. И не в деепричастных оборотах. И даже не в вариативности длины предложений.

А в содержании.

КДПВ:

dmitrytheman 6 часов назад

надо саму статью теперь прогнать по этим пунктам. а то мало ли что…

vaganovelena 6 часов назад

Прогнала. По собственным маркерам набрала 2 из 12. Либо писал человек, либо модель, которая прочитала эту статью и сделала выводы.

DirOr 6 часов назад

Текст хороший, мне понравился.. Только вот неясно с опечатками: " На дняъ очередной кандидат... " Что это - имитация человеческого текста, мол, ничто человеческое..? Или опечатка - это просто опечатка, но тогда - как? Как такое возможно, это же сразу режет глаз любому, привычному к работе с текстами. Да и любой редактор подсвечивает...

vaganovelena 6 часов назад

Классика - когда знаешь, что должно быть написано, мозг подставляет правильное слово и скользит дальше. Просто опечатка, спасибо

maksa 6 часов назад

Кальки с английского: «играет ключевую роль», «в заключение», «на сегодняшний день»

Сударыня, ваши тезисы весьма спорны.

(Чтобы не писать отдельный комментарий: упомянуть частотность тире можно было один раз, а не трижды. И десятичная точка — это ненавистная калька с английского.)

vaganovelena 5 часов назад

Тогда опровергните их, прошу.
Про «играет ключевую роль» и «на сегодняшний день» – тут важен контекст статьи. Речь не о том, что эти фразы неправильные. LLM генерирует их с частотой, нехарактерной для человека. «Играет ключевую роль» в русском языке существует давно, но когда фраза появляется в каждом втором абзаце рядом с «стоит отметить» и тройными перечислениями – это паттерн, а не стиль.

maksa 5 часов назад

Вообще, доказательства предоставляет тот, кто делает утверждения, а не тот, кто их опровергает.

Но в виде исключения, смотрите — https://books.google.com/ngrams/graph?content=в+заключение&year_start=1800&year_end=2022&corpus=ru&smoothing=3

vaganovelena 4 часа назад

Уточню тезис. Маркером является не отдельная фраза, а концентрация и окружение. «В заключение» один раз в тексте – норм. «В заключение» + «играет ключевую роль» + «стоит отметить» + три перечисления из трёх в одном тексте – стрём и паттерн. Маркеры работают кластером, по одному бесполезны.

maksa 59 минут назад

Да, я это понимаю. Я не понимаю, почему эти три сочетания слов вы называете кальками с английского. Кальки с английского это «до того как» (before that) или ужаснейшее «по факту» (by the fact), или, хоть это и не калька формально, «за которым последовало» (following by).

«В заключение» — так писали ещё в XIX веке. «На сегодняшний день» есть в «Преступлении и наказании» и в дневниках Даля. Со словосочетанием «ключевая роль» более интересный случай — оно набирает популярность во французском, немецком и русском языках практически одновременно около 70-х годов XX века, тогда как в английском на пару десятилетий раньше. Возможно, это действительно калька с английского, но устоявшаяся ещё в советское время.

omxela 1 час назад

Вообще, доказательства предоставляет тот, кто делает утверждения, а не тот, кто их опровергает.

Это как? Опровержение утверждения - тоже утверждение, и в равной степени нуждается в доказательстве. Иначе, напишет Дарвин книгу, а вы скажете "хрень собачья!" - вот и нет Дарвина. Легко и просто.

maksa 37 минут назад

Вы странные какие-то вещи говорите. Даже с тем же Дарвином — он в своей книге опирается на множество доказательств, собранных им самим и его предшественниками. Любое нетривиальное утверждение требует доказательства.

https://ru.wikipedia.org/wiki/Бритва_Хитченса
https://en.wikipedia.org/wiki/Extraordinary_claims_require_extraordinary_evidence
https://ru.wikipedia.org/wiki/Чайник_Рассела тоже где-то рядом пролетал.

aborouhin 6 часов назад

Среднестатистический текст, написанный среднестатистическим живым юристом без всяких LLM, минимум 8 из Ваших 12 критериев будет соответствовать точно :)

vaganovelena 5 часов назад

Чистая правда. Юридический язык – это и есть тот регистр, на котором модели тренировались. Весь этот пассивный залог, «представляет собой» – у юристов это норма, у модели дефолт.

OlegArchi 5 часов назад

Хотел бы пригласить автора к дискуссии - а чем плоха ИИ-генерация?

Для соискателей в редакцию, конечно, очевидно, что человек должен уметь писать. Также, как архитектор (в строительстве) должен не только уметь работать в программах но и рисовать карандашом (как требует Олег Карлсон в своем блоге).

Но с т.з. пользователя - насколько Вы стоите на страже его интересов когда считаете ценностью чтоб в статье было: “Оставляй швы в тексте”. “Используй простые конструкции”, “Пиши как человек, который думает по ходу текста”.

Ставя себя на роль читателя - я бы хотел получать материал без швов и продуманные мысли (а не по ходу текста).

При этом, конечно, получить ИИ-генерацию по простому промпу для меня мало ценности (я могу и сам отправить запрос), но если автор написал конспект или большую часть мыслей, а использовал ИИ чтоб “причесать” статью - я бы это только приветствовал.

vaganovelena 5 часов назад

Олег, я двумя руками за ии-генерации, мало того - все мои тексты написаны нейронками.
По сути вашего коммента: если задача текста – передать инфу (инструкция, справка, документация), швы мешают. Гладкий текст там лучше. Согласна.

Статья, блог – другой жанр. Читатель платит вниманием не только за информацию, а за то, как автор думает. Шов – это как раз тот момент, где видно человека: отвлёкся, вернулся, налажал, передумал. Идеально гладкий текст в этом жанре вызывает ощущение, что тебе что-то продают.

Ваш последний абзац про «написал мысли, причесал через AI» – это ровно то, что я считаю нормальным. Промпт «напиши статью про X» и промпт «вот мои мысли, помоги оформить» – разные вещи. Первый генерирует болванку, второй усиливает автора. Статья про первый случай.

OlegArchi 5 часов назад

“все мои тексты написаны нейронками” - смелое признание ))
“Читатель платит вниманием не только за информацию, а за то, как автор думает”
На уровне ощущений мне кажется что это не так. Вот сейчас пытаюсь представить ситуацию, где для меня это важно - и не получается.
У меня, например, есть любимый современный писатель в жанре фантастики и читаю все его книги сразу как он их заканчивает. И я обратил внимание, что мне приятно его читать. И недавно я обсуждал с ИИ его книгу, на что ИИ мне отметил, что у всех глав есть общий паттерн и в самой книге есть иерархия паттернов, которые определенным образом согласуются и сам текст достаточно правильный. И это прям сильный признак что как минимум сюжет и разбиение по главам он делает с ИИ (либо супер структурно мыслит).
Это такой пример, что даже художественную книгу, которая не “инструкция, справка, документация” регуряность не портит.
А вот понимание того, что скорее всего тут “шов” введен специально - если оно возникнет - может не порадовать.

vaganovelena 4 часа назад

а какой писатель?

OlegArchi 4 часа назад

позволите не ответить публично, чтоб не повредить ему этим подозрением - он мне действительно нравится )

я понимаю что фактически есть предубеждения против ИИ-генерации, и мне было бы интересно с Вами, как профессиональным участником этой отрасли, обсудить их обоснованность

vaganovelena 4 часа назад

Понимаю, не буду настаивать) Вы описали интересный кейс. Писатель, у которого чёткие паттерны на уровне глав, и вам это нравится. Но смотрите, вы же заметили эти паттерны, только когда ИИ на них указал. До этого вы просто чувствовали, что «приятно читать». То есть структурность работала на вас неосознанно, и это ок. Проблема возникает, когда структурность становится единственным, что есть в тексте. Ваш писатель наверняка делает внутри этих паттернов что-то неожиданное. Иначе вы бы просто бросили на второй книге. Нейросеть (без доработки) делает структуру без неожиданностей. Гладенько, но забыл через пять минут.

Про швы вы правы, что намеренный шов может раздражать. Фальшивая небрежность хуже фальшивой гладкости. Думаю, что шов работает, только когда он настоящий. Когда автор реально отвлёкся, а не имитирует отвлечение. Именно поэтому промпт из статьи скорее костыль, а не решение. Он убирает самые очевидные AI-маркеры, но живым текст делает только человек.

Про предубеждения против AI-генерации – с удовольствием обсужу. Считаю, что предубеждение бессмысленно, а вот требование к качеству финального текста нет. Неважно, кто написал черновик. Имеет смысл, прошёлся ли по нему человек с головой.

OlegArchi 3 часа назад

Неожиданности есть но это не про неожиданности в структуре или потоке повествования. Это неожиданности в сюжете, раскрытии лора и развитии героев (три пункта “само получилось”). Получается, что структура и поток повествования это как носитель на котором до читателя доносится смысл. И вот смысл (сюжет, вселенная, герои) - это ценность, а носитель должен быть таким, чтоб его не замечал.

“Проблема возникает, когда структурность становится единственным, что есть в тексте” - тут польностью согласен.

И в остальном тоже.

“Про предубеждения против AI-генерации – с удовольствием обсужу” - а что по Вашему наблюдению - вы сталкиваетесь с этим, какая мотивация у тех кто их имеет?

vaganovelena 2 часа назад

Сталкиваюсь постоянно, мотивации вижу три (само получилось) - страх потери работы, те защитная реакция. Еще постоянно слышу, что «настоящий текст должен быть написан человеком». Это типа как «настоящая фотография только на плёнку». Позиция, но не аргумент. Жажда корявой зачастую человеческой эстетики. Ну и качество. Нередактированная выдача иишки действительно убога.

Про носитель и смысл красиво сформулировали. Структура должна быть незаметной. Проблема AI-текста в том, что его структура как раз заметна – слишком ровная, предсказуемая. Читатель чувствует носитель, и это мешает смыслу. Интересно это учесть при работе дальше, спасибо за наводку.

OlegArchi 2 часа назад

Спасибо!

Triton5 5 часов назад

Как будто есть некий образцовый "человеческий" текст:)

Девушка, а вы книжки читаете?:)

vaganovelena 5 часов назад

немного хамоватый ваш коммент, но отвечу. Читаю, на трех языках. И исследования из статьи тоже.
Образцового человеческого текста нет. Есть статистическое распределение лингвистических признаков, характерное для текстов, написанных людьми. И другое распределение, характерное для LLM. Просто данные, не более. Можете с ними поспорить, с удовольствием почитаю.

Triton5 4 часа назад

Не хамоватый, нормальный. Что вас оскорбило в моём вопросе? Как нужно было спрашивать?

Про то, что ЛЛМ пишут так, как научили, это очевидно. Они пишут универсально и предсказуемо, и это даже хорошо.

Вы пытаетесь утверждать, что сделали декомпозицию "настоящего" человеческого текста:) «Не так, а вот так »(с) На самом деле, у людей, которые пишут тексты профессионально и своими руками, на выходе можно ожидать в принципе любой текст. Абсолютно любой и в любом стиле. Профессионального писателя текстов вообще можно попросить написать в стиле бабы Мани с рынка, и он это вам легко выдаст.
А исследования на тему «не так, а вот так» обычно анализируют комментарии юзеров, написанных одной рукой в телефоне. Отличаются ли они от текстов нейросетей? Ну, конечно же, отличаются. В худшую сторону — почти все.

Когда я спросил про «читаете ли вы», я не имел в виду информацию по работе, а литературу — фикшен, нон-фикшен, и тому подобное等等 . Мне кажется, что нет, иначе бы вы видели, насколько может быть разнообразным авторский текст.

В статье вы много раз упомянули про «Три аргумента в каждом блоке». Три свойства предмета, три описания, три прилагательных — именно так, по три штуки, советует писать некий Стивен Кинг, и вероятно, он знает толк в таких вещах.

Кроме того, стоит учитывать (с) что сейчас люди перенимают у нейросетей характерные речевые обороты (калька с иностранного, структура и так далее等等), вы это не отразили в статье. Остальные спорные моменты разбирать лень, простите.

В принципе ваша статья - это тоже нейрослоп по вашим же маркерам и по смыслу, имеющий плохую корреляцию к с лингвистической реальностью. Так нельзя — в академическом смысле, хотя, если вам это принесёт сколько-то денег, то пускай:)

P.S. Текст комментария написан своими личными руками, в отличие от.
Длинные тире, иероглифы и угловые кавычки я специально вставил:)

vaganovelena 3 часа назад

Вы агрессивный, но с парой валидных поинтов. Ок, давайте по пунктам.

Про Кинга и тройки – он советует три детали в описании сцены для создания образа, то есть это осознанный прием. У модели – дефолт, она лепит тройные перечисления в любом контексте.

Про то, что профессиональный автор может написать любой текст – конечно. В статье речь не про профессионалов, а про статистическое распределение признаков в корпусах текстов. Исследование PNAS анализировало не комментарии юзеров, а тексты по набору лингвистических признаков Биббера – стандартной системе для анализа регистров.

Дальше. Нейрослоп это нередактированная выдача модели, опубликованная как есть. Все мои статьи написаны AI и прошли через мой мозг. Но как бэ я делаю AI-продукт, было бы странно это прятать.

Про хамоватость – «девушка, а вы книжки читаете?» в ответ на статью с восемью ссылками на исследования. Ну вы сами понимаете, как это звучит.

DirOr 4 часа назад

дело не в "образцовости" текста, мне показалось автор ничего такого не имел ввиду. Но. В любом тексте есть какие-то особенности и свои закономерности. У LLM они такие, у человеческих текстов - другие. Или такие же?

Очевидно, что отличия есть. И автор пытается в этом разобраться. И это интересно (для тех, кто сам в этом не является специалистом).

vaganovelena 3 часа назад

Спасибо, точно сформулировали, это и хотела сказать – отличия есть, они статистически измеримы и у каждого из них техническое объяснение.

Triton5 3 часа назад

В том то и дело, что совершенно не пытается, цель - реклама своего бизнеса. Она, "Основатель Рерайт-Завода", как написано в профайле, обосновывает свои руководящие решения, с помощью текста, сгенерированного нейронкой, а котором она выступает против бездумного использования нейронок, легко палится по тем же самым признакам, которые перечислены в статье. Ачотакова(с)

"Текст грамотный, структурированный. Три аргумента в каждом блоке. "
"Модель интернализировала структуру «заголовок + три буллета» и транслирует её в прозу. "
и тут же
"GitHub, Stack Overflow, техническая документация. "
"Почерки моделей

"У каждой модели свой стилистический отпечаток.
ChatGPT
Claude
DeepSeek "

И так везде.

Ваш текст воняет GPT. (с)

DirOr 3 часа назад

Возможно и реклама, тут я не буду спорить. Я не люблю рекламу, это плохо.

К сожалению, мы живем в такое время, когда вокруг слишком много рекламы. И уже выработался рефлекс, что если что-то рекламируют - значит, завышена втрое цена, ну или там просто мошенники... Увы и ах. Разве хлебу, например, нужна реклама? Кому нужно - зайдет в магазин и выберет себе по вкусу. Достаточно вывески над входом в магазин..

С другой стороны, а разве 90% (навскидку) текстов на habr - не является рекламой, в крайнем случае, саморекламой?

Так что "вывеска над входом" в некотором виде, все-таки, нужна

wmlab 3 часа назад

Вот бы анализатор на Хабре прикрутить, что бы оценивал человечность статей. Может, видимую только автору, в черновиках. А то устаешь читать «не просто, а…», неуместный пафос и панибратство, словно вырванные из чата с AI. Иногда с первой строчки видно, что сгенерированный текст.

vaganovelena 2 часа назад

Это было бы идеально. Просто хотя бы даже для того же автора в его тексте подсветить маркеры, ну или для юзеров сделать фильтр по материалам, чтобы не видеть те, которые похожи на генерации. Но вообще, если честно, в будущем, я просто уверена, в недалеком, нам придется платить за несгенерированный контент.

RulenBagdasis 2 часа назад

Я как-то руками написал резюме, полностью сам, по туториалам лучших собаководов (но дословно текст ниоткуда не тырил). Загнал в такой анализатор, он сказал 98% что писала баба-робот.

vaganovelena 2 часа назад

у меня аккурат также – пишешь текст даже пусть с ИИ, суешь в анализатор и подсвечивает мой текст, как иишный. Бросила это дело

RulenBagdasis 3 часа назад

По многим параметрам получается, что я – ии модель.

vaganovelena 2 часа назад

тире любите?

RulenBagdasis 2 часа назад

Не только, ещё, например, деепричастные обороты, вводные слова (важно отметить) и гиперсвязность. Это прямо вдалбливают и заставляют использовать на письменной части экзамена IELTS. О, вон еще и перечисление из трёх получилось. Оно как-то тоже естественным образом выходит. Один пример – случайность, два – совпадение, три – золотая середина, четыре – уже слишком много. Вообще, в английском конструкция “A, B, and C” очень распространена и не из-за моделей.

vaganovelena 2 часа назад

В русском тройка палит сильнее. В английском чек-лист выглядел бы иначе, наверно. Ну и да, один маркер норм. Все 12 разом в одном тексте – вот тогда уже вопросы.

RulenBagdasis 2 часа назад

Так человек, который пишет на английском и русском будет делать это примерно одинаково и англицизмы будет использовать. Просто потому что очень тяжело не только язык, но и стиль переключать. Я такое могу (но не факт, возможно, заблуждаюсь, что могу) только с прикладыванием серьёзных усилий.

SabMakc 1 час назад

Хм… ИИ-генерация в статье про “как поймать ИИ-генерацию”. Иронично ) За весь текст не скажу, но местами - точно )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий