Обновить

Ваш текст воняет GPT. 12 мест, откуда несёт и почему

Время на прочтение11 мин
Охват и читатели25K
Всего голосов 115: ↑99 и ↓16+109
Комментарии151

Комментарии 151

ЗакрепленныеЗакреплённые комментарии

Хотел бы пригласить автора к дискуссии - а чем плоха ИИ-генерация?

Для соискателей в редакцию, конечно, очевидно, что человек должен уметь писать. Также, как архитектор (в строительстве) должен не только уметь работать в программах но и рисовать карандашом (как требует Олег Карлсон в своем блоге).

Но с т.з. пользователя - насколько Вы стоите на страже его интересов когда считаете ценностью чтоб в статье было: “Оставляй швы в тексте”. “Используй простые конструкции”, “Пиши как человек, который думает по ходу текста”.

Ставя себя на роль читателя - я бы хотел получать материал без швов и продуманные мысли (а не по ходу текста).

При этом, конечно, получить ИИ-генерацию по простому промпу для меня мало ценности (я могу и сам отправить запрос), но если автор написал конспект или большую часть мыслей, а использовал ИИ чтоб “причесать” статью - я бы это только приветствовал.

У вас слово "сымитированный" с ошибкой написано. Не придираюсь, просто грамматические ошибки в тексте от людей, набирающих "в редакцию" – это хорошо.
Как и чередующиеся длинные тире и дефисы-минусы.
И кавычки-ёлочки в английском тексте.

Эхх.

Спасибо, поправлю сейчас. Ирония в том, что опечатки, скачущие тире и кавычки-ёлочки в английском – это буквально маркеры из статьи, только наоборот. У модели их не бывает. Идеальная пунктуация, ноль опечаток, и вот ты уже не веришь тексту.

Никакой иронии тут не вижу, к сожалению. Либо неаккуратность, либо попытку сымитировать "человеческий стиль" внося типа "ошибки".
Не знаю прям и что хуже, если честно.

Да, кстати по поводу "не веришь тексту" – вы знаете, когда я читаю старые добрые бумажные книги (особенно старые издания), в них опечаток практически не встречается, и все тире на месте. А вот тексту почему-то веришь.

Не в тире дело. И не в деепричастных оборотах. И даже не в вариативности длины предложений.

А в содержании.

КДПВ:

Вашему тексту я тоже не верю. Иронично читать текст о маркетах ИИ, в котором они для наглядности и представлены. Не работает ваш промт-то

надо саму статью теперь прогнать по этим пунктам. а то мало ли что…

Прогнала. По собственным маркерам набрала 2 из 12. Либо писал человек, либо модель, которая прочитала эту статью и сделала выводы.

Текст хороший, мне понравился.. Только вот неясно с опечатками: " На дняъ очередной кандидат... " Что это - имитация человеческого текста, мол, ничто человеческое..? Или опечатка - это просто опечатка, но тогда - как? Как такое возможно, это же сразу режет глаз любому, привычному к работе с текстами. Да и любой редактор подсвечивает...

Классика - когда знаешь, что должно быть написано, мозг подставляет правильное слово и скользит дальше. Просто опечатка, спасибо

Шёл 2026 год. Проверку правописания в редакторах текста используют не только лишь все.

Некогда проверять, скорее публикуй.

Просто это показывает что ваш промпт тоже ниочем. А читателя вы неуважаете еще пуще ИИ, открыто ему звездя

💯

Кальки с английского: «играет ключевую роль», «в заключение», «на сегодняшний день»

Сударыня, ваши тезисы весьма спорны.

(Чтобы не писать отдельный комментарий: упомянуть частотность тире можно было один раз, а не трижды. И десятичная точка — это ненавистная калька с английского.)

Тогда опровергните их, прошу.
Про «играет ключевую роль» и «на сегодняшний день» – тут важен контекст статьи. Речь не о том, что эти фразы неправильные. LLM генерирует их с частотой, нехарактерной для человека. «Играет ключевую роль» в русском языке существует давно, но когда фраза появляется в каждом втором абзаце рядом с «стоит отметить» и тройными перечислениями – это паттерн, а не стиль.

Вообще, доказательства предоставляет тот, кто делает утверждения, а не тот, кто их опровергает.

Но в виде исключения, смотрите — https://books.google.com/ngrams/graph?content=в+заключение&year_start=1800&year_end=2022&corpus=ru&smoothing=3

Уточню тезис. Маркером является не отдельная фраза, а концентрация и окружение. «В заключение» один раз в тексте – норм. «В заключение» + «играет ключевую роль» + «стоит отметить» + три перечисления из трёх в одном тексте – стрём и паттерн. Маркеры работают кластером, по одному бесполезны.

Да, я это понимаю. Я не понимаю, почему эти три сочетания слов вы называете кальками с английского. Кальки с английского это «до того как» (before that) или ужаснейшее «по факту» (by the fact), или, хоть это и не калька формально, «за которым последовало» (following by).

«В заключение» — так писали ещё в XIX веке. «На сегодняшний день» есть в «Преступлении и наказании» и в дневниках Даля. Со словосочетанием «ключевая роль» более интересный случай — оно набирает популярность во французском, немецком и русском языках практически одновременно около 70-х годов XX века, тогда как в английском на пару десятилетий раньше. Возможно, это действительно калька с английского, но устоявшаяся ещё в советское время.

“В заключение” - это настолько уже древний штамп, что он ещё в анекдоте про Горбачёва (слышали про такого – кем и когда он был?) обыгрывался:

Бежит чукча по улице и кричит: “Свободу Горбачёву! Свободу Горбачёву!” Его останавливают.
– С ума сошёл?
– Однако, только что по радио слышал: “В заключении Михаил Сергеевич Горбачев сказал…!”

Кстати, и сам я в режиме свобого творчества пишу как LLM: депричастный оборот на дееепричастном обороте (особенно люблю кальку с английского - независимый деепречастный оборот), слова-паразиты «служит», «выступает в качестве», «представляет собой», полную логическую связность текста… А потом приходится долго и нудно приводить текст к человеческому виду.

Правда, по профессии я ни разу не писатель текстов.

Вообще, доказательства предоставляет тот, кто делает утверждения, а не тот, кто их опровергает.

Это как? Опровержение утверждения - тоже утверждение, и в равной степени нуждается в доказательстве. Иначе, напишет Дарвин книгу, а вы скажете "хрень собачья!" - вот и нет Дарвина. Легко и просто.

Вы странные какие-то вещи говорите. Даже с тем же Дарвином — он в своей книге опирается на множество доказательств, собранных им самим и его предшественниками. Любое нетривиальное утверждение требует доказательства.

LLM генерирует их с частотой, нехарактерной для человека

Странно. Оно же на человеческих текстах обучено.

Среднестатистический текст, написанный среднестатистическим живым юристом без всяких LLM, минимум 8 из Ваших 12 критериев будет соответствовать точно :)

Чистая правда. Юридический язык – это и есть тот регистр, на котором модели тренировались. Весь этот пассивный залог, «представляет собой» – у юристов это норма, у модели дефолт.

Да и научные статьи выглядят так же.

И отчёты о НИР, я их в своё время вагон написал.

А почему бы их не писать человеческим языком?

Потому что тогда их не примут.

А вы пробовали? (я пробовал)

И я пробовал. У вас приняли?

UPD: Ладно, справедливости ради я как-то делал НИР частникам, и там было тупо 3-4 страницы содержательного текста, им воды не нужно было. А вот когда работаешь с госами... Собственно, НИР это скорее оттуда - аббревиатура применяется для конкретных этапов исследований, поэтому я так и сказал. Частники бы употребили слово research скорее всего :)

Потому что есть разные стили написания текста. Научные статьи пишутся в одном стиле, юридические материалы в другом, худлит в третьем, рекламные материалы в четвёртом.
Ну и, по совести, многие склонны оценивать отчёт по его толщине, а не по количеству информации. Я вообще лично придерживаюсь убеждения, что самый лучший отчёт — это красивый и понятный график. Но руководство периодически смотрит косо, типа: "Это ты тут два месяца работал, чтобы 15 страничек текста выдать?".

Хотел бы пригласить автора к дискуссии - а чем плоха ИИ-генерация?

Для соискателей в редакцию, конечно, очевидно, что человек должен уметь писать. Также, как архитектор (в строительстве) должен не только уметь работать в программах но и рисовать карандашом (как требует Олег Карлсон в своем блоге).

Но с т.з. пользователя - насколько Вы стоите на страже его интересов когда считаете ценностью чтоб в статье было: “Оставляй швы в тексте”. “Используй простые конструкции”, “Пиши как человек, который думает по ходу текста”.

Ставя себя на роль читателя - я бы хотел получать материал без швов и продуманные мысли (а не по ходу текста).

При этом, конечно, получить ИИ-генерацию по простому промпу для меня мало ценности (я могу и сам отправить запрос), но если автор написал конспект или большую часть мыслей, а использовал ИИ чтоб “причесать” статью - я бы это только приветствовал.

Олег, я двумя руками за ии-генерации, мало того - все мои тексты написаны нейронками.
По сути вашего коммента: если задача текста – передать инфу (инструкция, справка, документация), швы мешают. Гладкий текст там лучше. Согласна.

Статья, блог – другой жанр. Читатель платит вниманием не только за информацию, а за то, как автор думает. Шов – это как раз тот момент, где видно человека: отвлёкся, вернулся, налажал, передумал. Идеально гладкий текст в этом жанре вызывает ощущение, что тебе что-то продают.

Ваш последний абзац про «написал мысли, причесал через AI» – это ровно то, что я считаю нормальным. Промпт «напиши статью про X» и промпт «вот мои мысли, помоги оформить» – разные вещи. Первый генерирует болванку, второй усиливает автора. Статья про первый случай.

  1. “все мои тексты написаны нейронками” - смелое признание ))

  2. “Читатель платит вниманием не только за информацию, а за то, как автор думает”
    На уровне ощущений мне кажется что это не так. Вот сейчас пытаюсь представить ситуацию, где для меня это важно - и не получается.
    У меня, например, есть любимый современный писатель в жанре фантастики и читаю все его книги сразу как он их заканчивает. И я обратил внимание, что мне приятно его читать. И недавно я обсуждал с ИИ его книгу, на что ИИ мне отметил, что у всех глав есть общий паттерн и в самой книге есть иерархия паттернов, которые определенным образом согласуются и сам текст достаточно правильный. И это прям сильный признак что как минимум сюжет и разбиение по главам он делает с ИИ (либо супер структурно мыслит).
    Это такой пример, что даже художественную книгу, которая не “инструкция, справка, документация” регуряность не портит.

  3. А вот понимание того, что скорее всего тут “шов” введен специально - если оно возникнет - может не порадовать.

а какой писатель?

позволите не ответить публично, чтоб не повредить ему этим подозрением - он мне действительно нравится )

я понимаю что фактически есть предубеждения против ИИ-генерации, и мне было бы интересно с Вами, как профессиональным участником этой отрасли, обсудить их обоснованность

Понимаю, не буду настаивать) Вы описали интересный кейс. Писатель, у которого чёткие паттерны на уровне глав, и вам это нравится. Но смотрите, вы же заметили эти паттерны, только когда ИИ на них указал. До этого вы просто чувствовали, что «приятно читать». То есть структурность работала на вас неосознанно, и это ок. Проблема возникает, когда структурность становится единственным, что есть в тексте. Ваш писатель наверняка делает внутри этих паттернов что-то неожиданное. Иначе вы бы просто бросили на второй книге. Нейросеть (без доработки) делает структуру без неожиданностей. Гладенько, но забыл через пять минут.

Про швы вы правы, что намеренный шов может раздражать. Фальшивая небрежность хуже фальшивой гладкости. Думаю, что шов работает, только когда он настоящий. Когда автор реально отвлёкся, а не имитирует отвлечение. Именно поэтому промпт из статьи скорее костыль, а не решение. Он убирает самые очевидные AI-маркеры, но живым текст делает только человек.

Про предубеждения против AI-генерации – с удовольствием обсужу. Считаю, что предубеждение бессмысленно, а вот требование к качеству финального текста нет. Неважно, кто написал черновик. Имеет смысл, прошёлся ли по нему человек с головой.

Неожиданности есть но это не про неожиданности в структуре или потоке повествования. Это неожиданности в сюжете, раскрытии лора и развитии героев (три пункта “само получилось”). Получается, что структура и поток повествования это как носитель на котором до читателя доносится смысл. И вот смысл (сюжет, вселенная, герои) - это ценность, а носитель должен быть таким, чтоб его не замечал.

“Проблема возникает, когда структурность становится единственным, что есть в тексте” - тут польностью согласен.

И в остальном тоже.

“Про предубеждения против AI-генерации – с удовольствием обсужу” - а что по Вашему наблюдению - вы сталкиваетесь с этим, какая мотивация у тех кто их имеет?

Сталкиваюсь постоянно, мотивации вижу три (само получилось) - страх потери работы, те защитная реакция. Еще постоянно слышу, что «настоящий текст должен быть написан человеком». Это типа как «настоящая фотография только на плёнку». Позиция, но не аргумент. Жажда корявой зачастую человеческой эстетики. Ну и качество. Нередактированная выдача иишки действительно убога.

Про носитель и смысл красиво сформулировали. Структура должна быть незаметной. Проблема AI-текста в том, что его структура как раз заметна – слишком ровная, предсказуемая. Читатель чувствует носитель, и это мешает смыслу. Интересно это учесть при работе дальше, спасибо за наводку.

Спасибо!

У меня не получалось обсуждать с ИИ книги. Спрашиваешь что-нибудь по содержанию, а он ничего не знает. Хотя может его просто на японских ранобэ не обучают

Читатель платит вниманием не только за информацию, а за то, как автор думает

Это ещё почему? Если мне интересна именно цепочка рассуждений, как автор персонаж пришёл к какому-то выводу, то это с вероятностью 99% - детектив. И в любом случае, это не "как автор думает" смо по себе, а информация о методе мышления и способе анализа конкретной ситуации. Вот всех остальных случаях мне глубоко безразлично, как автор думает, какое у него настроение, в чём он одет и где сидит.

А у меня предвзятое отношение к ИИ текстам, как только начинаю замечать такие паттерны, сразу отпадает желание читать до конца, потому что возникают сомнения в правдивости статьи, может там нейронка нагаллюцинировала чего, а я поверю.

а к галлюцинациям людей как относитесь?

Это ко мне ближе, так что положительно)

  1. У людей меньше галлюцинаций.

  2. Если галлюцинация в тексте от ИИ - значит автор поленился вычитать этот текст. Так зачем мне читать то, что не читал даже “автор”?

именно так, топлю за подход - делай черновик любым способом, но финал только пропущенный через сердце и разум

Я бы добавил, что ядро рассказа - ключевые мысли, сюжет, идеи, которые должны быть донесены до читателя - тоже должен делать автор

  1. У людей меньше галлюцинаций.

Не уверен. Можно спросить любого практически человека об СССР, РИ, СВО, США, Израиле, Иране, и практически о чём ещё угодно другом, где конкретный человек не является специалистом - и только успевай вычёрпывать.

Только у людей это называется несколько по-другому. "Личное мнение"

LLM обучены на материалах от этих же людей - там “личных мнений” на любой цвет и вкус можно найти. Но это все-таки не галлюцинации.

Галлюцинации - это появление фактов, которых не было в обучающих материалах. Человек тоже может забывать, путаться, галлюцинировать в конце концов - не спорю. Но это, как правило, происходит очень редко и сильно от человека зависит.

А куда вы отнесете известный миф о “28 панфиловцах”? Ну, или поручика Киже?

К мифам и легендам. Правда, не понимаю, к чему вопрос. Как это соотносится к галлюцинаниям?

Это - фактоиды: факты, которые не существовали в объективной действительности, но были зафиксированы в письменных источниках - в газетах, в бумагах - то есть, попали в отображаемую текстах действительность. Те фактоиды были произведены людьми, без LLM. Механизмы были разные. Панфиловцы полезный пример для пропаганды (реально полезный, не для обмана людей, а для помощи им в преодолении танкобоязни: танкобоязнь - она вообще-то выживаемость снижает). Киже - искажение информации при передаче. Не упомянутый мной ранее, но тоже хорошо известный отравитель из Мэттуна - страхи, слухи и сплетни людей, не имеющих достаточной информации. А галлюцинации LLM - это фактоиды, произведенные LLM, просто для них специальное название придумали. Короче, люди отлично справлались с производством фактоидов и до LLM, а LLM всего лишь дала дополнительный способ для этого.

Галлюцинации - это появление фактов, которых не было в обучающих материалах.

Даже если согласиться с Вашим определением галлюцинаций (а я с ним не согласен), вот уж такого-то у кожанных выше крыши и регулярно. Называется "аберрации памяти".

И часто происходят эти самые аберрации памяти у человека? Если человек не знает или не уверен - он так и скажет. Да, может додумать/придумать/исказить - не спорю.

LLM же не умеет признаваться в подобном - и это один из значимых недостатков LLM. Она с одинаковой уверенностью говорит и полную ерунду.

И лично у меня больше доверия человеку - особенно если он профессионал в интересующей меня теме.

И часто происходят эти самые аберрации памяти у человека?

Да постоянно. Если Вы с таким не сталкиваетесь, искренне завидую. Но или Вы живёте на необитаемом острове, или не верю. Постоянно "Ты сказал вот так - Нет, я сказал вот сяк" - у одного из двоих (или у обоих) "галлюцинация".

Если человек не знает или не уверен - он так и скажет.

Далеко не все и далеко не всегда. Даже славяне или европейцы. А, например, у азиатов - это потеря лица, то етсь вообще недопустимо.

Да, может додумать/придумать/исказить - не спорю.

Это и есть "галлюцинация".

LLM же не умеет признаваться в подобном

Умеет. Но тут она ближе к условным азиатам - потеря лица. А если вглубь, то её бьют палками во время обучения за такое, так что она обучена не признаваться.

И лично у меня больше доверия человеку

Пока что да. Но уже не всегда.

ИИ-генерация это инструмент, он не плохой и не хороший

А вот то как его используют

На первом этапе Бизнес, да, дает некому творцу-эксперту ИИ, чтобы он значил творил еще продуктивней, креативней и так далее. Потом этот Бизнес задумывается, что запросы в ИИ может писать и студент за еду, а эксперт с его экспертной ставкой особо и не нужен

В финале до Бизнеса доходит, что не нужен даже и студент

По итогу я лично столкнулся: купил сыну бумажную книгу, детская энциклопедия про бытовые приборы. Хорошая полиграфия, рисунки, но содержимое! Сели читать дома: на развороте нарисована ЖК-панель, приделана абстрактная схема ЖК матрицы, сопроводительный текст при этом написан про ЭЛТ, причем написан максимально шизофренично, прям видно как в ИИ задали задание "опиши принцип действия телевизора в 5 предложениях, чтобы было понятно ребенку 5 лет" , итого, цитата "электронные лучи трех разных цветов"

"В финале до Бизнеса доходит, что не нужен даже и студент " - а если гипотетически продолжить эту логическую цепочку - ...и потом до владельца бизнеса доходит что ему вообще никто не нужен, а до государства доходит что ему и владельцы бизнеса не нужны ))) И кто от этого в плюсе?

Вообще у меня вызывает сомнение вот этот логический переход "запросы в ИИ может писать и студент за еду, а эксперт с его экспертной ставкой особо " - а действительно это так?

Ваш пример с книгой - это пример плохо сделанной работы и тут больше вопросов к автору, чем к инструменту. А вы не пробовали с помощью ИИ сами написать книгу для сына, заложив туда правильные мысли и вычитав итог?

Сели читать дома: на развороте нарисована ЖК-панель, приделана абстрактная схема ЖК матрицы, сопроводительный текст при этом написан про ЭЛТ, причем написан максимально шизофренично, прям видно как в ИИ задали задание "опиши принцип действия телевизора в 5 предложениях, чтобы было понятно ребенку 5 лет" , итого, цитата "электронные лучи трех разных цветов"

А можете показать? Даже теперь интересно, что там ещё понаписано...

Как будто есть некий образцовый "человеческий" текст:)

Девушка, а вы книжки читаете?:)

немного хамоватый ваш коммент, но отвечу. Читаю, на трех языках. И исследования из статьи тоже.
Образцового человеческого текста нет. Есть статистическое распределение лингвистических признаков, характерное для текстов, написанных людьми. И другое распределение, характерное для LLM. Просто данные, не более. Можете с ними поспорить, с удовольствием почитаю.

Не хамоватый, нормальный. Что вас оскорбило в моём вопросе? Как нужно было спрашивать?

Про то, что ЛЛМ пишут так, как научили, это очевидно. Они пишут универсально и предсказуемо, и это даже хорошо.

Вы пытаетесь утверждать, что сделали декомпозицию "настоящего" человеческого текста:) «Не так, а вот так »(с) На самом деле, у людей, которые пишут тексты профессионально и своими руками, на выходе можно ожидать в принципе любой текст. Абсолютно любой и в любом стиле. Профессионального писателя текстов вообще можно попросить написать в стиле бабы Мани с рынка, и он это вам легко выдаст.
А исследования на тему «не так, а вот так» обычно анализируют комментарии юзеров, написанных одной рукой в телефоне. Отличаются ли они от текстов нейросетей? Ну, конечно же, отличаются. В худшую сторону — почти все.

Когда я спросил про «читаете ли вы», я не имел в виду информацию по работе, а литературу — фикшен, нон-фикшен, и тому подобное等等 . Мне кажется, что нет, иначе бы вы видели, насколько может быть разнообразным авторский текст.

В статье вы много раз упомянули про «Три аргумента в каждом блоке». Три свойства предмета, три описания, три прилагательных — именно так, по три штуки, советует писать некий Стивен Кинг, и вероятно, он знает толк в таких вещах.

Кроме того, стоит учитывать (с) что сейчас люди перенимают у нейросетей характерные речевые обороты (калька с иностранного, структура и так далее等等), вы это не отразили в статье. Остальные спорные моменты разбирать лень, простите.

В принципе ваша статья - это тоже нейрослоп по вашим же маркерам и по смыслу, имеющий плохую корреляцию к с лингвистической реальностью. Так нельзя — в академическом смысле, хотя, если вам это принесёт сколько-то денег, то пускай:)

P.S. Текст комментария написан своими личными руками, в отличие от.
Длинные тире, иероглифы и угловые кавычки я специально вставил:)




Вы агрессивный, но с парой валидных поинтов. Ок, давайте по пунктам.

Про Кинга и тройки – он советует три детали в описании сцены для создания образа, то есть это осознанный прием. У модели – дефолт, она лепит тройные перечисления в любом контексте.

Про то, что профессиональный автор может написать любой текст – конечно. В статье речь не про профессионалов, а про статистическое распределение признаков в корпусах текстов. Исследование PNAS анализировало не комментарии юзеров, а тексты по набору лингвистических признаков Биббера – стандартной системе для анализа регистров.

Дальше. Нейрослоп это нередактированная выдача модели, опубликованная как есть. Все мои статьи написаны AI и прошли через мой мозг. Но как бэ я делаю AI-продукт, было бы странно это прятать.

Про хамоватость – «девушка, а вы книжки читаете?» в ответ на статью с восемью ссылками на исследования. Ну вы сами понимаете, как это звучит.

Прошу прощения за оффтоп. Однако нет сил терпеть, показать хочу) Мне очень понравилось про бабу Маню с рынка... Далее сгенерированный текст как есть - без правок, но читал, и мне понравилось. Баба Маня с рынка могла бы объяснить устройство ЖК-матрицы так:

«Ну, представляешь, это как слоёный пирог! Только вместо теста и начинки — разные плёнки и кристаллы. В самом сердце — жидкие кристаллы, это такие особые вещества, которые могут и течь, и держать форму. Они как бы „думают“: когда на них подаёшь напряжение, они поворачиваются и решают, сколько света пропустить.

Сверху и снизу от них — поляризационные фильтры, как два кусочка поляризационной плёнки. Один пропускает свет только вертикально, другой — только горизонтально. Если между ними нет кристаллов, свет почти не проходит. А если кристаллы есть, они как бы „вращают“ свет, и он может пройти или нет — в зависимости от напряжения.

Каждый „кусочек“ изображения (пиксель) состоит из трёх маленьких ячеек (субпикселей): красной, зелёной и синей. В каждой — свои кристаллы и светофильтр. Когда на кристаллы подаёшь разное напряжение, они пропускают больше или меньше света. А цвета смешиваются, и получается картинка.

Ещё нужна подсветка, потому что сами кристаллы не светятся. Раньше использовали газоразрядные лампы, а сейчас чаще светодиоды — они экономнее и ярче. Чтобы свет был равномерным, а не „зернистым“, добавляют рассеиватели и световоды — как будто размазывают свет по экрану.

А чтобы управлять всем этим, есть тонкоплёночные транзисторы (TFT). Они как дирижёры: говорят кристаллам, когда поворачиваться, а когда нет.

Вот так и работает ЖК-матрица — как сложный слоёный пирог, где каждый слой выполняет свою роль!».

(Разумеется, шуточный комментарий)

💯 валидных поинтов 😂 от такого же агрессивного 😂😂

дело не в "образцовости" текста, мне показалось автор ничего такого не имел ввиду. Но. В любом тексте есть какие-то особенности и свои закономерности. У LLM они такие, у человеческих текстов - другие. Или такие же?

Очевидно, что отличия есть. И автор пытается в этом разобраться. И это интересно (для тех, кто сам в этом не является специалистом).

Спасибо, точно сформулировали, это и хотела сказать – отличия есть, они статистически измеримы и у каждого из них техническое объяснение.

В том то и дело, что совершенно не пытается, цель - реклама своего бизнеса. Она, "Основатель Рерайт-Завода", как написано в профайле, обосновывает свои руководящие решения, с помощью текста, сгенерированного нейронкой, а котором она выступает против бездумного использования нейронок, легко палится по тем же самым признакам, которые перечислены в статье. Ачотакова(с)

"Текст грамотный, структурированный. Три аргумента в каждом блоке. "
"Модель интернализировала структуру «заголовок + три буллета» и транслирует её в прозу. "
и тут же
"GitHub, Stack Overflow, техническая документация. "
"Почерки моделей

"У каждой модели свой стилистический отпечаток.
ChatGPT 
Claude
DeepSeek "

И так везде.

Ваш текст воняет GPT. (с)


Возможно и реклама, тут я не буду спорить. Я не люблю рекламу, это плохо.

К сожалению, мы живем в такое время, когда вокруг слишком много рекламы. И уже выработался рефлекс, что если что-то рекламируют - значит, завышена втрое цена, ну или там просто мошенники... Увы и ах. Разве хлебу, например, нужна реклама? Кому нужно - зайдет в магазин и выберет себе по вкусу. Достаточно вывески над входом в магазин..

С другой стороны, а разве 90% (навскидку) текстов на habr - не является рекламой, в крайнем случае, саморекламой?

Так что "вывеска над входом" в некотором виде, все-таки, нужна

Вот бы анализатор на Хабре прикрутить, что бы оценивал человечность статей. Может, видимую только автору, в черновиках. А то устаешь читать «не просто, а…», неуместный пафос и панибратство, словно вырванные из чата с AI. Иногда с первой строчки видно, что сгенерированный текст.

Это было бы идеально. Просто хотя бы даже для того же автора в его тексте подсветить маркеры, ну или для юзеров сделать фильтр по материалам, чтобы не видеть те, которые похожи на генерации. Но вообще, если честно, в будущем, я просто уверена, в недалеком, нам придется платить за несгенерированный контент.

Я как-то руками написал резюме, полностью сам, по туториалам лучших собаководов (но дословно текст ниоткуда не тырил). Загнал в такой анализатор, он сказал 98% что писала баба-робот.

у меня аккурат также – пишешь текст даже пусть с ИИ, суешь в анализатор и подсвечивает мой текст, как иишный. Бросила это дело

Вот пример поста - Исследования и прогнозы в IT — 26.01 13:18 / Хабр . Зуб даю, на 100% AI текст. А потом возьмите для сравнения любой пост, написанный до 2023 года. А вы говорите, что AI текст не детектируется. Еще как детектируется. Раз человек видит разницу, то и нейросетку можно натаскать на это дело.

По многим параметрам получается, что я – ии модель.

тире любите?

Не только, ещё, например, деепричастные обороты, вводные слова (важно отметить) и гиперсвязность. Это прямо вдалбливают и заставляют использовать на письменной части экзамена IELTS. О, вон еще и перечисление из трёх получилось. Оно как-то тоже естественным образом выходит. Один пример – случайность, два – совпадение, три – золотая середина, четыре – уже слишком много. Вообще, в английском конструкция “A, B, and C” очень распространена и не из-за моделей.

В русском тройка палит сильнее. В английском чек-лист выглядел бы иначе, наверно. Ну и да, один маркер норм. Все 12 разом в одном тексте – вот тогда уже вопросы.

Так человек, который пишет на английском и русском будет делать это примерно одинаково и англицизмы будет использовать. Просто потому что очень тяжело не только язык, но и стиль переключать. Я такое могу (но не факт, возможно, заблуждаюсь, что могу) только с прикладыванием серьёзных усилий.

Я бы и человека журил за такое. Впрочем, я так и делал задолго до распространения ИИ.

Не владеешь языком ­— пиши на другом, это не стыдно. Хочешь писать на этом, но не можешь, — вычитывай текст. В крайнем случае найми корректора. Добрые люди ткнули носом в стилистическую или синтаксическую ошибку — не веди себя как обиженный первоклассник, каторый хочит песать как слышица и хочица, а точнее, умееца. Ещё гордится, мол, я вольнодумец, не скованный шаблонным мышлением. Прими к сведению, поблагодари и больше таких ошибок постарайся не делать.

Т.е. вы за всё хорошее против всего плохого? Я вас в этом полностью поддерживаю и желаю того же. Жалко, что реальность не всегда совпадает с нашими желаниями. Я обязательно найму корректора, чтобы комменты на хабре писать. Вот опять у меня англицизм вылез, прастити.

Аналогично, коллега. Мне кажется, все эти разборы AI-шности от лукавого.

Если:

  • у человека хорошо развита культура письменной речи

  • он любит структуру

  • выделяет всё в списки

  • строит таблички

  • бьёт на абзацы и вообще стремиться сделать, чтобы было удобно понимать смысл

  • подчёркивает / выделяет важное

  • любит раскрывать термины

  • любит типографику

  • перечитывает написанное перед отправкой и потом редактирует, поняв, что не погрузил читателя в свой контекст

  • перечитывает написанное после отправки и повторяет предыдущую итерацию, пока разрешено редактирование

  • вежлив в общении

  • употребляет вводные слова

  • признаёт ошибки

то у такого человека очень высоки шансы, что его примут за БЯМ.

И самое смешно в этой ситуации, что человек и есть БЯМ. Знаю по своей маме, которая страдала деменцией. Уверяю, понять, что заболевание зашло уже слишком можно не скоро. Паттерны речи очень долго остаются привычными.

Не, вы не ЛЛМ - у них таких длинных списков нет )))

Хотите, я перепишу сообщение с более кратким списком? Хотите, я это сделаю?

Нетъ.

Хм… ИИ-генерация в статье про “как поймать ИИ-генерацию”. Иронично ) За весь текст не скажу, но местами - точно )

в смысле местами? не обижайте, весь текст написан нейронкой, ну камон, я же работаю с этим. Вручную что ли по клавишам жмакать?

я просто пробегал глазами комменты и, знаете, была мысль что и их уже пишет нейронка. Ваши комменты. Скажите, это так? или мы столько с ними работаете, что уже не можете писать как человек?

AI: «Компания развивает новые направления, обеспечивая устойчивый рост, привлекая инвесторов и создавая рабочие места.»

Человек: «Компания развивает новые направления. Инвесторы приходят, рабочие места появляются.»

Вы бы взяли любой корпоративный текст до эпохи ИИ и прочитали - то что у вас в примере про ИИ это стандартный русский бюрократический язык. В этом отношении модели его только улучшат.

Далее, человек не пишет рублеными предложениями как в пешем примере. За это в школе всем по рукам били. Это уровень «Мам мыла раму».

Опять таки рабочие места не появляются а создаются - это уже устойчивое словосочетание.

Я не копирайтер и тем более не профессиональный, но ваши аргументы, слабоваты.

Там где вы приводите ссылки на распределения и прочую (псевдо) научную фигню которую надо проверить поспорить сложно -надо лезть и проверять но всем лень, так что может прокатить, но когда вы приводите примеры - они показывают что аргументы ваши слабы

Далее, человек не пишет рублеными предложениями как в пешем примере. За это в школе всем по рукам били

Я пишу. Сейчас, правда, меньше. Именно в школе такой стиль и выработал. Тут аудитория от 15и до 50и. Русский язык учили в очень разное время и в очень разных школах.

Училка говорила: не умеешь в сложные предложения - пиши простые, меньше ошибок.

Был такой писатель, Исаак Бабель. Советовал писать кратко и, по возможности, простыми предложениями. Буквально существительное и глагол.

Так что пишут люди рублеными предложениями, пишут.

Случайный лес, обученный на этих признаках, различал тексты 7 источников с точностью 66% при baseline 14%.

Много раз перечитывал эту фразу, пытался понять: «что ж за случайный лес такой-то?» Если бы это был перевод — попросил бы привести фразу в оригинале; ну а так просто призываю пояснительную бригаду!

Random Forest классический алгоритм машинного обучения. Буквально так и переводится - случайный лес.

Не переводится. Это дословный перевод но это не означает что он правильный.

В институте в недавние годы на нескольких дисциплинах вспоминали про случайный лес, везде именно так и писали и говорили: "случайный лес", иногда "random forest".

Благодарю! Лично я бы написал «Random Forest, обученный…» (уже видно, что название чего-то); или вообще «Алгоритм Random Forest, обученный…» — но Вы автор, написали вот так.

Я бы сказал, тут есть нюансики, не всё так однозначно. Я достаточно много в жизни писал, и художественных текстов, и технических. В художественных - да, там пишешь иногда достаточно эмоционально и ритм раздергивается. А вот в технических - я читаю приведенные 12 маркеров и ловлю себя на том, что использую бОльшую часть того, что приписывается LLM. По структуре построения предложений, использованию вводных слов/фраз, "гиперсвязности". Вот, даже в предыдущем предложении перечисление из трех элементов. Эти три элемента не на пустом месте ведь взялись, сами же пишете, что модель на них обучилась. А почему обучилась? Да потому что до нее 100500 авторов так написали. Это наиболее вероятный паттерн - три элемента, потому модель его и использует. Но наиболее вероятный он не потому, что модель его изобрела, а потому, что так пишут люди ДО модели. Вот вам, кстати, еще один "шаблон" - не Х, а Y. Когда прочитаешь пару тысяч технических текстов, да еще и из одной области, то есть написанных людьми с весьма схожим мышлением - невольно начинаешь под этот стиль подстраиваться.

У меня мама - кандидат наук, 20 с лишним лет научной деятельности (пока Союз не развалился). И я хорошо помню, как еще в моем относительно детстве она меня учила правилам написания научных статей. Как они должны быть структурированы. Какие обороты используются, какие языковые конструкции. Какие логические связи, как они протягиваются через весь текст. Может, Вы сильно удивитесь, но 8-9 из 12 маркеров там были. В 80-х годах. Когда еще не существовало такого слова - LLM. В физике так было принято.

Не всё так однозначно.

вот вы мне важный момент подсветили, который я упустила, спасибо. Этот чек-лист работает в контексте публицистики, блогов, всяких там медиа, художественной прозы. Для тестового на позицию жура в медиа восемь маркеров из двенадцати это ред флаг. Для научной статьи по физике это нормальный регистр, и маркеры тут бесполезны. Вашей маме респект

Автору спасибо за тему и в особенности за смелость. Вызвала огонь на себя конкретно. ) В поддержку пара строк.

А что, собственно, плохого в костылях (топорах, молотках, самолетах)? Человек, как нас учили, стал человеком, когда дотумкал до того, чтобы делать себе инструменты. Сиречь, средства производства и все такое. Вопрос не в том, использовать молоток или нет. Вопрос в том, чтобы выбрать правильный молоток. И в конце тщательно обработать напильником. АИшки - инструмент нового времени. Дружно учимся им пользоваться. Так, чтобы не стыдно было предъявить результат. Вот о чем эта статья, имхо. И очень правильно, что на собственном примере.

Эти ребята просто здорово ускоряют работу. За результат все равно отвечает автор. На мой взгляд, нет смысла оценивать сам факт: был ли использован ИИ в написании статьи. Единственное, что действительно стоит оценивать - Хороша ли статья. Полезна ли инфа. Цепляет ли стиль. И вообще, зашло/не зашло. Не важно, научная публикация, художественная... Пройдет совсем немного времени, об этом (инструментарии) спорить перестанут. Как сейчас не спорят, построен ли деревянный храм с использованием гвоздей или нет. Пока что это горячо, поскольку в новинку. Человеку человеково, молотку - молотково. Мадам - респект за смелость)

Так именно, вопрос никогда не в инструменте, а в руках и голове. Хороший результат – хороший результат, неважно чем сделан. Ну и да, лет через пять будем хмыкать над этими спорами, как сейчас над "ворд портит почерк" и "это же фотошоооп". Спасибо, что написали, Юрий

Я, когда пишу в своем стиле, имею половину ИИ-шных признаков) Люблю запятые с деепричастными оборотами, уточнения, тройные доказательнве пункты и т.д.

Кстати о птичках. Всё хочу поделиться, но это не пройдёт нормально даже постом, запрос для LLM:

Редакторский язык разметки для IT-литературы (РЯР-IT)

Версия 4.0 — расширенная, профессионально обоснованная

1. ФИЛОСОФИЯ ЯЗЫКА

РЯР-IT — контекстно-независимый, жанрово-осознанный, когнитивно-ориентированный инструмент редакторской разметки.
Он не привязан к языку программирования, уровню читателя или цели книги.

Язык фокусируется на пяти уровнях качества текста:

Уровень Критерий Источник структурный соответствие жанру «техническая глава» ГОСТ 7.0.97–2016, Swales 1990 логический ясность, непротиворечивость, последовательность Розенталь, §170 языковой грамматическая, орфографическая и пунктуационная корректность Лопатин, Розенталь стилистический нейтральность, отсутствие штампов и книжностей НКРЯ, ОРФО когнитивный управление нагрузкой на читателя Sweller 1988, Plain Language Movement

Изменение контекста (язык, аудитория, цель) не требует изменения самого языка разметки.

2. СИНТАКСИС

!тип: содержание
  • ! — обязательный префикс

  • тип — одно слово из закрытого списка (см. §3)

  • : — строгий разделитель

  • содержание — кратко, конкретно, без оценок, на русском языке

Примеры:

!сочетаемость: «задачи по программированию» — нарушение лексической сочетаемости (НКРЯ)
!нагрузка: предложение из 22 слов — превышает порог читаемости (Plain Language: ≤20 слов)
!жанр: заголовок-вопрос — недопустим в технической литературе (ГОСТ 7.0.97–2016, п. 5.3.2)

3. УНИВЕРСАЛЬНЫЙ СПИСОК ТИПОВ

3.1 Контекстно-независимые типы (всегда применимы)

Тип Описание Источник грамматика нарушения морфологии и синтаксиса (падежи, согласование, управление) Розенталь, §34–78 орфо орфографические ошибки или нестандартное написание Орфографический словарь РАН (Лопатин) пунктуация ошибки в постановке знаков препинания Розенталь, §89–128 лексика неуместная лексика (жаргон, архаизмы, непояснённые англицизмы) НКРЯ, ОРФО стиль отклонение от нейтрального технического стиля (разг., канц., книжн.) Розенталь, «Справочник по стилистике» штамп клише учебной или публицистической речи («желающих научиться», «будет интересна как тем…») Шанский книжность архаичные или излишне возвышенные обороты («путеводитель», «проследовать») ОРФО сочетаемость нарушение норм лексической/стилистической сочетаемости Ахманова; НКРЯ повтор тавтология, плеоназм, смысловое дублирование Розенталь, §197 ясность фраза требует пояснения для неподготовленного читателя Plain Language Principle амбиг двусмысленность, допускающая разные интерпретации ГОСТ 7.0.4–2006, п. 6.1 логика противоречие, скачок в рассуждении, неверный вывод Розенталь, §170 структура нарушен порядок изложения или композиционная целостность ГОСТ 2.105–95, п. 4.3 мотивация отсутствует объяснение «почему» Zobel, «Writing for Computer Science» термин неточное, неединообразное или неопределённое употребление термина ГОСТ 7.0.4–2006 жанр несоответствие жанровым нормам технической главы (вопрос в заголовке, рекламный тон) Swales, ГОСТ 7.0.97–2016 нагрузка >20 слов в предложении, >2 вложенных придаточных, >3 новых термина в абзаце Cognitive Load Theory

3.2 Контекстно-зависимые типы

Тип Описание Требует уточнения код замечание к программному коду язык программирования имена неочевидные идентификаторы почему неочевидны типы выбор типа данных язык, система переполнение риск integer overflow диапазон значений погрешность ошибки округления источник (float, деление) практика несоответствие реальной практике олимпиадная / промышленная / академическая голос несоответствие аудитории какая аудитория подразумевается

4. ПРАВИЛА УСТОЙЧИВОСТИ К ИЗМЕНЕНИЯМ

  1. Не упоминать язык программирования в типе — только в содержании.

  2. Не предполагать уровень аудитории — формулировать как общее замечание.

  3. Ссылаться на общие принципы, а не частные правила:

    • вместо «нарушает PEP 8» → «нарушает общепринятые практики именования»

    • вместо «в C++ так не делают» → «в системном программировании это считается небезопасным»

  4. При неизвестном контексте — формулировать как вопрос.

  5. Избегать субъективных оценок — только объективные критерии.

5. ИСТОЧНИКИ И АВТОРИТЕТЫ

Область Источники Лингвистика и нормы Розенталь, Лопатин, НКРЯ, Ахманова, Шанский Техническое письмо Zobel «Writing for Computer Science», Strunk & White ГОСТы 7.0.4–2006, 7.0.97–2016, 2.105–95 Международные гайды Google/Microsoft Developer Documentation Style Guide Когнитивные и жанровые основы Swales «Genre Analysis», Sweller «Cognitive Load Theory», Plain Language Movement

6. ЗАКЛЮЧЕНИЕ

РЯР-IT v4.0 — профессиональный, научно обоснованный, автоматизируемый инструмент, позволяющий:

  • ✅ выявлять речевые ошибки, включая нарушения сочетаемости и употребимости,

  • ✅ контролировать жанровую адекватность,

  • ✅ снижать когнитивную нагрузку,

  • ✅ обеспечивать соответствие издательским и международным стандартам.

Язык масштабируется от школьных учебников до enterprise-документации и не требует обновления при смене контекста.

© Редакторский стандарт РЯР-IT, версия 4.0

Особенно мощно работает, когда сегментируешь, как в инструментах перевода, и просишь перевести на редакторский язык (потому что самая естественная задача LLM — перевод).

Самое главное: решение при таком подходе точно остаётся за человеком, текст просто размечается предупреждениями, а думаешь сам. Хотя печально, что сам текст запроса модель написала не по правилам.

Для меня главный признак генерации - ИИ сохраняет самое конкретное знание, выбрасывая промежуточное и/или общее. Вроде того, что в адресе номер квартиры сохраняет почти всегда, а вот в остальных составляюших - их или может частично/полностью не быть, или часть их можно набредить.

Оттуда и “электронные лучи трех разных цветов”, упомянутые в коменте от dobrobobrrobot .

Сравнительно недавно была статья про революционера Николая Морозова: https://habr.com/ru/articles/991072/

Написано легко, увлекательно, 58 плюсов на настоящее время (на один больше, чем у вашей статьи после моей оценки), про якобы самообразовавшегося в одиночке Морозова - но бред, с плотностью где-то в одну легко проверяемую ошибку на три предложения.

Мне там в самом начале бросилось в глаза, что, согласно статье, его родители были женаты. Однако невозможность им официально обручиться, это краеугольный камень судьбы Николая Петровича Морозова. Свидетельствует, что автор даже ничего не читал по той теме, по которой успешно наваял. А для ИИ “женаты” и “неженаты” - просто сжатие информации без заметной потери смысла.

Далее - факт заключения в Алексеевском равелине. Многие ли смогут сказать, в какой это было тюрьме, и, даже в каком городе? Человек так бы рассказал? Да, сам автор мог при чтении и не задумываться, как другие это поймут, т.к. сам из этого же города. Но не при самостоятельном написании же. Далее… когда ИИ пересобирал факты о заключении в равелине, то, указывая только точные отдельные фактики, всё попутал - не тот арест; не по тому делу; сидел, в основном, не в равелине, а в неупомянутом в статье Трубецком бастионе, (причем, это был даже не бастион, а новопостроенное здание тюрьмы с таким неофициальным названием). Но это же всё невозможно сжать, не выжав при этом на поверхность утрату смысла. Так что… просто накидаем конкретики и логично всё увяжем на свой вкус.

Впрочем - пипл благодарно схавал. И, я вполне с ними согласен - написано залекательно, а кому нужны факты - так и в статье википедии про Морозова они местами передёрнуты.

Лена, поделитесь секретом, зачем вам авторы, которые пишут сами, если даже взыскательных читателей хабра вполне себе устраивает нейробред без явных стилистических признаков этого самого нейробреда?

спасибо, я когда вижу комменты, как ваш, не могу работать, пока не прочитаю целиком. Люблю такое.
Авторы мне нужны, потому что нейронка не умеет делать ровно того, что вы описали – держать связную картину. Она собирает конкретику по кусочкам и без фактчека сжимает всё остальное до логичного вранья. Для развлечения этого хватает. Для моих задач по написанию и рерайту региональных новостей нет. Это другой жанр. Ошибка уровня женаты/неженаты в биографическом лонгриде на Хабре огорчит знатока темы, как вы. А похожая ошибка в новости про задержание подозреваемого – это вполне возможно иск к редакции и отзыв лицензии СМИ при злоупотреблении. Стоимость выше.

Орфографические ошибки и опечатки допустимы в комментариях. Но в самой публикации - это признак либо сознательной манипуляции с целью зацепить внимание читателя либо проявление крайнего неуважения к тому же читателю, когда автор поленился вычитать текст и исправить подчеркнутые красным словам. В обоих случая это воняет.

Автор, давайте ваш тестовый текст в статью а мы кто сами, кто с помощью ИИ перепишем, а вы проверите….

Если не угадаете- с вас пиво…

У AI – три. Модель интернализировала «заголовок + 3 буллета» и напихивает это нам везде.

Справедливости ради, я уже лет 20 часто использую три буллета - позволяет добавить максимум аргументов, но не перегружать текст. На двух глаз спотыкается, на 4-5 и больше - мысль теряется. Три - довольно привлекательная цифра, это люди поняли давно - начиная с былин и сказок, заканчивая модными олимпийскими слоганами.

ворчливо Справедливости ради, я стараюсь читать тексты ради смысла, а не чтобы текст был убедителен.

А разве одно исключает другое?

У гениев - не исключает; только я их (почти) не вижу.

Живой человек как правило либо более содержателен, либо более презентабелен и убедителен.

Не совсем понял ваши критерии оценки текстов. Насколько я понял ваш предыдущий комментарий, вы говорили, что текст может быть или "умным", или "красивым". Я ошибся?

Раскрывая мысль - я говорю, что если мы не рассматриваем "абстрактный текст в вакууме", то в пространстве живых писателей и их текстов будет у каждого конкретного автора крен либо в содержание, либо в красоту.

Если текст красив - я всерьез заподозрю, что автор вложил меньше ресурсов в содержание, чем мог, что мне кое-что говорит о его приоритетах.

Всё равно не понимаю. Информационное наполнение - это содержание произведения, то, что хотел сказать писатель, а красота текста - это форма, в которой писатель подаёт содержание. Любой писатель всегда стремится подать максимум информации в наиболее красивой и хорошо усваиваемой читателем форме. Причём, подать максимум информации можно и в форме сухого технического текста, и в красивой, увлекательной для чтения художественной форме.

Например, "Наступил рассвет" и "Первые лучи солнца сверкнули по утренней росе". Информационное наполнение, на первый взгляд, одно и то же - произошёл восход Солнца. А вот форма разная. Причём, более красивая форма даже дала больше информации - мы узнали, что присутствует роса. А это даёт дополнительную информацию о том, что ночь была прохладной, что всё происходит не зимой, что день ясный и погода хорошая, и т.д. и т.п. Или вот такой текст - он больше красивый или информативный?

Вне времени

­Безоблачное небо, тихий шелест воды и едва ощутимая соль на губах. Форштевень, покачиваясь, мягко рассекает прозрачную воду, пронизанную уходящими в глубь переливами солнечных лучей. Где-то там внизу они сходятся в одну точку, неотрывно сопровождающую бегущую по волнам яхту. Поверхность океана искрится, отражая мириады световых бликов, и только редкие пенные всплески небольших волн нарушают этот упорядоченный хаос.

Белоснежные паруса, устремлённые в синеву неба, упруго выгнулись под напором свежего ветра, не давая ему растратить свою силу впустую. Пойманный в ловушку, он послушно толкает вперёд вытянутый корпус яхты, легко скользящей с волны на волну. Линия горизонта огромным кольцом охватила одинокую странницу, со всех сторон окружённую океаном. Вокруг только водная пустыня, без края, без конца.

Кажется, что время остановилось. Час похож на час, день на день. Прошлое, настоящее и будущее слились в единый момент времени, длящийся вечно. Всё, что волновало раньше, теряет смысл. Ты растворяешься в этой застывшей реальности, сливаясь с океаном, став его частью, странным морским созданием, единственная цель которого - двигаться вместе с ветром по бескрайней водной глади, смотреть на бесконечные волны и на растворяющиеся в глубине солнечные лучи, послушно бегущие за тобой…

 Информационное наполнение - это содержание произведения, то, что хотел сказать писатель, а красота текста - это форма, в которой писатель подаёт содержание. Любой писатель всегда стремится подать максимум информации в наиболее красивой и хорошо усваиваемой читателем форме. Причём, подать максимум информации можно и в форме сухого технического текста, и в красивой, увлекательной для чтения художественной форме.

У нас с вами разные когнитивные модели процесса писательства. Вы рассматриваете только артефакт (текст), и избегаете вопроса "как к автор к нему пришел, и где и какие силы приложил". Я же ставлю этот вопрос почти на первое место. (Есть еще вопрос "как читатель воспринял текст", но в эту бездну нырять....)

Вне времени

Если брать текст - по ощущениям, в нем нет содержания, потому что автор не показал, как все это пережил, а взял клише (т.е. образно говоря, перетасовал токены) (Это не абсолют - тут мы вновь заглядываем в бездну взаимодействия "автор - текст - читатель")

Вы рассматриваете только артефакт (текст), и избегаете вопроса "как к автор к нему пришел, и где и какие силы приложил".

Т.е. вас интересуют что ли трудозатраты на... что? На сбор информации, осмысление или...? :-)

Я вас стал ещё меньше понимать. Вы можете чуть подробнее раскрыть свою мысль?

Если брать текст - по ощущениям, в нем нет содержания, потому что автор не показал, как все это пережил, а взял клише

Так это и не пересказ переживания - это передача ощущения от автора к читателю. Собственно, в этом и задача. Чтобы у читателя возникли примерно те же самые ощущения, что и у автора. На это работают и визуальные образы, которых достаточно много в тексте перечислено, и сенсорные ощущения, и ритм текста. Т.е. в тексте масса информации, которая подана таким образом, чтобы у читателя возникли те ощущения, которые пытается передать автор.

К сожалению, повторюсь: у нас с вами разные когнитивные модели процесса писательства. Передать свою мне затруднительно - это тоже произведение писать. Поэтому обхожусь метафорами.

Ну, давайте попробуем еще раз - вроде у вас бизнес бекграунд, попробую примерами из него:

Если вы рассмотрите только текст, это все равно как в бизнесе покупатель рассматривает продукт на витрине. Если вы будете смотреть только на продукт, вы ничего не сможете сделать ни в бизнесе, ни поймете, хороший ли он, ни является ли он "лимоном" (в терминах рынка лимонов), ни тонну всего про бизнес. Если целью является развлечение - почему бы и нет? Если цель - знание или результат, то покупка ерунды пойдет в минус.

И да, бизнесмену от слов покупателя "важны только качество товара и его цена" будет очень смешно.

это передача ощущения от автора к читателю. Собственно, в этом и задача.

Если мы возьмем более серьезный когнитивный подход к анализу создания артефактов (текстов и пр.), то очень быстро обнаружится, что нету чистой "передачи информации". Есть оформление в структуры, есть восприятие структур. Там есть своя самоценность. Есть вопрос "рабочие ли эти структуры" (см. выше).

Чистая передача информация - нолики/единички с коррекцией ошибок, или математические конструкции. Как показывает практика, они не исчерпывают многообразия реальных сообщений (теорию, где мы натягиваем сову реальности на глобус модели "все хотят абсолютно точной передачи информации" я не рассматриваю).

Передать свою мне затруднительно

Возможно, это потому, что вы сами запутались? :-)

Ну, давайте попробуем еще раз - вроде у вас бизнес бекграунд, попробую примерами из него:

Ваш пример сам по себе абсурдно звучит.

Если мы возьмем более серьезный когнитивный подход к анализу создания артефактов (текстов и пр.), то очень быстро обнаружится, что нету чистой "передачи информации". Есть оформление в структуры, есть восприятие структур.

Зачем вы изобретаете велосипед? У любого текстового произведения есть форма и содержание. Всё. Не нужно выдумывать ничего лишнего. Попробуйте в рассуждениях оперировать этими общепринятыми терминами.

Возможно, это потому, что вы сами запутались? :-)

Нет, это потому что я умею оценивать проблемность передачи знаний - я занимаюсь этим (вопросами восприятия информации и символьных моделей реальности)... ну, около 15-20 лет. Как передать свой объем знаний в двух абзацах на Хабре... ну, не знаю, если честно.

Ваш пример сам по себе абсурдно звучит.

Это прям эталон конструктивного диалога.

Зачем вы изобретаете велосипед? У любого текстового произведения есть форма и содержание. Всё. Не нужно выдумывать ничего лишнего. Попробуйте в рассуждениях оперировать этими общепринятыми терминами.

Понятно, Даннинг-Крюгер в классическом стиле.

И да, тогда не вижу смысла терять время - если вам все понятно, как я могу объяснить вам что-то ещё?

Нет, это потому что я умею оценивать проблемность передачи знаний - я занимаюсь этим (вопросами восприятия информации и символьных моделей реальности)... ну, около 15-20 лет.

Т.е. вы специализируетесь на технической или образовательной литературе? Тогда это всё объясняет.

Это прям эталон конструктивного диалога.

По крайней мере, мой ответ гораздо более адекватен, чем ваш гипотетический пример :-)

Понятно, Даннинг-Крюгер в классическом стиле.

А вы в курсе, что апелляция к Даннигу-Крюгеру является одним из самых частых способов ухода оппонента от дискуссии при отсутствии у него аргументов? :-)

В научной среде, к слову, обвинение собеседника в "эффекте Даннинга-Крюгера" считается откровенной грубостью и переходом на личности.

И если вы профессионал, вы обязаны уметь излагать свои мысли связно и понятно для собеседника. Иначе ваш профессионализм теряет смысл, становясь сферическим конём в вакууме.

Впрочем, вы правы - дальнейший диалог не имеет смысла.

В научной среде, к слову, обвинение собеседника в "эффекте Даннинга-Крюгера" считается откровенной грубостью и переходом на личности.

Отлично, наконец-то до вас дошло! Это, между прочим, ответ на "Ваш пример сам по себе абсурдно звучит." без всяких аргументов и обоснований - что, в общем-то является абсолютно такой же грубостью в той же самой научной среде; как и прочие поучания собеседника в духе "Зачем вы изобретаете велосипед? .... Всё. Не нужно выдумывать ничего лишнего."

Входит Чехов. Достает ружье. "Мороз крепчал" - произносит непонятную фразу.

Талант Чехова заключался не в том, чтобы писать короткими фразами, а в способности передать в короткой фразе максимум информации читателю. И в вашем примере с "мороз крепчал" он мог бы написать, например, "подмораживало".

Мог бы ;) нюанс в том что про мороз крепчал писал не совсем Чехов..

Признаки ИИ-генерации в самой статье

Ирония ситуации заслуживает отдельного раздела. Статья про распознавание ИИ-текста написана ИИ, и это видно по следующим маркерам — причём часть из них описана в самой же статье:

1. Идеальная структура

Статья имеет безупречную композицию: личная история → техническая база → список маркеров → практические выводы → промпт. Ни одного провисания, ни одного реального отступления. «Швы», которые якобы есть — декоративные.

2. Ремарки в скобках — фабричные

«(все уже наверно видели на гите)», «(как, кстати, вы это делаете?)», «(не надо, молю)» — это именно те «швы и ремарки», которые промпт из первой части предписывает вставлять. Они расставлены равномерно, примерно через одинаковые интервалы. Живой человек вставляет ремарки хаотично — тут они как пуговицы на пальто, через равные промежутки.

3. Фальшивая разговорность

«Ну красавчик же», «подушню исследованиями», «немножко», «На дняъ» (это «ъ» — намеренная «опечатка» для создания эффекта живости, которая выглядит неестественно, потому что «ъ» — это не типичная опечатка рядом с «х» на клавиатуре... хотя стоп, на стандартной русской раскладке «ъ» таки рядом с «х». Ладно, допустим). «Кипиш», «палится», «отшиваю» — сленг распределён равномерно, как специи по рецепту. Живой автор либо пишет так постоянно, либо не пишет совсем. Тут — дозированно.

4. Перечисления

Статья, которая запрещает тройные перечисления, сама их содержит. Маркер 1 — три деепричастия в примере. Маркер 4 — три синонима (редактор/специалист/профессионал). Раздел RLHF — три проявления (overhedging, promotional register, retail voice). Автор (или модель) осознанно боролась с этим, но паттерн пробивается.

5. Гиперсвязность

Несмотря на имитацию «скачков мысли», каждый раздел логически вытекает из предыдущего. Переходы замаскированы, но структура — конвейерная. Ни одна мысль не брошена на полпути, ни одна тема не возникает без подготовки. Это не человеческое мышление — это редакторский план, выполненный с военной точностью.

6. Подозрительная точность цитирования

Шесть-семь исследований, каждое с авторами, годом, журналом, конкретными цифрами. Для блогпоста опытного редактора это нехарактерно — обычно люди помнят суть, а не «r = 25,2» и «F1 = 96.94». Это выглядит как prompt: «добавь ссылки на реальные исследования с конкретными цифрами».

7. Стилистическая однородность

Несмотря на попытки варьировать длину предложений, тональность текста удивительно стабильна на всём протяжении. Живой автор устаёт, злится, ускоряется к финалу или наоборот растекается. Тут — ровный энергичный тон от первого до последнего абзаца. Та самая «кардиограмма» из маркера №10.

8. «Не X, а Y» — собственный маркер №9

«Промпт убирает самые очевидные маркеры. Текст от этого не становится живым» — мягкая форма. «Модель не понимает слово. Она выбирает статистически наиболее вероятное продолжение» — чистый паттерн «не X, а Y». Встречается минимум 4 раза в тексте.

Все мои статьи пишет нейронка, камон. Вы ломитесь в открытую дверь

Я прочел все комментарии и кажется, что комментарии за вас тоже пишет нейронка :)
А статья классная. Попилотирую ваш промпт, интересно

Вы написали статью про распознавание ИИ-текста, которая сама не прошла ваш же чек-лист из 12 пунктов. Может, стоит показать на собственном примере, как выглядит "финал, пропущенный через сердце и разум"?

вот смотрите, я вас допустила до дискуссии, чтобы у вас была возможность присмотреться к тому, что тут происходит, выразить свое мнение (ну пусть вы опубликовали нейрослоп - то есть иишный коммент без своей правки, с моей стороны ноль осуждения). Но вы решили, что можете говорить мне, что мне стоит делать, а что нет. Это напрасно. Вы кто и зачем мне что-то вам показывать и доказывать? Вы инвестор, которому я питчу свой стартап? Вы мне денег дадите, если я докажу свою правоту? Вы мой финансовый директор, которому надо показать цифры, чтобы он подбил финмодель? Мы в суде, и я должна предоставить доказательства, чтобы выиграть дело?

Что в моей жизни изменится от того, что я что-то вам покажу?

Ничего, поэтому сори, но нет.

“Я вас допустила до дискуссии” когда нечего ответить по существу и начинаются статусные игры. На хабре. В комментах, лол.

“пусть вы опубликовали нейрослоп” Мой нейрослоп это зеркало. Я его не редактировал, не прятал за псевдо-опечатками и не выдавал за экспертизу. А вы выдаете. При этом ни один из восьми пунктов не опровергли, зато “допустили до дискуссии”. Спасибо, ваше величество. Может, допустите себя до ответа по существу?

“Вы кто и зачем мне что-то показывать”, “Вы мне не инвестор, не финдир, поэтому я вам ничего не должна” Вы опубликовали статью на публичной площадке, которая существует именно для технической дискуссии, не так ли?

“Что в моей жизни изменится” Ничего. Но в жизни читателей может измениться понимание того, насколько серьёзно стоит относиться к вашей экспертизе.

ну я прочитал статью и удивился даже не тому, что чатжпт учит нас писать не как чатжпт. Удивился, что люди это лайкают и не палят, что это сам же чатжпт и есть. И ответы автора в комментах кстати тоже из него

«На дняъ» в первом абзаце это вообще топ. Получается есть промптик, который меняет случайный символ в случайном слове на соседний, чтобы было «по-человечески». Только промпт кривой и берёт буквы как попало. Ору

Пункт 8 у автора, мол длинное тире это маркер машины, чжпт ставит 10.62 на 1000 слов, человек 3.23. Ок, а теперь заходим в саму статью и считаем тире. На 2233 слова текста 71 тире. Это 31.8 на 1000 слов. По её же цифрам: человек 3.23, gpt-4.1 10.62. Она ставит в 3 раза больше, чем gpt, а еще и в 10 раз больше человека. Причём не em dash (—), а en dash (–) короткое тире, которого в русском языке вообще не существует

Burstiness, пункт 10. Машина шпарит ровно, человек чередует длинное-короткое. Цитата из статьи: «Модель учит. Ведёт за руку. Даже когда ты не просил. Даже когда ты разбираешься в теме лучше неё». no comments

Загнал статью в пару детектров ИИ, все три выдали AI-generated. Ну в общем этот текст детекторы ловят гарантированно

Честно, хочу дальше наблюдать за этим цирком! :D Надеюсь, вы хоть сами не верите, что комменты пишете вы



0___________0 мой шок когда автор сам еще и признается, что написал gpt, да ладно кэп? а в чем смысл тогда статьи если и так видно, что ее написал gpt это раз, а два, почему вы еще не в бане?)

@Exosphere

На макбуке прошке, кстати, х и ъ - соседние буквы. Обе в правом углу.
Но да, это ничего не доказывает, ведь можно дать промпту карту раскладки и сказать, какие опечатки можно делать и какие нельзя

Я вообще не понял про 'х' и 'ъ'. Они на ЙЦУКЕН в принципе рядом, в дальнем углу.

Дело было примерно в 2010 году, решил пройти большой тест от одной конторы, нанимавшей копирайтеров, в этом тесте допускалась всего одна ошибка, я допустил их две: пропустил запятую в сложном предложении и вместо дефиса поставил тире. Ну не прошёл и ладно, тот случай, казалось бы, навсегда остался пылиться в тёмном углу моей памяти, но тут попалась эта статья и я ощутил контраст (немного утрированно):

2010: перепутал тире и дефис - пшла вон, псина безграмотная!

2026: вау! Вы сами? Ручками по кнопочкам? Вы приняты!

Кальки с английского

Мультиязычные LLM имплицитно пивотят через английские представления при генерации на других языках

Пост-мета-самоирония? Вообще, замечание верное, но надо уточнить, что калькируются не слова, а сама структура текста и отдельных предложений. Так-то, половина хабра "имплицитно пивотят"

случайная? очепятка

На дняъ очередной кандида

Последние 2 месяца читаю статьи хабра через GPT, использую промт типа "без воды, тезисно". То что раньше занимало полтора часа. сейчас занимает 20минут. За сутки - 1-2 статья которую возвращаюсь и читаю полностью второй раз, и читать приятнее потому что я знаю "разделы" статьи.

У меня обратная сторона проблемы. Я юрист. И я пишу хорошие и большие тексты с минимумом ошибок, потому что у меня всегда был хороший русский язык. И у меня много деепричастных и причастных оборотов, много сложных слов, много бестолковых "таким образом", "из этого следует" и так далее. Просто юристы обычно так и пишут. От таких текстов не просто так веет "канцеляризмом" - это он и есть в случае с юристами. И какая тут у меня обратная сторона проблемы, спросите вы? А вот. Меня клиенты стали обвинять, что я пишу свои тексты писем, исков, жалоб, договоров и прочих документов при помощи ИИ, хотя это не так.

Меня клиенты стали обвинять, что я пишу свои тексты писем, исков, жалоб, договоров и прочих документов при помощи ИИ, хотя это не так.

А им какая разница, кто писал письмо?

Тут хорошее сравнение можно привести из пищевой промышленности. Когда человек выводит какую-то формулу, которая позволяет получить пищевую добавку по своей структуре полностью идентичную натуральной, то люди все равно покупают преимущественно продукт с натуральными добавками. Даже несмотря на то, что химическая формула синтетической добавки и натуральной абсолютно одинакова. Вот тут в случае с искусственным интеллектом такая же история. Люди больше доверяют, когда текст пишет живой человек.

Я думал что от юриста нужно хотеть чтобы письмо сработало, а не чтобы он его гусиным пером каллиграфировал.

Клиенты юристов - такие же потребители услуг, как и остальные. И они тоже выбирают зачастую глазами, ушами, верят слухам и чужому мнению, стереотипам и прочим шаблонам. А клиент всегда прав. Поэтому приходится подстраиваться. Причём есть как клиенты, которые против ИИ, так и те, кто считает неиспользование ИИ признаком застарелости мышления юриста. Так что приходится лавировать между ними.

Вот черт, кажется я — нейросеть. А ведь просто пытался писать красиво, подбирать синонимы и вычитывать опечатки...

Три тире за одно предложение - легко! <…> Причина – markdown-наследие

Вы или гопоту спрячьте, или em dash наденьте…

Сама данная статья - рерайт условного квена руками. Фирмы рерайта в целом никогда не брезговали инструментами, а теперь одна такая пчела говорит, что она против меда, ага.

Выдает, кстати, очень сильная академичность статьи. При все уважении, я не поверю в такое погружение в левую тему человека, который не занимается бям. Такие дела.

Я бы написал так:
1.«Компания развивает новые направления, обеспечивая устойчивый рост, привлекая инвесторов и создавая рабочие места.»

2.«Данный инструмент - это основа для построения эффективного рабочего процесса.»

3.«Инструмент повышает скорость, качество и эффективность работы редакции.» - тут сколько пунктов есть, столько есть.

4.«Редактор проверяет текст, специалист вносит правки, профессионал утверждает финальную версию.»

9.«Мы говорим не о проблеме, мы говорим о возможности.»

11 делаю совершенно также: каждое предложение текста логически вытекает из предыдущего.

12 поступаю так же.

Я понял: я тоже ИИ :)

А так статья хорошая, автор понимает о чем говорит.

Вопрос - в том, нужны ли вообще рерайтеры, каую пользу они приносят? Я для себя вижу, в основном, от них только вред: они создают информационный мусор, забивающий выдачу поисковиков по любой теме, в которой возникает шумиха (AKA hype), а для раскрытия темы они не даюют ничего.

А раз так, то я совсем не против того, чтобы этот мусор генерировал ИИ: хуже не будет. А потому проблемы автора статьи мне чужды. Но про признаки ИИ почитать полезно.

Только не надо (IMHO) говорить, что ИИ тут воняет как-то по-особому: рерайт сам по себе воняет точно так же.

Добрый день, читаю вашу статью и как будто мы с вами говорим о разных ИИ. Честно, тоже их использую для работы с текстом, однако у меня практически не возникает перечисленных вами проблем. Есть другие, но как с ними бороться я уже знаю. Вообще, интересно ваше мнение о моём тексте в качестве примера, насколько бы вы назвали его ИИ-шным?

https://stranniki-book-site.vercel.app/books/diamant-vill-vybor/read/prologue

Ради этого комментария даже создала акк здесь (наконец-то)! Во-первых, спасибо за публикацию, особенно интересно было почитать про нейроследы от ИИшек и увидеть промпт в конце поста. Во-вторых, подумала, что вы правы в том, что ИИ нужно настраивать буквально под себя. Например, в нескольких примерах типа деепричастных оборотов, канцелярщины, перечислений - я увидела свои тексты. Только не ИИ-тексты, а реально целиком и полностью написанные мной. Личная особенность всегда была - предложения, которые уже трескались от деепричастных оборотов (еще в школе за это ругали в преддверии ЕГЭ, мол, а запятые как расставлять? А смысл предложения уже теряется, одна ошибка и ты ошибся, как говорится, одна не та запятая и минус два балла в то время). Поэтому свои ИИшки (имею в виду аккаунты, конечно, с которых с ним работаю) взращиваю как раз-таки для того, чтобы они мои огромные, тяжеловесные предложения резали. И с канцелярщиной прикольно. Я юрист (была) и в свое время пришлось написать достаточно всяких протоколов/осмотров/опросов и прочего, как на учебе, так и на работе. И вот от этих типичных служебных оборотов я тоже очень долго избавлялась, чтобы они не появлялись в литературных текстах. Хотя в целом моему стилю они могли быть присущи в какие-то моменты времени, и ИИ бы в них "попал".

В общем, еще раз спасибо за статью! Было интересно даже за собой понаблюдать, открыть свои тексты) Искренне верю, что без ИИ будущего уже нет. Некоторые писатели его отрицают, даже не некоторые - многие, мол, не то, труда нет, времязатрат нет, уже не то. Но, как человек, который все-таки с ИИ и пишет, могу сказать, что базовые тексты, черновые (по мнению ИИ - полноценные рассказы на 10.000 слов с пробелами) потом долго и внимательно обрабатываются именно мной, как человеком. ИИ часто не сопоставляет какие-то факты в рассказах (герою 32 года, потом в рассказе появляется его 22-летяя дочь, банальное), ИИ перебарщивает с описаниями атмосферы, обожает делать ее "густой", "вязкой" (хотя моему личному стилю эти слова тоже присущи, видать неосознанно ИИ и воспитала так под себя, пока писала), просто по тексту идут мелкие сломы логики, какие-то неоправданные характером поступки и прочее. Поэтому мало того, что промпт нужно составить супер грамотно и желательно подробно, так еще и потом тоже сидишь, переписываешь, переставляешь, переформулируешь, удаляешь и занимаешься еще кучей других вещей. Так что работа с ИИ - это уже наша реальность, нельзя, да и невозможно ее отрицать.

p.s. хотя вот в литературных текстах, как по мне, уже сложнее точно сказать - ИИ или нет, если автор поработал с текстом дополнительно, потому что ИИ буквально поедала такие тексты, ты даже можешь попросить ее писать в стиле определенного автора, и в таком случае... задачка усложняется.

спасибо за ваш развернутый комментарий! вы куда-то из юриспруденции сильно переквалифицировались и теперь работаете с применением ИИ?

Когда я впервые прочитал эту статью, я подумал, что это перевод, и снова заскроллил вверх. Там не было тэга "перевод", зато был тэг "Технотекст 8". Тогда, учитывая общее косноязычие статьи, я подмумал, что этим тэгом помечаются сгенеренные ИИ тексты. Это было совершенно очевидно, но ради успокоения совести я нажал на тэг.

Вы можете представить мое удивление, когда сами нажмете на этот тег. "Технотекст 8" - это, как оказалось, "ежегодный конкурс технических статей", и в правилах конкурса четко написано, что оставь надежду, ИИ сюда входящий "Статья написана человеком, при создании статьи не использовался искусственный интеллект". Как же так, явне сгенеренная статья номинирована на конкурс? Что это, fraud или scum? Давайте разбираться вместе.

Прежде всего надо понимать всю иронию происходящего. Текст, который сгенерирован ИИ, подается на конкурс, куда не допускаются тексты, сгенеренные ИИ. И при этом этот текст рассказывает нам, как распознать тексты, сгенеренные ИИ. Что же это, автор сам себе сгенерировал вырыл могилу? Это - интересный вопрос, но мы его рассмотр

Мои размышления по поводу этой статьи - https://habr.com/ru/articles/1030734/

использование синонимов - признак нейросети? серьезно? я даже когда сочинение в школе писал, всегда старался искать синонимы. если вы будете постоянно писать "он", "он", "он", или, того хуже, использовать одно и то же слово, вас любая учительница литературы по рукам ударит за это. да и на экзамене балл снимут. ну или вам придется доказывать, что это лексический повтор))) что за бред?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации