nlaik May 10 at 08:16

Почему текст от LLM узнаётся за пять секунд: разбираю стилистические маркеры через архитектуру моделей

Medium

10 min

19K

Artificial IntelligenceMachine learning * Image processing *

Analytics

+34

Comments 36

UFO landed and left these words here

Hlad May 10 at 11:25

Забавнее другое: если пользоваться готовыми промтами, то очень быстро текст снова будет восприниматься, как сгенерированный. А если каждый раз тратить время на то, чтобы составить похожую на правду статью - проще и быстрее самому написать.

Rive May 10 at 14:42

Поэтому формат статей вымирает, потому что интерактивное общение с LLM без прокладки в виде рекламного агента своей телеги гораздо интереснее.

engine9 May 13 at 06:09

Статьи излагающие опыт конкретного человека, получается, только выигрывают.

UserSergeyB May 10 at 13:27

Эти маркеры ищете не вы, а алгоритмы, оценивающие ценность текста.

Real_Egor May 10 at 10:00

провокационный вопрос... А можно какое-либо утверждение или обоснование, которое не будет подверженно ни одной из перечисленных проблем?...

Просто почти все, что ты написал, я, например, использую в своей речи постоянно. Следует отметить, что я не ЛЛМ =))

-----

А вообще я бы сказал, и это играет ключевую роль в выявленной мною проблеме, что рекомендации сродни совету "Дует ветер? Укройся!"... То есть автор борется со следствием, а копать нужно сильно глубже.

Например, автор правильно отметил, что ЛЛМ зачастую делает предложения одной длины. Только бороться с этим следует двумя установками:
- Делай фразы рваными, не нужно разжевывать каждую мысль
- Оставляй читателю простор для того, чтобы он фразу додумал

Уже в таком виде ЛЛМ начнет писать неоднородно и читать станет в разы интереснее.

durnoy May 13 at 17:28

я на это смотрю так, что каждый отдельный маркер сам по себе не проблема. Они же из настоящих текстов всё-таки взялись. И вы, например, пару применили выше 😀 то есть люди так пишут и читают без проблем.

А вот когда маркеров много и часто, то получается такой очень "сгущеный" текст, который раздражает многих читателей.

Или возьмём произведения человеческого искусства (стихи, картины). Так как большинство людей не эксперты, то они оценивают произведения по своим ощущениям. Скажем, смотрят сто случайных человек на картину/стихотворение. Если 80/100 говорят окей, это скорее "хорошо". Если 20/100 говорят окей, то скорее нет. Если 50/50, но как-то неопределенно.

Так же и с текстами LLM. Если люди читают, и их ничего не бесит, но все нормально. А если бесит, надо искать способы подкручивать. Особенно учитывая то, что люди, похоже, более требовательны и строго к ошибкам роботов.

iiwabor May 10 at 11:25

Проблема не в LLM тексте, как таковом, а в том, что тот, кто его публикует потом - не делает вычитку "своей" статьи, оставляя нелепые формулировки, ложные факты и явный бред.

Olezha20041 May 11 at 06:36

То есть попросту неумело использует инструмент. Это-то и раздражает в нейрослопе - лень публикующего невычитанный текст как демонстративное неуважение к читателю, к его времени.

mmxplorer May 10 at 12:03

Не делать заключение - это весьма странная рекомендация. Модели в принципе стремятся обучать на качественном материале, который содержит лучшее и по структуре и по стилю (та же ритмика длин абзацев прекрасно моделируется нынче).

Если делать текст непохожим на ИИ-генерацию, достаточно одного совета:
пишите плохо.

И никто не поднимет гневный палец, мол, ай-ай-ай, AI писал.

В заключение: пишите заключения спокойно. И длинное тире тоже

beliy1 May 10 at 15:43

Когда просишь LLM сделать текст, допустим, для тикета, и потом очередной итерацией полученный текст просишь модель сделать так, чтобы он не выглядел как сгенерированный моделью, то - о, чудо - модель понимает о речь и может в собственном тексте подметить обороты и структуру, как люди не говорят. Иногда итоговая писанина получается человечнее без ручных правок.

TheHost May 10 at 16:29

для меня почему-то эти полоски маркер ИИ

p00ps3r May 10 at 16:45

Маркеры ИИ-текста — это не магия и не «секретная утечка из обучения»

А уж это "X это не Y и не Z" вообще в зубах навязло.

THEOILMAN May 10 at 19:44

Выделение жирным в статьях было фишкой 1% авторов наверно. Сейчас в каждой второй статье. Эмейзинг.

TheHost May 10 at 22:04

Кстати любил так делать, думал удобнее читать, а теперь могут записать не в тот лагерь)))

Olezha20041 May 11 at 06:39

Пользуйтесь подчеркиванием :) или верхним индексом

UFO landed and left these words here

Axelaredz May 11 at 11:37

Как раз то их то ставит человек)

aeder May 10 at 16:29

Объясните мне кто-нибудь, какой вообще практический смысл генерировать "описания товаров, ответы техподдержки или внутреннюю документацию" с помощью ЛЛМ?

То есть если вы хотите, чтобы у вас вроде как были описания товаров, ответы техподдержки и внутренняя документация - а по факту было бы издевательство - пожалуйста, но какой в этом смысл?

Максимально быстро уничтожить свою клиентскую базу, испортить техподдержку и сделать внутреннюю документацию абсолютно бессмысленной?

Если вам не нужны описания товаров - не делайте их, зачем делать фальшивые?

Если вы хотите отказаться от поддержки клиентов - ну перестаньте отвечать на вопросы, или настройте скрипт, присылающий инструкцию по пользованию, зачем людей дополнительно бесить?

Если вы не хотите вести внутреннюю документацию, не ведите её - зачем делать фальшивую?

Malspal May 10 at 20:16

О чём вы?

UFO landed and left these words here

oracle_schwerpunkte May 11 at 08:48

У вас есть тикет “добавить новое поле Категория клиента”. Вы руководство пользователя / внутреннюю документацию сами будете переписывать? В каком месте она станет фальшивой? Наоборот, можно все поля будет посмотреть в одном месте, а не рыскать по таск трекеру.

Zhabrozavr May 10 at 17:41

Своеобразное чувство юмора у Господа Бога нашего, хочу я сказать. В печёнках пробки сидят - ок, на тебе свободные дороги. И перемещение по QR-кодам. Взмолились чтобы это кончилось - лады, но только после 24.02. Выбешивали "вообщем" и рандомно расставляемые знаки препинания - прекрасно, вот тебе идеальное правописание и озвучка дикторами центрального телевидения. И заодно темы про трёхбуквенные утилиты.

Осторожней со своими желаниями. Иногда мысль возникает - а может быть дело конкретно во мне? loooool

stepigal May 10 at 17:59

Данная статья написана ИИ: "Результат: моделям буквально..." - человек так не пишет.

UFO landed and left these words here

VADemon May 16 at 13:00

Дело в том, что автор особо без оглядки статьи с ИИ клепает: https://habr.com/ru/articles/1033456/comments/#comment_29958374. То, вроде, комментатор выше прав. А учитывая, насколько низко пал уровень русского языка даже до ЛЛМ, благодаря не в последнюю очередь низкокачественным переводам, то я не знаю, стоит ли вообще кому верить.

tmblwd May 10 at 18:53

Забавно что раньше люди писали тексты для машин, а теперь машины пишут тексты для людей. Борьба мочи с гоvном, seo-копирайтеров c ии-генерацией, ведь одни учились у других

chaetal May 11 at 05:30

Скоро вместо капчи будут просить написать сочинение. Написал грамотно, логично и стройно? Ты --- робот! По нынешним временам звания человека достойны лишь шизофреничные неучи?

oracle_schwerpunkte May 11 at 08:58

Не вижу проблемы в грамотной интересной статье, написанной AI. Главное чтобы это было новое исследование а не простая перепечатка новости в тысячный раз. Если кто-то потратил 200$ на токены чтобы исследовать интересную тему - why not.

zumrus May 11 at 09:55

Не увидел в статье маркеры, которые подметил сам. Но зато увидел те, которые сам не подметил, полезно.

А насчёт борьбы с маркерами: мне кажется, нет ничего лучше, чем раз и навсегда написанный плотный промпт, приправленный 3-4 фью-шотами. И даже в этом случае нужно хорошенько вычитывать

desolatorpk May 11 at 11:21

А зачем статье "не выглядеть как написанной ИИ"? Что бы удовлетворить нытиков? Это борьба с ветряными мельницами.

Проверять статью на ошибки - да, это нужно. Но стиль и вид, который обучен быть лучшим, красивым и структурированным - странное дело.

Axelaredz May 11 at 11:42

Помогает, такой вариант: Пиши текст так чтобы не уличили, что текст написан иИ)
И его производные, можно также добавить о том что не использовать длинные тире, проверять логику и семантику на основе русского языка, не использовать markdown форматирование и кавычки и 100500 других мелочей, которые якобы бесят людей). Обязательно поставить то что аудитория русская и фанаты такой то темы.

18thfloorwaimairush May 12 at 04:51

Всем привет! Спасибо автору за статью, весьма познавательно. Внимательно прочитал ваши комментарии и хочу ответить тем, кто пишет, что текст составлен ии. Во-первых, это хабр, поэтому по-другому и быть не может. Человек, который будет учить вас как писать удобочитаемую и не раздражающую статью с помощью LLM (крч как делать это незаметно для санитаров) ОБЯЗАТЕЛЬНО будет делать это с помощью LLM, а вместо самого текста будет высран рафинированный лощеный рейджбейт. Держите в уме, что большая часть авторов на этом форуме открытые тролли. Тем же, кто пишет, что автор не иронично написал это сам, а текст на самом деле не считывается как сгенерированный - лол, откройте ВКонтакте и посмотрите сколько трафика байтят в комментах бесконечные потоки нейрослопины а-ля "это не про ногу, это про руку". Чел просто себе фармит стату на аккаунте, в с ё. Проходите мимо 🤤

P.s. F автору, если вы реально руками стали так писать, тут уже надо не к форумчанам идти, а напрямую к батюшке.

Robic May 12 at 05:11

Получается – шибко грамотному человеку надо научиться "подкручивать" грамотность, дабы на ИИ не походить🤦🏼‍♂️

engine9 May 13 at 06:13

Ага. С другой стороны наконец-то наступили счастливые времена когда моё косноязычие и отношение к знакам препинания в духе "ставлю туда, куда велит сердце" становится не позором, а маркером крафтовости статей! Честно, меня это очень радует.

umbral May 13 at 10:03

Это не «как обмануть детектор» (об этом отдельно в конце, и тема не такая, как её подают). Это про то, как сделать, чтобы выход LLM не выглядел как выход LLM.

Это не баг, это следствие комбинации статистики обучающих данных и инженерных решений на пост-тренинге.

Маркеры ИИ-текста — это не магия и не «секретная утечка из обучения». Это статистическое следствие того, как модели устроены

Еще частый паттерн «Это не A, это B». И слово «магия» в кавычках.