nlaik10 мая в 08:16

Почему текст от LLM узнаётся за пять секунд: разбираю стилистические маркеры через архитектуру моделей

Средний

10 мин

19K

Искусственный интеллектМашинное обучение * Обработка изображений *

Аналитика

+34

Комментарии 36

НЛО прилетело и опубликовало эту надпись здесь

Hlad 10 мая в 11:25

Забавнее другое: если пользоваться готовыми промтами, то очень быстро текст снова будет восприниматься, как сгенерированный. А если каждый раз тратить время на то, чтобы составить похожую на правду статью - проще и быстрее самому написать.

Rive 10 мая в 14:42

Поэтому формат статей вымирает, потому что интерактивное общение с LLM без прокладки в виде рекламного агента своей телеги гораздо интереснее.

engine9 13 мая в 06:09

Статьи излагающие опыт конкретного человека, получается, только выигрывают.

UserSergeyB 10 мая в 13:27

Эти маркеры ищете не вы, а алгоритмы, оценивающие ценность текста.

Real_Egor 10 мая в 10:00

провокационный вопрос... А можно какое-либо утверждение или обоснование, которое не будет подверженно ни одной из перечисленных проблем?...

Просто почти все, что ты написал, я, например, использую в своей речи постоянно. Следует отметить, что я не ЛЛМ =))

-----

А вообще я бы сказал, и это играет ключевую роль в выявленной мною проблеме, что рекомендации сродни совету "Дует ветер? Укройся!"... То есть автор борется со следствием, а копать нужно сильно глубже.

Например, автор правильно отметил, что ЛЛМ зачастую делает предложения одной длины. Только бороться с этим следует двумя установками:
- Делай фразы рваными, не нужно разжевывать каждую мысль
- Оставляй читателю простор для того, чтобы он фразу додумал

Уже в таком виде ЛЛМ начнет писать неоднородно и читать станет в разы интереснее.

durnoy 13 мая в 17:28

я на это смотрю так, что каждый отдельный маркер сам по себе не проблема. Они же из настоящих текстов всё-таки взялись. И вы, например, пару применили выше 😀 то есть люди так пишут и читают без проблем.

А вот когда маркеров много и часто, то получается такой очень "сгущеный" текст, который раздражает многих читателей.

Или возьмём произведения человеческого искусства (стихи, картины). Так как большинство людей не эксперты, то они оценивают произведения по своим ощущениям. Скажем, смотрят сто случайных человек на картину/стихотворение. Если 80/100 говорят окей, это скорее "хорошо". Если 20/100 говорят окей, то скорее нет. Если 50/50, но как-то неопределенно.

Так же и с текстами LLM. Если люди читают, и их ничего не бесит, но все нормально. А если бесит, надо искать способы подкручивать. Особенно учитывая то, что люди, похоже, более требовательны и строго к ошибкам роботов.

iiwabor 10 мая в 11:25

Проблема не в LLM тексте, как таковом, а в том, что тот, кто его публикует потом - не делает вычитку "своей" статьи, оставляя нелепые формулировки, ложные факты и явный бред.

Olezha20041 11 мая в 06:36

То есть попросту неумело использует инструмент. Это-то и раздражает в нейрослопе - лень публикующего невычитанный текст как демонстративное неуважение к читателю, к его времени.

mmxplorer 10 мая в 12:03

Не делать заключение - это весьма странная рекомендация. Модели в принципе стремятся обучать на качественном материале, который содержит лучшее и по структуре и по стилю (та же ритмика длин абзацев прекрасно моделируется нынче).

Если делать текст непохожим на ИИ-генерацию, достаточно одного совета:
пишите плохо.

И никто не поднимет гневный палец, мол, ай-ай-ай, AI писал.

В заключение: пишите заключения спокойно. И длинное тире тоже

beliy1 10 мая в 15:43

Когда просишь LLM сделать текст, допустим, для тикета, и потом очередной итерацией полученный текст просишь модель сделать так, чтобы он не выглядел как сгенерированный моделью, то - о, чудо - модель понимает о речь и может в собственном тексте подметить обороты и структуру, как люди не говорят. Иногда итоговая писанина получается человечнее без ручных правок.

TheHost 10 мая в 16:29

для меня почему-то эти полоски маркер ИИ

p00ps3r 10 мая в 16:45

Маркеры ИИ-текста — это не магия и не «секретная утечка из обучения»

А уж это "X это не Y и не Z" вообще в зубах навязло.

THEOILMAN 10 мая в 19:44

Выделение жирным в статьях было фишкой 1% авторов наверно. Сейчас в каждой второй статье. Эмейзинг.

TheHost 10 мая в 22:04

Кстати любил так делать, думал удобнее читать, а теперь могут записать не в тот лагерь)))

Olezha20041 11 мая в 06:39

Пользуйтесь подчеркиванием :) или верхним индексом

НЛО прилетело и опубликовало эту надпись здесь

Axelaredz 11 мая в 11:37

Как раз то их то ставит человек)

aeder 10 мая в 16:29

Объясните мне кто-нибудь, какой вообще практический смысл генерировать "описания товаров, ответы техподдержки или внутреннюю документацию" с помощью ЛЛМ?

То есть если вы хотите, чтобы у вас вроде как были описания товаров, ответы техподдержки и внутренняя документация - а по факту было бы издевательство - пожалуйста, но какой в этом смысл?

Максимально быстро уничтожить свою клиентскую базу, испортить техподдержку и сделать внутреннюю документацию абсолютно бессмысленной?

Если вам не нужны описания товаров - не делайте их, зачем делать фальшивые?

Если вы хотите отказаться от поддержки клиентов - ну перестаньте отвечать на вопросы, или настройте скрипт, присылающий инструкцию по пользованию, зачем людей дополнительно бесить?

Если вы не хотите вести внутреннюю документацию, не ведите её - зачем делать фальшивую?

Malspal 10 мая в 20:16

О чём вы?

НЛО прилетело и опубликовало эту надпись здесь

oracle_schwerpunkte 11 мая в 08:48

У вас есть тикет “добавить новое поле Категория клиента”. Вы руководство пользователя / внутреннюю документацию сами будете переписывать? В каком месте она станет фальшивой? Наоборот, можно все поля будет посмотреть в одном месте, а не рыскать по таск трекеру.

Zhabrozavr 10 мая в 17:41

Своеобразное чувство юмора у Господа Бога нашего, хочу я сказать. В печёнках пробки сидят - ок, на тебе свободные дороги. И перемещение по QR-кодам. Взмолились чтобы это кончилось - лады, но только после 24.02. Выбешивали "вообщем" и рандомно расставляемые знаки препинания - прекрасно, вот тебе идеальное правописание и озвучка дикторами центрального телевидения. И заодно темы про трёхбуквенные утилиты.

Осторожней со своими желаниями. Иногда мысль возникает - а может быть дело конкретно во мне? loooool

stepigal 10 мая в 17:59

Данная статья написана ИИ: "Результат: моделям буквально..." - человек так не пишет.

НЛО прилетело и опубликовало эту надпись здесь

VADemon 16 мая в 13:00

Дело в том, что автор особо без оглядки статьи с ИИ клепает: https://habr.com/ru/articles/1033456/comments/#comment_29958374. То, вроде, комментатор выше прав. А учитывая, насколько низко пал уровень русского языка даже до ЛЛМ, благодаря не в последнюю очередь низкокачественным переводам, то я не знаю, стоит ли вообще кому верить.

tmblwd 10 мая в 18:53

Забавно что раньше люди писали тексты для машин, а теперь машины пишут тексты для людей. Борьба мочи с гоvном, seo-копирайтеров c ии-генерацией, ведь одни учились у других

chaetal 11 мая в 05:30

Скоро вместо капчи будут просить написать сочинение. Написал грамотно, логично и стройно? Ты --- робот! По нынешним временам звания человека достойны лишь шизофреничные неучи?

oracle_schwerpunkte 11 мая в 08:58

Не вижу проблемы в грамотной интересной статье, написанной AI. Главное чтобы это было новое исследование а не простая перепечатка новости в тысячный раз. Если кто-то потратил 200$ на токены чтобы исследовать интересную тему - why not.

zumrus 11 мая в 09:55

Не увидел в статье маркеры, которые подметил сам. Но зато увидел те, которые сам не подметил, полезно.

А насчёт борьбы с маркерами: мне кажется, нет ничего лучше, чем раз и навсегда написанный плотный промпт, приправленный 3-4 фью-шотами. И даже в этом случае нужно хорошенько вычитывать

desolatorpk 11 мая в 11:21

А зачем статье "не выглядеть как написанной ИИ"? Что бы удовлетворить нытиков? Это борьба с ветряными мельницами.

Проверять статью на ошибки - да, это нужно. Но стиль и вид, который обучен быть лучшим, красивым и структурированным - странное дело.

Axelaredz 11 мая в 11:42

Помогает, такой вариант: Пиши текст так чтобы не уличили, что текст написан иИ)
И его производные, можно также добавить о том что не использовать длинные тире, проверять логику и семантику на основе русского языка, не использовать markdown форматирование и кавычки и 100500 других мелочей, которые якобы бесят людей). Обязательно поставить то что аудитория русская и фанаты такой то темы.

18thfloorwaimairush 12 мая в 04:51

Всем привет! Спасибо автору за статью, весьма познавательно. Внимательно прочитал ваши комментарии и хочу ответить тем, кто пишет, что текст составлен ии. Во-первых, это хабр, поэтому по-другому и быть не может. Человек, который будет учить вас как писать удобочитаемую и не раздражающую статью с помощью LLM (крч как делать это незаметно для санитаров) ОБЯЗАТЕЛЬНО будет делать это с помощью LLM, а вместо самого текста будет высран рафинированный лощеный рейджбейт. Держите в уме, что большая часть авторов на этом форуме открытые тролли. Тем же, кто пишет, что автор не иронично написал это сам, а текст на самом деле не считывается как сгенерированный - лол, откройте ВКонтакте и посмотрите сколько трафика байтят в комментах бесконечные потоки нейрослопины а-ля "это не про ногу, это про руку". Чел просто себе фармит стату на аккаунте, в с ё. Проходите мимо 🤤

P.s. F автору, если вы реально руками стали так писать, тут уже надо не к форумчанам идти, а напрямую к батюшке.

Robic 12 мая в 05:11

Получается – шибко грамотному человеку надо научиться "подкручивать" грамотность, дабы на ИИ не походить🤦🏼‍♂️

engine9 13 мая в 06:13

Ага. С другой стороны наконец-то наступили счастливые времена когда моё косноязычие и отношение к знакам препинания в духе "ставлю туда, куда велит сердце" становится не позором, а маркером крафтовости статей! Честно, меня это очень радует.

umbral 13 мая в 10:03

Это не «как обмануть детектор» (об этом отдельно в конце, и тема не такая, как её подают). Это про то, как сделать, чтобы выход LLM не выглядел как выход LLM.

Это не баг, это следствие комбинации статистики обучающих данных и инженерных решений на пост-тренинге.

Маркеры ИИ-текста — это не магия и не «секретная утечка из обучения». Это статистическое следствие того, как модели устроены

Еще частый паттерн «Это не A, это B». И слово «магия» в кавычках.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий