Обновить
1
Александр@Altair2021

Пользователь

0,1
Рейтинг
Отправить сообщение

А какой процент всех людей смогут сделать то же самое: "песню из 3-х куплетов и 2-х припевов" -- без правок? Из 8 млрд разве что один процент если наберется. Вы сами пробовали? Как тот, кто одно время писал стихи, говорю, что этот процесс довольно непростой, и с первого раза выходило редко.

Теперь посмотрим на LLM: какой процент стихотворных произведений в их обучающем датасете? С учетом фокуса LLM на программирование тоже наверняка проценты-доли процента. Если вспомнить, что LLM -- это среднее по больнице, то довольно логично, что стихи они будут писать хуже.

Собственно, это претензии к "Лёгкий тест" и "Вероятность написания песни из 3-х куплетов и 2-х припевов за один раз без правок со стороны человека у всех ИИ очень близка к нулю". Тест не будет легким ни для человека, ни для LLM, и случайно взятый человек также вряд ли сможет за один раз без правок написать песню. А если и сможет -- случайное попадание, или или он музыкант\поэт (что тоже случайное попадание в выборке из 8 млрд).

Соглашусь с другим комментарием: тест стихами (да и вообще в целом тесты на креативное письмо) хорошо показывают уровень модели.

К самому исследованию никакаих претензий -- все очень познавательно, спасибо) Основная претензия -- ко мнению "если текст написан грамотно (хотя бы пунктуационно), то явно сгенерирован LLM". Довольно странный тренд последнего времени (может быть, года?) в статьях/комментариях к статьям, который, по сути, пытается обесценить знания правил русского языка.

Не знал и не обращал внимания, спасибо) Слишком привык к русскому варианту.

А ведь действительно: на русском LLMки выделяют тире пробелами!

Вывод один: LLMки в плане пунктуации текст пишут лучше большинства из нас. Разве что орфография на русском у некоторых хромает.

 Кстати если проект или статья написанны LLM то это легко палиться если в ней есть много emoji или длинные тире «-» берите на заметку.

Автор, не надо гнать на LLM за то, что они знают правила пунктуации в русском языке. И то, что стоит в Вас в качестве тире -- никак не "тире", а дефис, который должен стоять только между словами, без пробелов. На хабре уже не раз статьи были на эту тему, например Тире минус дефис. Или размер имеет значение / Хабр .

Замечу, что если Вам лень ставить тире -- можно поставить несколько дефисов подряд (два-три). Некоторые редакторы текста по дефолту заменяют их на тире. Если не заменяют -- то даже так куда правильнее, чем пихать везде дефис.

Ну и у Вас в этом же предложении еще несколько ошибок:

  • нужна запятая после "кстати"

  • нужна запятая перед "то"

  • нужна запятая перед "если в ней"

  • палиться (что сделать?) -> палится (что делает?)

  • нужно длинное тире перед "берите на заметку"

  • написанны -> написаны

Признак сгенерированного LLM текста не само наличие длинных тире, а использование их без пробелов (первый попавшийся под руку пример: "...disturbance in the Force—the awakening of a Dyad..."). Не надо говорить на грамотный текст, что он сгенерирован LLM, только потому, что там правильная пунктуация\грамматика.

А что насчет цен? Тариф Premium обойдется в 600 рублей в месяц. За эти деньги вы получаете безлимитный доступ ко всем нейросетям и целых 5 000 000 капсов! Чтобы вы понимали масштаб: этого запаса хватит на 192 генерации в Midjourney (по 4 варианта каждая), 125 изображений в мощнейшем Flux 2 Pro или 35–40 картинок в Nano Banana Pro. И капсы не сгорают, так что можно растягивать удовольствие.

а Вы точно с ботхаба? У них нет месячных подписок, а за 600р предлагают 3 000 000 капсов, а не 5

В результате эксперимента вы получаете некоторое представление о том, что внутри ЛЛМ кажется ей "хорошим" текстом.

И все-таки, не соглашусь: постановка эксперимента по-прежнему непонятна. Причины описал в комментарии выше (пункты 2,3,4). Кроме того, LLM не имеют в человеческом понимании представления "хорошего текста". LLM же по сути статистический усреднитель текста. Обученная на миллионах токенов произведений разных писателей с абсолютно разными стилями (плюс не надо забывать, что она обучена на комментариях с форумов, программировании и прочем, что тоже дает свой вклад) она будет воспроизводить нечто усредненное. И Ваша аналогия с фильмом "Плезантвиль" как раз об этом.

Возвращаясь к эксперименту -- это задача "улучшить текст", причем вырванный из контекста. LLM не шибко понимают, где нужно остановиться (проблема галлюцинаций), и будет пытаться "улучшить" то, что уже нормально (если текст реально хороший), придумывая несуществующие проблемы -- не задуманные автором. Если добавить контекст (все произведение), то в этом случае направление "улучшений" изменится -- станет ближе к реальности. Но это все равно не покажет представление LLM о "хорошем" тексте.

И это не лечится стилизацией а-ля: "Напиши рассказ в стиле (О.Генри, М.Твена, Конан-Дойла, и т.д.)" И это не лечится advanced prompting где мы просим модель сначала написать характерные черты и литературные приемы определенного писателя, потом написать как именно она собирается применить их при создании текста, и только потом писать текст.

Тут помог бы такой метод: скормить в контекст модели рассказы, например, О.Генри. И тогда уже просить написать "в стиле". Иначе "включается" тот самый "статистический усреднитель". Однако, контекст модели обычно 32к-200к токенов, причем при приближении к этому пределу качество понимания этого контекста падает, поэтому рассказы О.Генри просто в этот контекст не влезут. Может сработать разве что на одном-двух-трех рассказах, которые поместятся в контекст.

В качестве прикола - ЛЛМ имеют тенденцию использовать лифт как телепорт. Два абзаца вверх - герой ехал в институт на трамвае, два абзаца вниз - зашел в лифт на работе, вышел дома на лестничной площадке

В описанном случае больше похоже на то, что модель не особо хорошо понимает\помнит контекст) Либо речь не о паре абзацев, а о довольно объемном куске текста. У опуса-4.5 без проблем выходит написать логически согласованными глав 10 текста на 15000+ токенов -- и без особых ляпов. Гемини-3-про и гпт-5.1\5.2 такой длины текст генерировать не особо в состоянии, не говоря уже о согласованности.

виновато мультимодальное обучение на видеоматериалах

На данный момент только gemini и специализированные VL-модели принимают на вход видеоматериалы, соответственно, и обучены на них. У остальных моделей пока что текст\картинки. Разве что текст\субтитры из видео передавали на вход с минимальным описанием. Вот если бы обучали именно на видео-материалах, причем с детализированными пояснениями (текстовыми-картинками), что, почему, когда, и как происходит -- тогда бы качество действительно рвануло ввысь. Но, думаю, это еще нескоро будет.

Ну и одни из наиболее заметных проблем LLM -- она не понимает на должном уровне анатомию человека, положение в пространстве, не может планировать его действия, теряется в контексте... т.е. то, что могло бы вылечиться как раз мультимодальностью (кроме контекста).

Не очень понимаю: в статье сделан вывод о том, какая модель лучше, на основе всего одного примера генерации каждой модели на каждый промпт? Это не статистика, это "пальцем в небо". Если бы хотя бы на 10 примерах показали -- уже был бы хлеб.

По своему опыту, гемини-3-про несколько хуже и gpt-5.2-pro, и sonnet/opus-4.5 в плане логики повествования\продуманности сюжета. В плане "человекоподобного" текста -- на первом месте всегда модели claude. gpt-модели (и 4, и 5) страдают от коротких абзацев (по сравнению с клодом\гемини -- на моих запросах).

Ну и основная проблема -- это качество обучения этих LLM на русском языке: количество обучающих данных на русском языке и на английском несопоставимо. По-хорошему, для креативного письма правильнее давать задачу писать на английском языке, потом результат переводить на русский.

Смысл подобного эксперимента\теста неясен, прошу пояснить. В данной постановке задачи, если Вы ее зададите человеку-редактору, Вы получите то же самое: "в какой кусок дерьма будет превращен отличный изначальный текст". По пунктам:

1) сразу спросим про язык: русский, английский, или любой другой? LLM обучены на триллионах токенов текста, и бОльшая часть там -- английский язык. С русским до сих пор у многих проблемы (иногда очевидные, иногда не очень).

2)

хороший фрагмент текста известного вам автора

Известный автор -- это условный Толстой\Достоевский? Или какой-нить автор с условного литреса? Или вообще с условного фикбука? На последних двух очень много хороших авторов, пишущих захватывающие произведения, но еще больше пишущих мусор. И с теми же Толстым\Достоевским вряд ли кто-то сравнится, однако их можно считать "известными мне авторами".

3)

хороший фрагмент текста

Что считать "хорошим фрагметом текста"? Понятие "хороший" чисто субъективное. Возьмем в пример какого-нить автора с фикбука, смотрим на комментарии читатетей: "отлично написанная история", "грамотный текст"... А на самом деле в тексте там куча логических\грамматических\пунктуационных ошибок и просто очепяток. Тем не менее, текст "хороший", по мнению некоторых читателей.

4)

"фрагментом текста"

и здесь будет одна из самых больших проблем и для LLM, и для человека. Для начала: что есть фрагмент? В логически связанном тексте любой его фрагмент неразрывно связан с другими фрагментами, и писался автором под его собственный опыт и настроение. Допустим, в этом вырванном из контекста отрывке есть диалоги\эмоции (кстати, чьи эмоции? персонажей? или самого автора?): автор при задумке персонажей уже заложил в них определенную психологию поведения, выражая её в диалогах, действиях, описаниях. В этом вырванном из контекста отрывке, если не знать сам контекст, диалоги и действия персонажей могут показаться нелогичными для нашего субъективного представления, но абслолютно подходящими под психотипы персонажей, раскрытые автором в контексте.

То есть, просто "фрагмент текста" без контекста (т.е. всего произведения) передавать в большинстве случаев смысла не имеет. И LLM, и человек в данном случае не смогут по-нормальному оценить этот "фрагмент". И касаемо LLM -- здесь нужен RAG, как упомянуто комментарием выше.

5) возвращаясь к условным Толстому\Достоевскому: если принять отрывок текста за "отличный" (полагаю, в этом сомнений нет, раз их произведения -- классика), то задача "найти, что получилось хорошо, а что плохо и доработать" -- это поиск придирок к тексту. И тут человек тоже на свой субъективный вкус может напридираться, не говоря уже про LLM.

6)

Даже в программировании ИИ помогает больше

В программировании есть четкая структура, и есть миллионы, если не миллиарды, примеров ее использования. Для сравнения в литературном произведении структура есть только общая (части\главы\секции и тп), а вот контент в каждой части\главе\секции плюс-минус уникален для каждого автора. Примеров, соотвественно, не миллионы (если говорить о хорошем качестве). Если даже миллион наберется -- и то не факт.

Ну и добавлю, что программирование -- это почти полностью английский язык. Комментарии\названия могут быть не английскими, но основные структуры языков базируются на английском, других вроде бы и нет (если смотреть популярные ЯП). Поэтому логично, что LLM в программировании куда лучше, чем в креативном письме.

Быстродействие оценивалось как среднее время ответа (в секундах).

Что за секунды? На каком оборудовании (3050/1650/ryzen -- у них у всех разная скорость, в таблице это не отражено)? У одной модели, скажем, на 4090 скорость будет 100 токенов/сек, а на H100 150 токенов/сек. На 4070 -- 50 токенов/сек (все цифры примерные). Т.е. для Llama 3.2 3b q8 за 20 секунд в одном случае будет сгенерировано 2000 токенов, в другом 3000, в третьем 1000. Касаемо 1650/3050: если верить technicalcity, 3050 примерно в раза два быстрее 1650.

Далее, это время от запроса пользователя до вывода на его экран? Так это зависит от размера самой модели, размера контекста, количества токенов, заложенных на "думание", модели gpu (как указано выше), скорости интернета.

Так что за секунды тут приведены? И не удобнее ли результат приводить в токенах? Типа, модель такая-то, в ответе в среднем генерировала N токенов со скоростью M токенов\сек, качество ответов такое-то

Кто-то может объяснить фразы типа
"модель думала N секунд"
(из статьи) "задач, которые занимают около 9 секунд"
(из статьи) "для GPT-4 этот показатель увеличился до 5,36 минут (прирост в 36 раз), а для GPT-5 достиг 137 минут. "

Везде пишут про пресловутые "секунды". Что за секунды? Чисто время "думания"? Или время от запроса до вывода на экран (вместе с решением, или чисто фазы "думания")? Так это завист от кучи факторов -- типа модели gpu, размера модели, структуры модели (MoE vs dense), количества токенов, выделенных на размышление, наконец, скрость интернет-соединения. Например, модели gpt4 и 5 (кстати, не указано, какие именно модели): скорость ответа модели gpt-5-nano выше в несколько раз по сравнению с gpt-5 -- благодаря меньшему размеру (кстати, а ведь точные размеры тоже неизвестны). Далее, скорость зависит от оборудования -- а есть ли гарантия, что инстансы gpt-4 и gpt-5 запущены на одних и тех же моделях gpu? Особенно если этих gpu сотни тысяч?

Получается, что ответ приводится в каких-то эфемерных "секундах", которые зависят от кучи факторов и фактически не говорят ни о чем. Почему нигде не приводятся результаты в токенах? Например, вот, модель такая-то, "думала" в среднем 10к токенов, достигла точности в 90%.

Информация

В рейтинге
4 555-й
Откуда
Россия
Зарегистрирован
Активность