Пытается, но не может соблюсти правила силлабо-тонического стихосложения: в первом стихотворении «замах» на 4-стопный амфибрахий, но во второй строфе в двух последних строках есть 2 несостыковки:
1. В предпоследней строке в слове «Нейросеть» ударение на третьем слоге, хотя должно быть слово с ударением на втором слоге. Например, подойдёт слово «Сейчас».
2. В последней строке в начале между ударными гласными из слов «Она» и «Марков» находится только одна гласная (из слова «не»), хотя их должно быть две. Можно было бы написать «Она вам не Марков...» и тогда подошло бы, но придётся написать что-то другое, если слово «Нейросеть» из предыдущей строки мы уберём: иначе местоимения «она» неясно к чему будут относиться.
Хотя это не ошибка, также странно, что в первом стихотворении во второй строфе во второй и четвёртой строках неожиданно появляется мужская рифма, тогда как в остальном стихотворении рифмы везде женские. Чередовать мужскую рифму с женской можно, но странно, что такое чередование появляется неожиданно (в первой строфе его нет, а во второй вдруг есть) и так же неожиданно пропадает вместе с концом стихотворения. Так как нет никакой закономерности в возникновении мужской рифмы, это немножко сбивает ритм стихотворения.
Ещё это стихотворение не очень хорошо заканчивать мужской рифмой: в таком случае стихотворение заканчивается на ударной гласной, хотя преобладают в стихотворении безударные гласные (потому что это амфибрахий). В итоге стихотворение кончается не на тонике, из-за чего ощущается недосказанность. Проще было бы полностью убрать мужские рифмы, оставив только женские. Вариант сложнее, где придётся много переделывать, — добавить чередование видов рифмы так, чтобы это чередование было во всех строфах и чтобы женские рифмы были в чётных строках.
Для наглядности по-быстрому исправил первое стихотворение, чтобы соблюсти все формальные правила. Понимаю, что о Маркове теперь ни слова (если не считать упоминания цепи), но мне лень увязывать форму с содержанием.
Исправленное стихотворение
Искусственный разум не цепью ведётся, Уж метит в поэты свободно и смело. В стихах его пульс и душа узнаётся: Чтоб сердце касалось — не нужно и тела.
Уж выше он уровня слов без опоры, Созвучьем играя, взлетает прекрасно. Сейчас уже слышит мелодий просторы: Людей опасения в целом напрасны.
Интересно, что во втором стихотворение формально придраться не к чему.
В общем, нестабильно нейросети пишут стихотворения: даже тяжёлая GPT 4.5 всё ещё не может надёжно соблюдать стандартные стихотворные размеры. Не говоря уже о том, чтобы, придерживаясь стихотворного размера, написать что-то красивое и осмысленное. Что уж говорить о том, чтобы пытаться создавать стихотворения с нестандартными размерами, например чтобы количество стоп в определённых строках менялось бы по определённому правилу.
Используй Riffusion: качество лучше, чем в бесплатной версии Suno, русский язык работает, есть возможности редактирования (ремикс, продолжить, заменить), жёстких ограничений нет.
Всё хорошо, но статье не хватает показателей разброса вокруг среднего. Без них не поймёшь, где разница между промптами — настоящая, а где — возникшая просто по случайности.
Что можно сделать?
Самое простое — построить график типа «ящик с усами». Чтобы самому ничего не считать, можно воспользоваться сайтом. График покажет среднюю точность и её разброс для каждого промпта.
В идеале — посчитать статистическую значимость. Для этого нужно собрать результаты всех прогонов в файл .csv или .xlsx.
Пример файла
Простой способ сделать это
Пусть LLM напишет скрипт на Python для перевода данных из вашего формата в нужный формат. Полученный скрипт можно запустить в Google Colab.
Открыть файл в программе для статистического вывода (мне нравится JASP) и использовать какой-нибудь статистический тест. В данном случае подойдёт дисперсионный анализ (ANOVA).
В JASP есть справка, которая показывает, какие кнопки за что отвечают. Нажмёте на нужные кнопки, программа сама посчитает медиану, квартили, p-значения и средние для каждого промпта с 95 %-доверительным интервалом.
В программе тоже можно создать графики.
Если на сайте графики строятся на основе описательной статистики (квартили, выборочное стандартное отклонение), то в программе можно построить графики на основе статистического вывода (95 %-доверительный интервал, bootstrap). Второй вариант надёжнее: если эффект сильный и/или данных много, то разброс на графиках получится меньше (легче заметить настоящую разницу); если эффект слабый и/или данных мало, то разброс получится шире (меньше вероятность принять случайность за настоящую разницу).
Проверка статистической значимости пригодится, если из графиков с сайта не очевидно, что разница действительно существует. И так просто надёжнее.
Может, умная колонка? По-моему, это самый адекватный вариант, куда можно засунуть LLM, но при этом чтобы это был не компьютер/ноутбук/смартфон/телевизор (что-то с экраном). Хотя ещё очки дополненной реальности могут быть.
Хотя Qwen неплохая, но если есть возможность использовать нейросеть мощнее, то к чему эти полумеры? Задача ведь максимизировать производительность и вместе с тем минимизировать вероятность возникновения галлюцинаций. В таком случае правильней будет выбрать самую мощную нейросеть из доступных.
Я вот натерпелся галлюцинаций от GPT-4o, поэтому теперь использую Gemini 2.5 Pro: судя по рейтингам LM Arena и Artificial Analysis, эта нейросеть — самая мощная из бесплатных. Пока что спрашивал несколько раз насчёт конфигурации Nginx, ответы проверял через документацию Nginx. Галлюцинаций пока не получил. Впрочем, спрашивал мало и о простых вещах.
Но не так важен мой опыт, как принцип: если нужно уменьшить количество галлюцинаций и повысить эффективность, то логичнее будет использовать самую крутую нейросеть из доступных.
Мне кажется, у вас хорошо получается! Хотя комментаторы пишут, что у вас ничего не получится, но у вас хотя бы куча бумажек уже заготовлена.
Я бы хотел, чтобы вы попытались дойти до конца. Даже если проиграете, это будет хотя бы как удар. Может, он противника с ног сразу не повалит, но хотя нанесёт какой-то урон. Или не нанесёт. Но всё равно вы как-то «ударите» по этому РКН.
Ну знаете, хотя бы как удар кулаком по столу. Просто потому что бесит этот РКН. И если я и повешусь когда-нибудь, то точно из-за действий РКН, а не из-за несчастной любви или чего-то там ещё (если не считать пытки).
GPT-4o делает все картинки слишком оранжевыми. Нужно или просить её убрать оранжевость, или в фотошопе цвета менять. Иначе заметно, что картинку нейросеть создала.
Всё жду, когда нейросети научатся искать не где-то там в интернете (не знаю, как это у них происходит), а через Google Scholar, например. И опираться при ответе на PDF'ки научных статей.
Просто всё ещё приходится самому искать научные статьи, если хочу какой-нибудь вопрос с научной точки зрения изучить. Нейросети постоянно цитируют просто какие-то сайты, где написать можно что угодно, ведь там нет рецензирования.
Это для людей тест показывается в виде картинок, а для LLM это выглядит как текст с цифрами (матрица), где каждому цвету соответствует цифра от 1 до 9, а отсутствие цвета кодируется как 0.
На самом деле текстовую версию человеку решить тоже несложно: у меня получалось.
sci.volozhaninov.art. Ничего интересного: просто несколько заметок о математике, статистике, каузальном анализе и теории игр. Пишу для себя и иногда хвастаюсь перед друзьями, какой я «математик».
У меня есть сайт о формальных науках. Самый безобидный, ничего о способах обхода блокировок там нет. Но я люблю шифрование и хочу, чтобы его было как можно больше, поэтому использую ECH. Однако теперь ECH запретили и передо мной встал выбор:
1. Прогнуться и выключить ECH. Для этого ещё придётся откатиться до TLS 1.2.
2. Сразу сказать пользователям моего сайта, что теперь он будет работать только через VPN, ведь в России запретили ECH.
Что бы выбрали вы? Пожалуй, я выберу второй вариант, ведь если постоянно прогибаться, то уже нужно отказаться от ECH и TLS 1.3, а потом могут запретить и нормальные сертификаты и заставить всех пользоваться только сертификатами от Минцифры. Запрещать будут всё больше и больше, прогибаться придётся всё сильнее и сильнее. Вместо это можно просто сразу признать, что в России без VPN ничего нормально не работает.
Мне кажется, замерять «сложность» картинки и пытаться обучить нейросеть так, чтобы это сложность была как можно выше, — неверный подход. Неудивительно, что в таком случае пальцев пальцев становится больше положенного, все фотографии выглядят так, будто в режиме HDR сняты, и в целом всё кривым становится. Проще говоря, на картинке появляется больше «каши».
Задачи лучше задавать не GPT-4, а GPT 1o, ведь именно она создана для решения задач.
Ещё задачи лучше задавать на английском языке. Потому что нейросети больше разных данных на английском видели, поэтому лучше понимают и рассуждают на нём.
Как вообще можно проводить соревнования в игре, где каждый выстрел — это игра в рулетку? Снаряды летят случайным образом, а не ровно в центр. Случайные пробития, рикошеты, поломки техники. С артиллерией ещё хуже: стреляй наугад по всей карте и надейся, что снаряд прилетит ровно по центру овала-прицела, а не где-то с краю.
По-моему, проводить соревнования в игре, где случайность влияет на исход матча больше, чем навыки, как-то... глупо. Но если кому-то интересно в этом участвовать и за этим наблюдать, то ладно.
Ещё нейросети хорошо справляются с рисованием природы, ведь природа сама по себе кривая. Думаю, если попросить нейросеть сделать видео с природой без животных, то при достаточном количестве попыток получится настолько правдоподобно, что от реальности отличить не получится.
Видео с природой можно использовать в качестве клипа для какой-нибудь музыки, где нужен просто какой-нибудь фон, который не обязательно должен иметь много смысла.
О Смуте на Хабре пишут новости, а об Escape from tarkov (EFT) — нет. Смуте дают гранты, а EFT — нет (во всяком случае, ни разу не слышал).
Хотя EFT не хуже Смуты:
- игра тоже российская; - в игре тоже есть обновления; - тоже познавательная: на военных сборах меня заставляли учить калибры и характеристики разного оружия. Если бы я играл в Escape from tarkov, я бы знал их все наизусть.
Хотя компания BattleState Games, которая создала EFT, зарегистрирована в Лондоне. Наверное, поэтому EFT не считается полностью российской.
Пишете «ё», когда она нужна для понимания, но в следующем сообщении: «И я без обид, П.С. прочла, все в порядке». В порядке «все» или «всё»? По контексту понять можно, но с «ё» было бы проще.
Пытается, но не может соблюсти правила силлабо-тонического стихосложения: в первом стихотворении «замах» на 4-стопный амфибрахий, но во второй строфе в двух последних строках есть 2 несостыковки:
1. В предпоследней строке в слове «Нейросеть» ударение на третьем слоге, хотя должно быть слово с ударением на втором слоге. Например, подойдёт слово «Сейчас».
2. В последней строке в начале между ударными гласными из слов «Она» и «Марков» находится только одна гласная (из слова «не»), хотя их должно быть две. Можно было бы написать «Она вам не Марков...» и тогда подошло бы, но придётся написать что-то другое, если слово «Нейросеть» из предыдущей строки мы уберём: иначе местоимения «она» неясно к чему будут относиться.
Хотя это не ошибка, также странно, что в первом стихотворении во второй строфе во второй и четвёртой строках неожиданно появляется мужская рифма, тогда как в остальном стихотворении рифмы везде женские. Чередовать мужскую рифму с женской можно, но странно, что такое чередование появляется неожиданно (в первой строфе его нет, а во второй вдруг есть) и так же неожиданно пропадает вместе с концом стихотворения. Так как нет никакой закономерности в возникновении мужской рифмы, это немножко сбивает ритм стихотворения.
Ещё это стихотворение не очень хорошо заканчивать мужской рифмой: в таком случае стихотворение заканчивается на ударной гласной, хотя преобладают в стихотворении безударные гласные (потому что это амфибрахий). В итоге стихотворение кончается не на тонике, из-за чего ощущается недосказанность. Проще было бы полностью убрать мужские рифмы, оставив только женские. Вариант сложнее, где придётся много переделывать, — добавить чередование видов рифмы так, чтобы это чередование было во всех строфах и чтобы женские рифмы были в чётных строках.
Для наглядности по-быстрому исправил первое стихотворение, чтобы соблюсти все формальные правила. Понимаю, что о Маркове теперь ни слова (если не считать упоминания цепи), но мне лень увязывать форму с содержанием.
Исправленное стихотворение
Искусственный разум не цепью ведётся,
Уж метит в поэты свободно и смело.
В стихах его пульс и душа узнаётся:
Чтоб сердце касалось — не нужно и тела.
Уж выше он уровня слов без опоры,
Созвучьем играя, взлетает прекрасно.
Сейчас уже слышит мелодий просторы:
Людей опасения в целом напрасны.
Интересно, что во втором стихотворение формально придраться не к чему.
В общем, нестабильно нейросети пишут стихотворения: даже тяжёлая GPT 4.5 всё ещё не может надёжно соблюдать стандартные стихотворные размеры. Не говоря уже о том, чтобы, придерживаясь стихотворного размера, написать что-то красивое и осмысленное. Что уж говорить о том, чтобы пытаться создавать стихотворения с нестандартными размерами, например чтобы количество стоп в определённых строках менялось бы по определённому правилу.
Используй Riffusion: качество лучше, чем в бесплатной версии Suno, русский язык работает, есть возможности редактирования (ремикс, продолжить, заменить), жёстких ограничений нет.
Всё хорошо, но статье не хватает показателей разброса вокруг среднего. Без них не поймёшь, где разница между промптами — настоящая, а где — возникшая просто по случайности.
Что можно сделать?
Самое простое — построить график типа «ящик с усами». Чтобы самому ничего не считать, можно воспользоваться сайтом. График покажет среднюю точность и её разброс для каждого промпта.
В идеале — посчитать статистическую значимость. Для этого нужно собрать результаты всех прогонов в файл .csv или .xlsx.
Пример файла
Простой способ сделать это
Пусть LLM напишет скрипт на Python для перевода данных из вашего формата в нужный формат. Полученный скрипт можно запустить в Google Colab.
Открыть файл в программе для статистического вывода (мне нравится JASP) и использовать какой-нибудь статистический тест. В данном случае подойдёт дисперсионный анализ (ANOVA).
В JASP есть справка, которая показывает, какие кнопки за что отвечают. Нажмёте на нужные кнопки, программа сама посчитает медиану, квартили, p-значения и средние для каждого промпта с 95 %-доверительным интервалом.
В программе тоже можно создать графики.
Если на сайте графики строятся на основе описательной статистики (квартили, выборочное стандартное отклонение), то в программе можно построить графики на основе статистического вывода (95 %-доверительный интервал, bootstrap). Второй вариант надёжнее: если эффект сильный и/или данных много, то разброс на графиках получится меньше (легче заметить настоящую разницу); если эффект слабый и/или данных мало, то разброс получится шире (меньше вероятность принять случайность за настоящую разницу).
Проверка статистической значимости пригодится, если из графиков с сайта не очевидно, что разница действительно существует. И так просто надёжнее.
Может, умная колонка? По-моему, это самый адекватный вариант, куда можно засунуть LLM, но при этом чтобы это был не компьютер/ноутбук/смартфон/телевизор (что-то с экраном). Хотя ещё очки дополненной реальности могут быть.
Хотя Qwen неплохая, но если есть возможность использовать нейросеть мощнее, то к чему эти полумеры? Задача ведь максимизировать производительность и вместе с тем минимизировать вероятность возникновения галлюцинаций. В таком случае правильней будет выбрать самую мощную нейросеть из доступных.
Я вот натерпелся галлюцинаций от GPT-4o, поэтому теперь использую Gemini 2.5 Pro: судя по рейтингам LM Arena и Artificial Analysis, эта нейросеть — самая мощная из бесплатных. Пока что спрашивал несколько раз насчёт конфигурации Nginx, ответы проверял через документацию Nginx. Галлюцинаций пока не получил. Впрочем, спрашивал мало и о простых вещах.
Но не так важен мой опыт, как принцип: если нужно уменьшить количество галлюцинаций и повысить эффективность, то логичнее будет использовать самую крутую нейросеть из доступных.
Мне кажется, у вас хорошо получается! Хотя комментаторы пишут, что у вас ничего не получится, но у вас хотя бы куча бумажек уже заготовлена.
Я бы хотел, чтобы вы попытались дойти до конца. Даже если проиграете, это будет хотя бы как удар. Может, он противника с ног сразу не повалит, но хотя нанесёт какой-то урон. Или не нанесёт. Но всё равно вы как-то «ударите» по этому РКН.
Ну знаете, хотя бы как удар кулаком по столу. Просто потому что бесит этот РКН. И если я и повешусь когда-нибудь, то точно из-за действий РКН, а не из-за несчастной любви или чего-то там ещё (если не считать пытки).
GPT-4o делает все картинки слишком оранжевыми. Нужно или просить её убрать оранжевость, или в фотошопе цвета менять. Иначе заметно, что картинку нейросеть создала.
Всё жду, когда нейросети научатся искать не где-то там в интернете (не знаю, как это у них происходит), а через Google Scholar, например. И опираться при ответе на PDF'ки научных статей.
Просто всё ещё приходится самому искать научные статьи, если хочу какой-нибудь вопрос с научной точки зрения изучить. Нейросети постоянно цитируют просто какие-то сайты, где написать можно что угодно, ведь там нет рецензирования.
Это для людей тест показывается в виде картинок, а для LLM это выглядит как текст с цифрами (матрица), где каждому цвету соответствует цифра от 1 до 9, а отсутствие цвета кодируется как 0.
На самом деле текстовую версию человеку решить тоже несложно: у меня получалось.
Пример
Жалко, что у меня не хватает кармы, чтобы минусить статьи BotHub'а. Это же надо умудриться почти в каждой новости ошибки допускать.
sci.volozhaninov.art. Ничего интересного: просто несколько заметок о математике, статистике, каузальном анализе и теории игр. Пишу для себя и иногда хвастаюсь перед друзьями, какой я «математик».
У меня есть сайт о формальных науках. Самый безобидный, ничего о способах обхода блокировок там нет. Но я люблю шифрование и хочу, чтобы его было как можно больше, поэтому использую ECH. Однако теперь ECH запретили и передо мной встал выбор:
1. Прогнуться и выключить ECH. Для этого ещё придётся откатиться до TLS 1.2.
2. Сразу сказать пользователям моего сайта, что теперь он будет работать только через VPN, ведь в России запретили ECH.
Что бы выбрали вы? Пожалуй, я выберу второй вариант, ведь если постоянно прогибаться, то уже нужно отказаться от ECH и TLS 1.3, а потом могут запретить и нормальные сертификаты и заставить всех пользоваться только сертификатами от Минцифры. Запрещать будут всё больше и больше, прогибаться придётся всё сильнее и сильнее. Вместо это можно просто сразу признать, что в России без VPN ничего нормально не работает.
Для сравнения — улица, созданная FLUX.1 [dev]
В сумме это уже 3 публикация на Хабре об этом исследовании. Вот первая.
Мне кажется, замерять «сложность» картинки и пытаться обучить нейросеть так, чтобы это сложность была как можно выше, — неверный подход. Неудивительно, что в таком случае пальцев пальцев становится больше положенного, все фотографии выглядят так, будто в режиме HDR сняты, и в целом всё кривым становится. Проще говоря, на картинке появляется больше «каши».
Задачи лучше задавать не GPT-4, а GPT 1o, ведь именно она создана для решения задач.
Ещё задачи лучше задавать на английском языке. Потому что нейросети больше разных данных на английском видели, поэтому лучше понимают и рассуждают на нём.
Как вообще можно проводить соревнования в игре, где каждый выстрел — это игра в рулетку? Снаряды летят случайным образом, а не ровно в центр. Случайные пробития, рикошеты, поломки техники. С артиллерией ещё хуже: стреляй наугад по всей карте и надейся, что снаряд прилетит ровно по центру овала-прицела, а не где-то с краю.
По-моему, проводить соревнования в игре, где случайность влияет на исход матча больше, чем навыки, как-то... глупо. Но если кому-то интересно в этом участвовать и за этим наблюдать, то ладно.
Надо же с чего-то начинать.
Ещё нейросети хорошо справляются с рисованием природы, ведь природа сама по себе кривая. Думаю, если попросить нейросеть сделать видео с природой без животных, то при достаточном количестве попыток получится настолько правдоподобно, что от реальности отличить не получится.
Видео с природой можно использовать в качестве клипа для какой-нибудь музыки, где нужен просто какой-нибудь фон, который не обязательно должен иметь много смысла.
О Смуте на Хабре пишут новости, а об Escape from tarkov (EFT) — нет. Смуте дают гранты, а EFT — нет (во всяком случае, ни разу не слышал).
Хотя EFT не хуже Смуты:
- игра тоже российская;
- в игре тоже есть обновления;
- тоже познавательная: на военных сборах меня заставляли учить калибры и характеристики разного оружия. Если бы я играл в Escape from tarkov, я бы знал их все наизусть.
Хотя компания BattleState Games, которая создала EFT, зарегистрирована в Лондоне. Наверное, поэтому EFT не считается полностью российской.
Пишете «ё», когда она нужна для понимания, но в следующем сообщении: «И я без обид, П.С. прочла, все в порядке». В порядке «все» или «всё»? По контексту понять можно, но с «ё» было бы проще.