Pull to refresh

Comments 99

Если какой-то тест для ИИ стал известным и популярным - разработчики специально будут обучать и тестировать на нем модели. Он перестанет быть показателем достижений. Без последствий как при дизельгейте.

Именно этот комментарий я ожидал. И точно - на первом месте )

22 модели и у всех разработчики бросились надрачивать свои модели на часы )

Так не все же модели справились

Именно от этого буквально зависит их инвестиции они собственно ради этого и пилят свои поделки вон гпт по тестам раз в 6 умнее а на деле отзывы и юзер эксперимент обратный говно неюзабельное стало

Я впервые слышу о таком тесте. Ладно шутка второй раз.

Гораздо более известен тест нарисуй пеликана на велосипеде. Можете погуглить. Так вот может быть затачивают только на пеликана, я рядом не стою. Но факт что кто лучше рисует пеликана тот лучше рисует и медведи на велосипеде. Так что я не возражаю. Пусть обучают. Если побочным эффектом является улучшение рисования вообще всего.

Уточню, речь идёт об SVG, запрос к текстовым моделям. Не к рисовалкам. Можете потестировать для смеха - с высокой долей вероятности пока выдаётся и чушь.

Нуок, часы наконец оно рисует правильно. Что еще оно рисует неправильно?

Скрепки. Канцелярские. До сих пор.

Ну некоторые же правильно. Может это просто брак при производстве)))

Дык в статье речь идёт не про генерацию картинок часов, а про генерацию html-кода, отображающего часы. Разные вещи. Вы пробовали создать html-скрепки?)

  • У меня был затык с арбалетом, заложенным болтом и натянутой тетивой - только последняя гемени справляется стабильно

  • вид с верху шахматной доски с начальной расстановкой фигур и подписью строк и столбцов вроде бы никто до сих пор не справляется (проверял месяц назад)

Помню ещё с азбуками были проблемы

Ни одна нейросеть на данный момент не может сделать фото или видео с подмигивающим человеком. Даже близко ничего подобного не может.

А планету Земля, только суша и вода поменялись местами?

Я каждый год даю им эту задачу - и они не справляются. Максимум - Гемини надоело и он мне загуглил готовую картинку в интернете.

А планету Земля, только суша и вода поменялись местами?

Мужыки и пила.тхт

Но зачем, Холмс?

Мужыки и пила.тхт

Нет. Это как раз нормальный тест на интеллект, который у ИИ, судя по названию, должен быть. У художественного творчества не может быть вопроса "зачем?" (иначе можно спросить, а зачем Бомбардиро Крокодило и т.д. - хороший, кстати, вопрос, но факт в том что кому-то это оказалось надо). Постановка вопроса интуитивно понятна, любой человек, включая ребёнка, сможет это нарисовать (с поправкой на чисто технические навыки рисования).

Тест на человеческий интеллект. Что то из разряда танцующих роботов. Забавное.

Франческолли Пиццабала ;-)

Я каждый год даю им эту задачу - и они не справляются.

Слон без хобота - аналогично.

А референсная картинка существует?

Вспоминается сказка про то чего не может быть.

В любом поисковике гуглится без проблем. Были ли они в обучающей выборке - не знаю.

Тут это более интересно с точки зрения того, что это пример задачи, с которой не напрягаясь справляется 2-летний ребёнок. Потому что он понимает, что вот это - слон, это хобот. Рисует слона, но не рисует хобот.

Но с которой не справляются передовые модели генерации изображений, потому как они обучены на огромном массиве изображений слонов с хоботами. В них, по сути, заложено представление об "эталонном" образе слона, и они не могут его просто так взять, и разделить на составные части.

В любом поисковике гуглится без проблем

Гуглится слон-инвалид и куча ИИ-вы@@@ов. Или имеется в виду шахматная фигура bishop? ;)

Гуглится слон-инвалид

Ну так о чём я и говорю.

Слон без хобота, это как мужчина без члена. Технически он перестаёт быть слоном, если забрать ту вещь, что его определяет. Тут проблема в определении слов.

Если человеку отрубить большой палец на руке, он тоже перестаёт быть человеком?

Нуок, часы наконец оно рисует правильно. Что еще оно рисует неправильно?

— Что такое: как ни погляжу — без четверти два всё время?!
— Это манометр!!!

Мне не удалось в последних моделях ни разу сгенерировать человека с 6 пальцами на руке.

С учётом того, что на начальном этапе они как раз были неспособны нарисовать руку с 5 пальцами, не ясно, критика это или похвала)
Если критика, то попробуй запрос polydactyly

Значит, теперь не будут способны нарисовать руку с N пальцами!

Во как, и даже на вопрос про автомойку в 50 метрах скоро станет правильно отвечать, так и до AGI доберемся.

А что за автомойка?

Хочу помыть авто, мойкп через 50 метров. Как быстрее добаться до мойки: пешком или на машине.

Что-то вроде такого.

Та то совсем неочевидно. Желание помыть машину != решение мыть ее прямо сейчас. А сходить пешком можно чтобы записаться на удобное время, например. Или узнать расписание работы. Или телефон спросить. А еще бывает что машина на парковке, а мойка в 50 м от водителя, который прямо сейчас пешеход.

Как он догадается, что на самом деле спрашивалось?

Летело 2 напильника, 1 синий 2 в Африку..

«— Ты что, дурак?
— ????
— Ну вопрос же был, „почему гладиаторы...“ — значит, и отвечать надо „потому что гладиолус“!»

Ну если он ответит, что задающий такой вопрос - дурак, то задача тоже решена.

Хм, да, на таком варианте почему-то ломается и отвечает неправильно.

Так что обувайтесь и идите пешком

Нихера себе. Ещё и обуваться заставляет. А может я босым хочу пройтись

GPT 5.2 с рассуждением справился
GPT 5.2 с рассуждением справился

Именно для этого и нужны рассуждающие модели!

Тут где‑то что‑то говорили про «полную и точную спецификацию»...

Локальная модель на 20B параметров размером в 11Гб:

Интересно. Тут он делает акцент на том, что при необходимости помыть машину - ехать в автомойку единственный вариант. Топовый облачный GPT спотыкается на данном вопросе.

Может быть такое, что в большой модели из-за большего кол-ва весов и длительности обучения, закрепилась формулировка "место назначения близко - лучше пешком"? Или вероятно это от генерации к генерации меняется и можно получить такой результат у большой GPT, если повезёт?

Забавно, перегенерировал пару раз, теперь он больше не пишет о том, что машина неизбежна. Может они просто слишком хорошего мнения о пользователе и считают, раз он раздумывает о том, чтоб пойти пешком, то явно хочет мыть какую-то другую машину, которая уже на мойки. :)

Уже отвечают.

Все равно нет способа отличить правильный ответ от неправильного.

Не думаю, что это мои персональные настройки в системном промте влияют на результаты.
Не думаю, что это мои персональные настройки в системном промте влияют на результаты.

Пока американские нейросети растекаются в подробностях, китайская с трудом сдерживается, чтобы не спросить "Люди, вы дебилы?" 😂

Осталось научить её ставить тэг "сарказм".

И я бы уже поостерёгся задавать такие вопросы следующий раз. Неприятно как-то. Как с ребёнком.

Да ладно. Как раз-таки аналоговые часы мне в 2023 chatgpt3.5 выдавал вполне рабочие. Это потому что их реализаций была целая тонна в сети до этого, как я подозреваю.

Это сверху типа нормальные часы?
Там же куча проблем, такое ни один юзер или дизайнер нормой не назовет.
Настоящие цифры по моей оценке (по той фотографии) такие:
Cloude Opus 4.5 Nov 2025
0/5 иронический палец вверх
------
Gemini 3 Pro Nov 2025
5/5, ладно. Хотя сложных деталей тут нет, возможно успех за счет этого
------
GPT-5.2 Dec 2025
0-2/5 - Проблемы верстки, хотя разрешение фотки не позволяет оценить на 100%

------

Gemini 3 Flash Dec 2025
3/5
-------

Cloude Opus 4.6 Feb 2026
0/5 Улучшения есть, но вешать дома я бы эти кривули не стал.


В общем пока единственный ИИ из рассмотренных, кто осилил бенчмарк - Gemini 3 Pro


Это, кстати, кадр из «Идиократии», кто не видел.

Это сравнение оскорбительно для дураков будущего. Сделать перенос по недостатку места хоть и глупое, но всё-таки творческое решение. Генераторы картинок из промптов и чат-боты на такое архитектурно не способны.

модели каждую минуту генерируют HTML-часы в реальном времени

Так вот ради чего оперативка подорожала

Нет чтоб оперативку генерировать!

часы это ладно, но эволюция с Уилл Смитом и лапшой, это рил показатель прогресса

Собрать огромный датасет видосов с людьми кушающих лапшу и скормить нейронке - это показатель прогресса?

Это был так называемый joke из Internet. Некоторый meme. Зачем вы на него так агрессивно отвечаете?

Применялись ли исходные ограничения в этом тесте (на сайте у моделей бюджет в несколько тысяч токенов)? Очень сомневаюсь...

SORA на промпт: Градусник уличный, показывает температуру минус 20 градусов".

-- программисты: ругаются, дообучают

-- хакер: а теперь на 180 градусов

Кевин Митник: А теперь градусник уличный, ртутный, показывает -45 по Цельсию.

Промт

Градусник уличный, показывает температуру минус 20 градусов

gemini.google.com (Nano Banana Pro)

ну терпимо для результата с первой попытки :)
ну терпимо для результата с первой попытки :)

Показать процесс размышления (Nano Banana Pro)

Visualizing Frosty Details

I'm focusing on the specifics for a realistic street thermometer displaying -20°C. I'm envisioning an antique, glass, alcohol-based thermometer, the red liquid frozen at the mark. The numbers and gradations must be clear. The casing is frost-covered, with ice and cracked, weathered wood. It's affixed to a crumbling brick wall, in a winter setting.

Refining Atmospheric Details

I'm now delving deeper into the photographic realism of the scene. The antique thermometer is envisioned with a focus on its physical condition: heavy frost, ice crystals, and cracked wood. I am visualizing the thermometer's placement on an old brick building. I am considering light: sun, ice reflections, and even the possible appearance of breath vapor.

Visualizing Frozen Details

I've just visualized a photorealistic image of a street thermometer. I focused on the details: the frosted glass, the red liquid frozen at -20°C, and the wintery village house background. All essential elements are present.

Что за диапазоны 20-20, 30-30 . Все очень плохо

Дык в статье речь идёт не про генерацию картинок часов, а про генерацию html-кода, отображающего часы. Разные вещи. Вы пробовали создать html-термометр?)

UFO landed and left these words here

ИИ научилась рисовать часы, мы все больше не нужны!!!

без десяти 2 и т.п. ?

Такое и не каждый человек сегодня сможет.

А теперь пусть нарисует спидометр, манометр и 24-часовой морской хронометр.

Пусть сочинит стихотворение о кибэротике! – сказал он наконец, радостно усмехаясь. – Пусть там будет не больше шести строк, а в них о любви и измене, о музыке, о неграх, о высшем обществе, о несчастье, о кровосмесительстве – в рифму и чтобы все слова были только на букву К! (Ц)

Кот, каверзник коварный, кибэротоман,
К королеве кафров крадётся Киприан!

Лем - гений. Или попаданец. Очень уж точно он описал как работет llm.

То есть задачу которую может решить ребёнок лет восьми за мороженное, тут не может нормально решить целый ИИ за много (по сравнению с ценой мороженого) денег.
Тут главное верить, что это очень эффективно.
Мне очевидно, что какие-то узкие задачи эти штуки действительно могут эффективно решать, но ограничение именно по деньгам (ресурсам) уже очень серьёзное и в обозримом будущем дешевле не будет.

Не думаю, что этот ребёнок сделает веб-страницу с идущими часами.

Как я понял ИИ в значительной части случаев даже с задачей просто нарисовать часы не справился.

А сколько, по-вашему, стоит создание ребёнка лет восьми?

Ребёнок, кстати, именно так и учится - встречает какую-то проблему, а потом пытается её решать. И получается у него далеко не с первого раза. Потом следующую проблему. Потом следующую. Тем самым он создаёт представление о мире в целом.

Так что все эти претензии по поводу того, что сейчас начнут натренировывать модели на создание часов, необоснованны. Потому что именно такая тренировка и является самой что ни на есть естественной. И чем больше таких проблем будет натренировано, тем лучше представление о мире будет у модели.

Ну...у нее не может быть представления о мире.

Она не интеллект так-то. Зачем наделять человеческими качествами компилятор?

Интеллект может быть не только у человека. У обезьян, дельфинов, птиц и т. д. тоже есть интеллект. И у них тоже есть представление о мире. В каких-то аспектах это представление гораздо лучше помогает выживанию в конкретных условиях.

А сколько, по-вашему, стоит создание ребёнка лет восьми?

Где ни-будь в Африке сильно дешевле одной карточки H-100, не говоря уже про электричество и обслуживание.

 И чем больше таких проблем будет натренировано, тем лучше представление о мире будет у модели.

И будет ограниченно в максимуме только зрительными образами, да и то с серьёзными ограничениями. Такое себе представление.

сильно дешевле одной карточки H-100

Сомневаюсь (учитывайте также временные затраты). К тому же, модель уровня ChatGPT 2023 года можно запустить на гораздо более простом железе.

И будет ограниченно в максимуме только зрительными образами, да и то с серьёзными ограничениями. Такое себе представление.

Поэтому современные модели и обучают мультимодальными.

Claude Opus 4.5, вышедший в ноябре 2025-го, выдал корректные часы во всех пяти запусках.

Особенно в тему сказка про самообучаемую нейросеть, которую поставили управлять чем то вроде батискафа. Она сообразила, что когда стрелки на приборе становятся вот так - нужно крутить вот тот вентиль. Только прибор оказался часами, и в них однажды села батарейка..

– Нет, серьезно. Он там управлял системой подземки – никаких нареканий, идеальный работник, а потом однажды эта штука просто забыла запустить вентиляторы, когда было надо. Поезд заезжает на пятнадцать метров под землю, пассажиры выходят, воздуха нет, бум!
...
– Эти штуки вроде как учатся на собственном опыте, правильно? – продолжает Джарвис. – Ну и все думали, что зельц научился запускать вентиляторы по какому‑то очевидному признаку. Жару тела, движению, уровню углекислого газа, ну ты понимаешь. В результате выяснилось, что эта хрень просто смотрела за часами на стене. Прибытие поезда совпадало с предсказуемым набором паттернов на цифровом дисплее, поэтому она включала вертушки, когда видела один из них.
– Ага. Точно, – Джоэл качает головой. – А какие‑то вандалы часы разбили. Или что‑то вроде того.

(C) Питер Уоттс. Рифтеры.

Да, вот именно. Пока нейросети рисуют слонов без хобота, или магазин без продаж - оно весело. Но однажды ее поставят рулить самолетом..

Пока нейросети рисуют слонов без хобота, или магазин без продаж - оно весело. Но однажды ее поставят рулить самолетом

Главное — чтобы это был самолёт без пассажиров!

А когда биологическая нейросеть за штурвалом приводит к падению самолёта - это другое, да? А это основная причина авиакатастроф, между прочим.

Заменить одну причину другой как то очень смело выглядит.

Дык речь идёт не про генерацию картинок часов, а про генерацию html-кода, отображающего часы. Разные вещи

Я специально залипал в этот тест около часа. В итоге только Kimi k2.5 55 раз из 60 нарисовала корректно, у остальных в лучшем случае 20 попаданий из 60. Не знаю, что это за модель, но стрелочные html-часы она рисовать определённо умеет

Офигеть! Часы нарисовал!!!
Это ж - не просто интеллект, а - не постесняюсь этого слова! - ИНТЕЛЛЕКТИЩЕ!

Ещё пару лет, и он сможет нарисовать телегу, лошадь и настоящую (а не какую-то покоцанную и кривую) голую девушку.

Вот тут-то нам всем и придут кранты: ИИ всех поработит.
Пора запасаться тушёнкой.

Sign up to leave a comment.

Other news