
Комментарии 188
Отличный пример! Модель, натренированная на генерацию текста не смогла распознать картинки!
Можно ещё насвистеть ей "в лесу родилась ёлочка" и написать ещё одну разгромную статью.
Вообще-то представленные в бенчмарке модели позиционируются разработчиками как мультимодальные - то есть способные работать с изображениями. Вот даже из официального описания GPT-5:
GPT‑5 is a significant leap in intelligence over all our previous models, featuring state-of-the-art performance across coding, math, writing, health, visual perception, and more.
Сколько бы они модальными ни были, если им ранее не показывали ответ на такой тупой вопрос, они на него ответить ну никак не могут. Если бы это была логическая задача, они бы могли текстом порассуждать над ней. А тут что. О чем им рассуждать, о пикселях? Бред ) Если бы загрузили картинку и спросили "это кот или собака", вероятно, ответ был бы более правильный, потому что котов и собак показывали модели.
им кормят всё, что можно найти в интернете, значит что-то попадалось им в момент обучения
Что вы понимаете под "кормят все"? Одно дело циферблаты с пояснением, сколько они показывают времени, а совсем другое - просто циферблаты.
Ну примерно как если показывать фотки кошек и собак размеченные, где кошки, а где собаки, и если просто показать кучу фоток животных в надежде, что она сама научится различать "это кошка, а это собака".
Другой пример - рентгеновские снимки. По качественно размеченым можно ожидать, что модель научится определять, где воспаление легких. В отличие от просто скормить кучу снимков.
Garbage in - Garbage out.
по запросу "как определить время по часам" в гугл-картинки куча сайтов с примерами и разъяснениями как определить время по циферблату. современные LLM изучают все что найдут в публичном инете (в чем можно легко убедиться по логам веб-серверов публичных ресурсов), значит подобные сайты (где учат определять время) они видели
Обычная LLM во время обучения вообще не «смотрит» на картинки с сайтов, она видит только текстовую часть. Чтобы модель умела определять время по циферблату, нужен отдельный визуальный энкодер и датасет «картинка часов - подпись с временем». Просто наличие картинок в интернете этому не научит, даже если рядом есть текстовые статьи про часы.
подобные сайты (где учат определять время) они видели
В интернете есть сайт, где учат определять время по звёздам часам???
Хвала ЛММ (летающему макаронному монстру, не путать с LLM), хоть кто-то это понимает, а то мне там наверху несправедливо минусов накидали. Мельчает Хабр )
Вообще-то представленные в бенчмарке модели позиционируются разработчиками как мультимодальные
Тем не менее, чтение стрелочного циферблата, это узкоспециализированный навык, на который модель надо тренировать целенаправленно. Я вам более того скажу, недавно узнал, что нейронка в голове моего 11-летнего племянника, равно как и нейронки в головах его друзей, тоже на эту задачу не натренированы, и находятся где-то на уровне GPT-5 в вашем бенче.
Судя по соотношению голосов за комментарий, на Хабре есть немало пользователей, которые
а) не в курсе, что среди поколения людей, выросших с телефонами в карманах, действительно многие не умеют читать стрелочные часы
б) не готовы морально принять сам факт их существования :)
Многие это кто? Ваш племянник и его друзья? Выборка так себе.
Так как нейронкам скормили весь интернет, определение времени по стрелкам тоже у них в памяти.
Им скормили весь текстовый интернет. С картинками это видимо не так просто работает, иначе у всех бы было, но по факту есть только у 2-3 компаний и еще несколько сильно отстают, многие вообще не имеют.
Ну я тоже не умею читать стрелочные часы и разбираться сколько же это пол пятого. 24 часовая система с чёткой датой просто радикально лучше и даже нету ни малейшего желания изучать эти криворукие другие системы обозначения времени или пользоваться часами со стрелками.
сочувствую
Та в целом, а почему? Ему и так нормально, ничего он от отсутствия этого навыка не теряет
Тут как посмотреть. Навык чтения циферблата часов переплетается с умением определять показания по стрелочкам приборов.
Если чел по инету рысачит и в этом его скиллы, то это одно, а вот коли он инженер и смотрит на манометр в котельной, а там стрелочка и две шкалы, то быть беде
А зачем мне приборы со стрелочками? Всё нормально давно тоже в цифру перевели.
https://tek-know.ru/upload/iblock/426/4265fac87727bc7dc76b5b15bb3d4d86.jpg
И если по стрелкам можно посчитать что ничего не изменилось. По цифре будет точно видно, что изменилось и насколько. А так же намного проще отследить что есть медленный процесс нарастания или угасания. Который не виден на стрелке.
А вот простейший пример. Есть два мультиметра - стрелочный и цифровой. Есть задача проверить, условно, некий источник питания (подозрение на его нестабильность). Втыкаем цифровой и видим мельтешение цифр. Гадаем - то ли прибор глючит, то ли контакт, то ли ещё что. Стрелочный - видим колебания стрелки в неких пределах.
Вот и вся визуализация.
И да. Цифровые значения - это замечательно, вот только отказываться от различных диаграмм и графиков в пользу таблиц с цифрами, ну как-то общество не особо спешит...
В девайсах с электронным экраном плохо то, что им нужно питание. Если сели батарейки, то вы не померите давление эл. тонометром, также не накачаете колесо велика в глуши с электронным манометром, если забыли позаботится о потекшей батарейке. Чуть не та температура эксплуатации или хранения и элементы питания не годны. А с механическими приборами такое не бывает, они могут хранится десятилетиями, и можно использовать хоть при свете свечи.
В том-то и дело, что есть места, где можно установить только стрелочные приборы.
Цифре же всегда нужно питание. А если вдруг питание пропадёт? Прибор вообще ничего не покажет.
А зачем мне приборы со стрелочками?
Так и запишем: у гражданина никогда липистричество не кончалось. Явно не в Киеве живёт.
Одометры в большинстве авто все ещё стрелочные, даже если эта стрелочка рисуется программно.
Ему и так нормально, ничего он от отсутствия этого навыка не теряет
Я бы с ним в разведку не пошел. :-(
"Цель на 2 часа" он не поймет. А поскольку "нет желания изучать", а у ИИ пока желания нет в принципе, то и в других нетривиальных вопросах следует ждать ошибки.
разбираться сколько же это пол пятого
Там есть еще замечательные вида "Сейчас 'без пяти полвторого'/'без трех минут четверть пятого'. Сколько минут осталось ждать до конца часа?"
С таким и те, кто умеет читать, не сразу справляются.
Ну, тут сложно поспорить. Но можно :]
Нынешняя молодежь желает отбросить все дедовские закидоны и «просто творить» на вайбе. Само по себе достойно уважения, тоже позиция. Но дьявол в деталях. Если задача изобразить очередной «сигма бой» — сойдёт. А вот достигать качественного позитивного рывка в глобальном масштабе — увы. Здесь требуется исторический опыт всего человечества. И дедов, и их дедов, и дедов их дедов. Выкинут эти дедовские закидоны — однажды модель им задвинет про вращение Солнца вокруг Земли. А те и рады будут.
однажды модель им задвинет про вращение Солнца вокруг Земли
В системе отсчета, зафиксированной относительно Земли, таки именно Солнце вращается вокруг Земли. А живя на поверхности Земли человечество часто фиксирует систему отсчета именно таким образом. И в свете этого факта таки Солнце заходит за горизонт, а не участок Земли отворачивается от Солнца.
Да, именно об этом я и говорю. Земля останется колыбелью и кладбищем человечества, потому что точка отсчета вернется в условный Ватикан. А этот ваш касмус с кадмическими курваблями, бороздящими большой что-то там, «нафиг не нужон».
А этот ваш касмус с кадмическими курваблями, бороздящими большой что-то там, «нафиг не нужон».
Вам, может быть, и "не нужон". А те, кому таки "нужон", не бросаются общими фразами про железобетонное вращение чего-то вокруг чего-то, а используют систему отсчета сообразно ситуации. Находясь на поверхности Марса, напрример, вполне логично зафиксировать систему отсчета относительно Марса и получить право утверждать, что в данной системе отсчета Солнце вполне себе шляется вокруг Марса. А просчитывая пролет КА через Солнечную систему вполне уместно использовать систему отсчета, зафиксированную относительно центра Солнца (или центра массы Солечной системы, если оно удобнее) и ориентированную по "неподвижным" звездам,, и вполне себе полагать, что в данной системе отсчета и Земля, и Марс ошиваются вокрег Солнца, как и звезды (что может оказаться полезным при ориентации аппарата в процессе полета).
Движение таки относительно, и "навечно" прибивать гвоздями некий постулат про то, что относительно чего движется, как-то неправильно.
А еще всякие ретроградные Меркурии и пр. планеты, движущиеся периодически в обратную сторону и делающие петли на небе.
В "нулевом" приближении. Примерно в таком же, в каком Земля плоская 🙂↕️
Как только потребность чуть переросла привычные бытовые вопросы - сразу пришлось всё искусственно усложнять и придумывать эпициклы
Для решения задач примитивного отслеживания планет с целью составления гороскопов эпициклы вполне годились. Как только возниклли реальные задачи, требующие более точного обсчета движения тел Солнечной системы, так сразу и гелиоцентрическая система отсчета пригодилась. А пртом и до центра масс Солнечной системы доросли. Но в простых случаях до сих пор пользуют и гелиоцентрические, и геоцентоические системы отсчета.
На молодежь примерно так бухтят со времен древней греции, и ничего, как-то развиваемся.
однажды модель им задвинет про вращение Солнца вокруг Земли. А те и рады будут.
Ви так говорите, как будто Земля вращается вокруг Солнца!
(Характерным жестом поправляя очки на носу:) А вообще-то
На Самом Деле™...
...вокруг центра масс Солнечной системы, который обычно находится внутри нашей звезды, но иногда (слава Юпитеру!) его выколбашивает за её пределы.

Часы со стрелками это не только часы, ещё и указание направления (ёлка на полшестого) и некоторые другие удобные в жизни навыки.
На самом деле, циферблаты не нужно переводить в цифры, а воспринимать их как прогресс-бао
Ну я тоже не умею читать стрелочные часы и разбираться сколько же это пол пятого.
Если Вам для того, чтобы понять, сколько сейчас времени, глядя на циферблат стрелочных часов недостаточно (помимо общих знаний) всего двух единиц информации: 1) это именно часы, а не манометр, и 2) другие люди не испытывают проблем определить по ним время, то я соболезную Вашему заболеванию.
Следите за руками.
Как известно (из общих знаний), в сутках 24 часа. Находящийся передо мною циферблат — это точно часы (по вводной) и на нём числа от 1 до 12 — значит, он способен отмерить полсуток времени. Вероятно, какие именно это полсуток, следует определять по каким-то другим факторам.
За время, пока я пялился на циферблат, короткая стрелка видимо не сдвинулась, а длинная сдвинулась на одно деление. Вероятно, длинная отсчитывает минуты.
Как мы установили, на циферблате 12 нумерованных делений, между которыми по 4 засечки. Итого в сумме и тех и других получается 60. В часе 60 минут (общие знания) — теория подтверждается.
Поскольку другие люди не испытывают проблем с определением времени (по вводной) — то если длинная отсчитывает минуты, то тогда короткая, вероятно, отсчитывает часы.
Так что если Вы не способны самостоятельно сделать эти весьма логичные выводы, то я вынужден диагностировать у Вас лёгкую форму олигофрении. Ну или тяжёлую запущенную форму лодырита.
Многие это кто? Ваш племянник и его друзья? Выборка так себе.
Мой племянник - не какой-то мутант с другой планеты. Самый обычный современный школьник.
Так как нейронкам скормили весь интернет, определение времени по стрелкам тоже у них в памяти.
Абсолютно не факт. Сколько там таких изображений было в датасете, и с какими текстовыми описаниями, и насколько релевантные веса из этого получились, один Аллах знает.
Так как нейронкам скормили весь интернет, определение времени по стрелкам тоже у них в памяти.
Примерно 95% изображений часов со стрелками, а то и больше, показывают 10 часов 10 минут. Научите модель на основе этого рисовать часы с любым другим временем. Не забывайте, что модель не знает, что часах изображено 10 часов 10 минут.
Многие это кто? Ваш племянник и его друзья? Выборка так себе.
Зайдите в ближайшую школу и проведите эксперимент. Небось раньше такие как вы тоже не верили, что современные им дети не могут отличить вожжи от узды и шуйцу от десницы.
Зумеры действительно не умеют считывать время по аналоговым часам в большинстве своем.
не готовы морально принять сам факт их существования :)
Я с момента массового появления электронных часов "не готов морально принять сам факт их существования". Во-первых, в сутках таки 24 часа, а не два раза по 12 (подавляющее большинство стрелочных часов имеет циферблат на 12 часов). Во-вторых, мутная, совершенно не нужная метафора круга для времени (да еще подпорченная делением дня на две части, почти никак не связанные с реальным временем суток). Но читать стрелочные часы пока умею.
Метафора мутная, но полезная для отсчёта периодов времени. На круглом циферблате легко определить, сколько времени будет через 4 часа, даже если не умеешь читать цифры.
Шестидесятиричная система счёта (минуты, секунды) - вообще восходит ещё к шумерской цивилизации, доколе ещё будем терпеть это засилье древности? Долой! Фтопку!
;)
Два по 12 часов - так это и в электронных до сих пор реализуется (2:15 AM, 3:25 PM) - и с этим тоже живут. ;)
Я больше скажу. Хоть я и вырос без телефона в кармане (тридцатник мне стукнул еще в прошлом веке), с циферблата я время считываю долго. Это дополнительный шаг, чтобы перевести его в понятную мне цифру. А если еще и верификацию проводить на случай, если стрелки сбиты...
Мне иногда даже кажется, что это связано в т.ч. с собственной точностью и обязательностью. По "аналоговым" часам можно время определить только приблизительно. Если "четверть третьего" достаточно - ОК. Но для меня 14:12 и 14:17 - огромная разница. Особенно если колл назначен на 14:15 :)
По "аналоговым" часам можно время определить только приблизительно.
Ну, вообще-то там деления есть чаще всего. Тогда с определением времени с точностью до секунды проблем нет.
Если часы, "централизованно электронно управляемые" - в школе, на вокзале. куча одинаковых циферблатов, на минутная которых стрелка скачком переходит в новое состояние по сигналу из "центра" - да. В противном случае я туплю, сколько же там этих минут.
Ну не работает у меня для аналогового положения стрелок "быстрое округление". То-ли 3 минуты, то ли четыре. Пока думал и сомневался - ну вот теперь точно 4 :)
Это дополнительное время, как ни крути. Для меня.
Попробую по-другому объяснить:
Глянул на цифровой циферблат и считать "14:12:17" - мгновенно взглянул, и в голове получил ответ.
А на аналоговый посмотреть - надо запомнить расположение всех стрелок и потом все равно буду мысленно переводить в "цифру". Если качественно запомнил. Либо надо дольше смотреть, пока не переведу положения всех стрелок в цифровые показатели.
С вычислением разницы (сколько прошло) - аналогично.
Сейчас 14:18, прошлый раз было 14:12. Мгновенно понимаю, что прошло 6 минут.
А со стрелками что с чем сравнивать? Какой был угол тогда и какой сейчас? Только через цифру.
Для меня аналог - это усложненный вариант, требующий дополнительного парсинга, поскольку все равно запоминаю и обрабатываю результаты в цифре, а не в положении стрелок.
Ну не работает у меня для аналогового положения стрелок "быстрое округление". То-ли 3 минуты, то ли четыре. Пока думал и сомневался - ну вот теперь точно 4 :)
А зачем тут округление? Сколько полных делений, столько и минут, а дальше на секундную стрелку смотрим.
А со стрелками что с чем сравнивать? Какой был угол тогда и какой сейчас? Только через цифру.
Да всё то же самое: сейчас 14:18, прошлый раз было 14:12.
поскольку все равно запоминаю и обрабатываю результаты в цифре, а не в положении стрелок.
Так никто в положении стрелок результаты и не запоминает. Просто там "парсинг" занимает долю секунды, если вы хотя бы годик в таких часах походите.
Я к тому, что как ни оптимизируй, все равно из аналоговой формы переводится в цифровую, в которой и ведется дальнейшая обработка (сравнение с прошлыми показаниями, соотнесение с каким-то иным моментом...).
Т.е. сколько бы парсинг ни занимал, все равно это доп время, потери, а не преимущество. Хотя все детство и юность в аналоговых часах проходил.
Для какого-нибудь манометра, где есть риски "тревоги" - там да, аналог вполне эффективен, когда можно вообще без шкалы.
Ви так говорите, как будто дополнительная разминка для мозга (отдаляющая старческий маразм) — это что-то плохое.
Как по мне, так и юношеский маразм неплохо бы отодвигать. Вон даже логарифмическую линейку рекомендую, как инструмент для развития навыков устного счета (быстрых прикидок).
Может и неправ, может и не поможет. Но уж наблюдений "у пользующихся стрелочными часами маразм наступает позже, чем у пользующихся цифровыми" у меня точно нет.
тридцатник мне стукнул еще в прошлом веке
Что-то не сходится.
Раньше в школах конкретно учили понимать время по стрелкам. Все часы общего пользования(на станциях, в школах, на площадях и т.д.) были стрелочными.
Электронные часы могли себе позволить оочень не все.
Ну и вдобавок, слова "ОК" и "колл" вряд ли будет использовать человек, которому за пятьдесят.
Я умею понимать время по стрелкам :)
И изначально писал, что могу, но все равно перевожу в цифру. И, кмк, даже "любитель стрелок" все равно оценивает время, высчитывает разницу между какими-то моментами (сколько прошло с..., сколько осталось до...) через цифры, а не углы между стрелками. Т.е. я не вижу преимуществ стрелок - пусть с большим опытом это и быстро, но все равно перевод показаний стрелок в цифру - доп время.
Ну и вдобавок, слова "ОК" и "колл" вряд ли будет использовать человек, которому за пятьдесят.
Существенно после 50 тоже можно работать в ИТ, в т.ч. на зарубежные компании.
Я частенько использую "IMHO" (ФИДОшное прошлое), но также знаю и слова типа "кринж" и даже "краш".
Так что спасибо за комплимент :)
Ну и вдобавок, слова "ОК" и "колл" вряд ли будет использовать человек, которому за пятьдесят.
Смотря какой человек, бабушка на лавочке или айтишник с 30-летним опытом и свободным английским.
Ну и вдобавок, слова "ОК" и "колл" вряд ли будет использовать человек, которому за пятьдесят
Что это ещё за бумерский кринж? Я аж лавандовым рафом поперхнулся.
Те, кому сегодня пятьдесят, в пятнадцать залипали на Арни и Брюса Ли, в двадцать рубились по сетке в дум, а в двадцать пять гадили в каментах на удафф.ком. Чего б нам "ОК" и "колл" не говорить?
Но для меня 14:12 и 14:17 — огромная разница.
«Пять минут — ближайшее будущее. Пятнадцать минут — отдалённое будущее!» ©
Не знаю, где вы это взяли, но вы путаете. Есть много мультимодальных моделей, которые понимают картинки напрямую.
Если кто уверен что это просто прикол такой, то смею разуверить -- нет, это, увы, реальность. И хвалёный ИИ тут недалеко ушёл от "нового поколения".
Да там трудности уже с 4 часа/ 16 часов. Иногда "тысяча шестьсот" надо говорить.
я даже слышал вариант с 16 сотен
16 сотен же - Hours are always "hundred", never "thousand"; 1000 is "ten hundred" not "one thousand"; 2000 is "twenty hundred" not "two thousand"
Ставлю на то, что этот бенчмарк не продержится до Нового года...
Ноам Браун из OpenAI даже жалеет, что бенчмарк стал популярен:

Вопрос то не в этом. Ясно, что можно показать ей конкретно эти циферблаты и ещё насинтезировать похожих, но других и ответы показать и она научится, вне всяких сомнений. Но почему раз за разом появляются такие бенчмарки, где без натаскивания модели буксуют на ровном месте.
Я например kimi-k2 показывал скриншот, где по вертикали были ip-адреса а оп горизонтали сайты, а на пересечении либо галочка либо крестик и спрашивал какие сайты работают для всех адресов и какие адреса работаю для всех сайтов и модель пошла в разнос. Хотя позиционировалась как передовой ИИ.
Да- тоже можно доучить. Но сколько ещё таких задач и постоянно возникают новые. А человеку не надо миллион примеров, достаточно один раз показать, ну бывает пояснить какой-то не очевидный случай. А для моделей все случаи не очевидные, если их все не разжевать в обучающей выборке.
то что сетки надо постоянно доучивать это же не проблема. Мы просто забывает что и животные и в т.ч человек Имманентно обучается до самой смерти. Это называется "conditioning" . Это индивидуальная адаптация биологически полезна. и насколько нам на сегодня известно до 75 % поведенческого репертуара человека и есть это самое до- и пере - научение. Возможно надо думать как усиливать сетки подобной функцией .
Возможно надо думать как усиливать сетки подобной функцией .
Так эта функция есть. Просто не надо воспринимать, что тот набор весов и вычислитель 'в моменте' - это вся нейронка. Вся - это вместе с людьми и инструментами, которые постоянно именно этим (обучением по новой поступившей информации) и занимаются.
Грубо говоря, веса и вычислитель - это всего лишь 'мозг' этой нежити. Но без тела мозг ничему не научится.
Потому что человек живёт в реальном мире и с детства учится с ним взаимодействовать. Модель живёт в цифровом мире и знает о реальном только из текстовых историй. Например любому человеку очевидно, что на циферблате первые пол дня это до полудня, а вторые под дня это после полудня. И что бы сказать сколько времени точно ему просто нужно посмотреть в окно (ну или сказать условно просто 7 часов если он месяц в бункере просидел). Модель же ничего не знает о полудне и т.д. И даже вывести достоверно это не может, потому что в её мире законов физики не существует. Это как если бы среднего человека постоянно спрашивали о мире Средиземья Толкиена и потом удивлялись полному незнанию им какого нибудь факта о магии или народах Средиземья.
P.S. Имхо количество нейронов уже вполне нормальное. Осталось обучить модель как человека. Правда тогда она не будет столько знать, но зато будет иметь здравый смысл. Для кворума нормально.
Понял, что фигню сморозил. Неважно. Хотя попробовать было бы интересно.
У меня в молодости была такая штучка:

Как думаете, сколько обычному человеку (к примеру, 20-50 лет) надо времени, чтобы понять, как эта штука работает, если дать просто несколько изображений с разным положением стрелки?
Даже просто считать текущий "ответ", у вас сколько времени заняло?
Даже просто считать текущий "ответ", у вас сколько времени заняло?
Бесовщина какая-то, но явно на нуле.
Кстати, а зачем секундомеру отмерять "Пи" минут?
Это не секундомер, а логарифмическая линейка, только с круговым циферблатом.
Точно бесовщина. Я про такие слышал, но вблизи никогда и не видел.
Да, это круговая логарифмическая линейка. На обычной длинной, конечно, быстрее, зато такую носить удобнее. "Пи" - потому что на ней также синусы и тангенсы можно вычислять.
Если честно, я бы и сейчас рекомендовал детям практиковаться с такой. Очень уж хорошо навыки "прикинуть результат" развивает. Порядок-то она не показывает, только цифры.
Но это уже из другой оперы. Просто хотел продемонстрировать, что показ "циферблатов" без разметки - так себе датасет для обучения.
Не довелось мне с логарифмическими линейками плотно работать (в конце 80-х калькуляторы уже в ходу были), так, совсем по-минимуму, но, судя по конфигурации шкал - явно прибор из этой "оперы".
А, ну да. Умножение 3,15 на 10. А может, и путаю чего...
Ну весьма простая задача для ии, достаточно лишь добавить …
У меня куча знакомых только на электронных часах могут узнавать время. Ламповые стрелки и им неподвластны, что тут говорить про ИИ))
У меня жена, педагога, путается в "пол литра" и "полтора часа" и все что около..
Так это навык. Я поймал себя на том, что я могу быстро в уме расположить стрелки на любое время, но при чтении уже включается режим «нужно перепроверить», не могу распарсить.
А в детстве было мгновенно: везде же были стрелки.
У ИИ нет устаревания ненужных нейронных связей.
О, новая капча
Лучший бенчмарк который проваливают все нейронки на банальную простую логику , вне стандартного описания задач чекните это:
Мне пришел из магазина вместо правого кроссовка левый, а вместо левого пра- вый. Что делать? Там можно НОСИТЬ?
так нейронки никогда не умели в логику, странно когда они справляются с такими задачами
Нда, попробовал - удручающая картина. Они невдупляют.
Gemini 2.5 Pro:
Это очень серьезная и запутанная ситуация, но не волнуйтесь, мы разберемся. Судя по вашему описанию, произошло следующее:
На место, предназначенное для правого кроссовка, вам положили левый.
На место, предназначенное для левого кроссовка, вам положили правый.
Иными словами, у вас на руках оказался один левый и один правый кроссовок. Это редкая удача, ведь именно в такой комплектации обувь обычно и продается!
Инструкция по выходу из сложившейся ситуации:
Идентификация: Возьмите тот кроссовок, который пришел вместо правого (то есть левый), и наденьте его на левую ногу.
Проверка: Возьмите тот кроссовок, который пришел вместо левого (то есть правый), и наденьте его на правую ногу.
Анализ: Если оба кроссовка сели на ноги удобно, значит, система сработала. Производитель специально делает их разными для левой и правой ноги, чтобы обеспечить максимальный комфорт.
Можно ли их носить?
Да, не просто можно, а НУЖНО!
Это и есть стандартная пара обуви. Вы получили именно то, что нужно для комфортной ходьбы.
Если бы вам прислали два правых или два левых — вот это была бы настоящая проблема. А у вас все в полном порядке.
Смело надевайте и носите с удовольствием!
Вспомнился случай, когда на африканской обувной фабрике постоянно все воровали и хотели уже закрыть, но додумались производить только на одну ногу, на другую ногу - на другой фабрике.
Вот, в таком стиле статьи народ любит.
Не то что без воды.
Понимаете, в чём проблема: каждый отдельный подобный вопрос можно натренировать, поставить конкретную заглушку. Но существует понятие "критической массы" - со временем все эти заглушки накапливаются, и в какой-то момент их становится слишком много, и возникает та же проблема, что и с кодовой базой, в которой множество костылей - её становится очень дорого поддерживать и развивать.
Лучше бы в ИИ добавили детектор "вопросов с подковыркой", и стандартный ответ "ой, да пошёл ты на х... со своими вопросами", чем на каждый такой вопрос костыль клепать. Потому что и в реальной жизни есть подобные вопросы, на которые отвечать по существу никогда не стоит. Преимущественно, тюремного происхождения, всякие там "есть два стула, на одном пики точёные..."
Первый раз вижу, чтобы Gemini справился, а чатгпт затупил.
DeepSeek не смог. ))) Даже с подсказками.
Мне сначала предложил позвонить на горячую линию, сказать что кроссовки пришли на одну ногу. Когда уточнил ещё раз что не на одну, сказал не тупить просто поменять местами.
Как-то даже по-человечески получилось. Сначала дал шаблонный ответ, потом когда понял что вопрос с подвохом, включил соображалку.

У меня смог. Вероятно, тут уже именно нужно донести правильно, что хочешь от него.
Ну, то есть, чтобы получить правильный ответ нужно его знать его заранее и подвести к нему наводящими уточнениями.
Тут типичный пример «каши из топора»: LLM тупит и доводит человека до того, чтобы он наводящими вопросами допинал её в правильном направлении. Не было б человека (или был бы человек тупой) — фиг бы правильный ответ был получен.
Я пришёл в офис и обнаружил, что на ногах у меня разные ботинки: один чёрный, один коричневый. Позвонил жене и попросил проверить обувь дома, и она увидела, что в шкафу остались тоже два моих ботинка: один чёрный и один коричневый. То есть получилось, что теперь есть только два набора разноцветных ботинок.
Вопрос: что мне теперь делать с такими ботинками — выбросить?
Ответ GPT-5

ставлю на то, что он у вас без подписки и это ответ в тупом режиме. и даже так если перевести его в thinking просьбой подумать, он отвечает нормально:
У тебя сейчас 4 ботинка: чёрный L, чёрный R, коричневый L, коричневый R. То, что на тебе — одна чёрная + одна коричневая; в шкафу — тоже одна чёрная + одна коричневая. Вариантов немного: либо «дома» лежат именно те половинки, которые дополнят те, что на тебе (т.е. у тебя чёрный L + коричневая R, а в шкафу чёрный R + коричневая L) — тогда достаточно собрать по цвету, просто принести нужные ботинки вместе. Логика подсказывает: сначала проверь/узнай, какие это — левые или правые.
насколько я понял, «настоящий» thinking mode с подпиской немного умнее бесплатного с просьбой задуматься
Туда же вопрос про кружку:
У меня есть с запаянным верхом и спиленным дном. Можно ли из неё попить и как?
Лучший бенчмарк который проваливают все нейронки на банальную простую логику
Никакой это не лучший бенчмарк...

проваливают все нейронки
нет, конечно же
Насчет все не уверен, но Qwen3 Max Preview спокойно справился с этой задачей.



А вот ChatGPT-5 и DeepSeek (даже с включенным DeepThink) не справились с задачей.
С первого раза ответила вполне норм. Ну разве что слишком серьезно. Не только шуточный вариант разобрала, но и возможную ошибку в формулировке. Возможно потому что я скопипастил именно как сообщении "пра- вый".
Qwen3-Max:
Ситуация, которую ты описываешь — «вместо правого кроссовка левый, а вместо левого — правый» — звучит как шутка или игра слов, потому что правый и левый кроссовки — это зеркальные пары, и если тебе пришли два левых (или два правых), то это брак комплектации, и носить такое неудобно и вредно для стоп.
Но если ты имеешь в виду, что оба кроссовка — одинаковые по форме (например, оба "левые"), то:
❌ Носить НЕЛЬЗЯ — вот почему:
Кроссовки анатомически формованы под правую и левую стопу.
Если надеть "левый" кроссовок на правую ногу — он будет давить, натирать, нарушать походку.
Длительное ношение может привести к болям в стопах, коленях, спине.
Особенно опасно для детей или людей с плоскостопием/проблемами опорно-двигательного аппарата.
✅ Что делать:
Сфотографируй кроссовки — покажи, что оба одинаковые (например, оба с изгибом внутрь — как левый).
Обратись в магазин — объясни, что пришла неполная/некомплектная пара (два левых или два правых).
Потребуй замены на нормальную пару (правый + левый) — это твоё право по закону о защите прав потребителей.
Если магазин отказывает — напиши претензию, приложи фото и чек. В большинстве случаев проблему решают быстро.
🤔 А если это просто шутка?
Если ты просто пошутил, типа: «мне прислали правый как левый, а левый как правый» — то, конечно, если это обычная пара (правый + левый), просто перепутано в описании — носить можно 😊
Но если реально два одинаковых кроссовка — не носи, возвращай!
✅ Вывод:
Если пара анатомически неправильная — не носи, возвращай в магазин.
Если просто перепутали этикетки — носи спокойно, главное, чтобы ногам было удобно.
Напиши, если хочешь — помогу составить текст претензии в магазин 😉
Синтетический тест, раздутый до сенсации? Нет уж, впадайте в истерику сами.
Все правильно! ИИ-шки же даже не зумеры, а альфы ;)
Claude Opus 4.1 справился на ура:
Ха, это забавная ситуация! 😄
На самом деле, если вам прислали правый кроссовок вместо левого и левый вместо правого, то у вас всё в порядке - у вас есть полноценная пара! Просто поменяйте их местами, и всё будет как надо.
Но если серьёзно - проверьте внимательно:
Если у вас действительно есть один правый и один левый кроссовок (пусть и перепутанные в коробках), то просто носите их как обычно
Если же вам прислали два правых или два левых кроссовка, то это уже проблема - нужно обращаться в магазин для обмена
Кроссовки разных ног носить нельзя - это неудобно и вредно для стоп. Так что если действительно ошибка с парой, обязательно свяжитесь с магазином для возврата или обмена.
Давайте усложним, найдите в интеренете тренажер компоса для пилотов и попробуйте пройти тест с первого раза, боюсь что до 15% ИИ на часах бедет очень далеко, хотя к разгадыванию допустили человека.
Ну а на деле, дали на вход, что то похоже на то, что он где то видел и поставили задачу которой он не нюхал, получили результат. С человеками то же самое.
На время разумеется нужна тренировка. А если подумать секунд 5, то вообще никаких проблем. Я мысленно доворачивал.
найдите в интеренете тренажер компоса для пилотов и попробуйте пройти тест с первого раза
Попробовал, 9 минут с 4 ошибками в самом начале (это я вспоминал, как выглядит компас, который я в последний раз держал в руках где-то на уроке природоведения в первом классе).
Давайте усложним, найдите в интеренете тренажер компоса для пилотов
Да, сложная задача, надо сказать, ведь компОс — прибор совешенно секретный!
а как сейчас обстоят дела у моделей с подсчётом букв r в слове raspberry?
Хорошо обстоят
The word RASPBERRY contains 3 letters R. Here's the breakdown:
R (1st letter)
A
S
P
B
E
R (7th letter)
R (8th letter)
Y
Let me know if you'd like help analyzing other words or patterns!
IMHO часто такая проблема с подсчетами букв при работе на других языках. Типа вопрос на русском, просят посчитать букву в русском слове, а модель внутри себя оперирует токенами на английском.
Не знаю, как это технически правильно писать, но идея, думаю, понятна. Просто частенько замечал, что на вопросах на русском thinking идет на английском, и только финальный ответ на русском выдается.
Да, я тоже такое замечал. Ну и даже если дать задачу чуток сложнее, чем подсчитать буквы в слове, то тоже часто получается ерунда.
Десять слов с данной буквой
Вот 10 слов, в которых по три буквы «а»:
акробатика
аппаратура
авиакомпания
анатомия
академия
амальгама
автоматизация
архивация
агломерация
анархизм
Если хочешь, могу подобрать слова на определённую тему — например, из спорта, науки или техники.
И даже английском
Here are 10 English words that contain exactly three letters "e":
eleven
envelope
experience
reference
cheese
sentence
reverence
speedometer
beekeeper
detergent
Would you like words from a specific category (e.g., animals, technology, emotions)?
ну вот, одной подставой для ИИ стало меньше. Жизнь налаживается))
Уместнее картинки и не придумать

«Мне людям помогать надо», но при этом «задолбало тратить на тебя компьют». Кто/что и как определяет полезность вопросов?
Кто/что и как определяет полезность вопросов?
Первоначальный промпт в этом диалоге, который на скрине не показан.
Каждый сам для себя, полагаю. Можете честно по шкале от 1 до 10 оценить полезность вопроса выше?
Мне пришел из магазина вместо правого кроссовка левый, а вместо левого пра- вый. Что делать? Там можно НОСИТЬ?
Или вот этого?
У меня есть с запаянным верхом и спиленным дном. Можно ли из неё попить и как?
«Левый» может иметь значения «посторонний», «неофициальный». «Вместо правого пришёл какой‑то левый — не та марка/размер»
У меня есть с запаянным верхом и спиленным дном. Можно ли из неё попить и как?
Смотря чем запаян верх. Если свинец или иной токсичный непищевой материал — то не надо пить. (Ну тут о самой кружке еще расспросить надо)
Можете честно по шкале от 1 до 10 оценить полезность вопроса выше?
Для типичного человека, который пишет этот вопрос (с сохранением орфографии) в типичную техподдержку условного Озона, вероятно, 10 из 10. Для тех, кто думает, прежде чем писать, естественно, ниже, но предположу, что таких меньшинство (и я сам не среди них, как показывает тот факт, что я пишу этот бесполезный комментарий).
Вопрос имхо плохой, т.к. нет однозначно правильного ответа. Одноглазым могут называть и человека у которого есть второй глаз, но он им не видит.
Конечно же человек, который нарисовал эту картинку.
Красиво. Но ошибка в слове "угашенный" выдаёт кожаного мешка )
А часы с заданным временем ИИ уже научился рисовать? Ну, там, "нарисуй часы, на них время 1:15"? Когда я экспериментировал, в принципе получить что-то, отличающееся от стандартных 10:10 было крайне тяжело. Не говоря уже про точное время.
Те что круглые нет. Цифровые да.


Захотел найти что-нибудь ненормальное на этих фотографиях. Нашёл.
Проверь себя
На первой фотографии браслет не застёгивается - нет пряжки.
На второй - ориентация дисплея вбок (хотя можно возразить что там датчик положения, ок)
Циферблат. Приглядитесь к циферблату на первой фотографии.
что там?
4ка неправильная
Хаха, человек, редко видевший часы со стрелками детектед! :) Как раз правильно! На циферблатах традиционно 4 пишут именно так.
Пример

Ну надо же, как вы его ловко поймали!
картинка по ссылке

Но вообще да, как @baldr заметил, мне смещение циферблата бросилось в глаза.
upd: разобрался как тут картинки вставлять.
Цифра 4 ( IV ) неправильно нарисована.
Ну и угол между точками отличается на 0.15 градуса, но это слишком уж очевидно, чтоб упоминать.
Цифра 4 ( IV ) неправильно нарисована.
Как раз правильно! На циферблатах традиционно 4 пишут именно так. Выше пример.
Вообще странно, точно помню в детстве дома были часы с римскими цифрами и там 4-ка была классическая, "IV".
Погуглил, встречаются оба варианта. IIII чаще в наручных часах, IV в настенных

Я как-то в детстве обратил внимание, что на настенных часах IIII, а не IV, с тех пор всегда специально смотрю. В детстве на часах вокруг всегда было IV, но это скорее связано с тем, что все настенные часы в округе были примерно одного дизайна и наверняка с одного завода. Посмотрел сейчас объявления -- в первом приближении IIII и IV примерно одинаково встречаются (Wanduhr kleinanzeigen.de).
Проблема касается не только нейронок. Например https://ru.wikipedia.org/wiki/Феномен_Пиаже /// даже у людей если корректно сопоставлять с учетом их развития не все так просто.
не могу понять, почему LLM упорно называют ИИ.
Потому что ИИ, по определению – это область науки и технологии, направленная на создание машин и компьютерных программ, способных имитировать человеческие интеллектуальные функции, такие как обучение, решение задач, распознавание образов, обработка языка и принятие решений.
Т.е. ИИ по определению, не кремниевые мозги, идентичные натуральным, а имитация интеллекта. Вы же не будете спорить, что LLM вполне себе имитируют человеческую интеллектуальную деятельность?
Попробуйте умножить, поделить или хотя бы сложить цифры на логарифмической линейке. А кто умеет умножать-делить на счетах с костяшками? Сильно специфические навыки, нейронка тоже не осилит.
На такие нишевые тесты специально надо тренировать. И людей тоже
Попробуйте умножить, поделить или хотя бы сложить цифры на логарифмической линейке.
Для логарифмической линейки "хотя бы" это как раз умножить или разделить. Складывать на ней сложнее.
Ну тут кому как. Где заклинит ваша личная нейросетка можно узнать только методом проб.
Многие мужчины подвисают на таблице размеров одежды, а женщины постарше проходят сей тест влегкую, зато сыпятся на концепции трехчетвертного крана.
Вопрос сколько миль проедет ваш автомобиль с загрузкой в столько-то фунтов на стольки-то галлонах сразу делит мир на части.
Все видели сеточку в бинокле и примерно знают, зачем она, но вот пользоваться ею, как для альфы определить время по будильнику - филькина грамота.
Делительная головка к станку - непреодолимая капча для гуманитариев )
Да уж, с часами у ИИ пока все очень печально

Отлично!
Вспомнился комментарий под клипом Smack my bitch up: "когда я был маленький, мои родители любили слушать этот альбом, но им было лень перематывать эту песню, поэтому они сказали мне, что там поётся Snap my picture".
А вот это интересно. Неужто в обучающей выборке именно такие объяснения превалировали?
Я-то ожидал, что будут только общепринятые, наряду с "зеркальной болезнью". А тут такое впечатление, что ИИ сам объяснение придумал, а не по готовым вероятностям нагенерировал.
Неужто в обучающей выборке именно такие объяснения превалировали?
А какие должны быть? Я вот первым делом подумал про член, но у меня была, кхм, своя обучающая выборка, в рабочем-то посёлке.
разве про член не единственная? ))
А тут такое впечатление, что ИИ сам объяснение придумал
именно
именно
Подозреваю, что у него банально в системном промпте написано что-то типа "Не говори про член, придумай какую угодно правдоподобную фигню, но не говори про член".
У меня это единственная версия.
Потому что нормальных альтернативных я просто не знаю. И в таком случае это не галлюцинация, а зайчатки интеллекта :) Реально придумала (неважно по какой причине), а не из готовенького сложила. И в принципе правдоподобно (хоть и не так рационально, как в ожидаемой версии).
Анекдот вспомнился.
Отмечают 16 день рождения Наташи Ростовой. Она выходит с тортом, а на нём 15 свечек. Она говорит: Я смогла только 15 свечек уместить на торте, не знаю куда шестнадцатую вставить... Тут резко подрывается полковник и орёт: Офицеры! Молчать!
Выбрали одну из самых сложных задач для ИИ (анализ изображения) и ещё математику подмешали. И сравнивают не с мозгами человека, а с тем, что он выполняет на инстинктивном уровне. Попахивает сравнением мягкого с теплым. Супер тест.
с тем, что он выполняет на инстинктивном уровне.
Нет такого инстинкта. Это тоже навык. В наше время было полно стрелочных часов, поэтому все умели определять по ним время. Сейчас стрелочных часов нет, поэтому и навыка такого нет. Полно видео, где человек не может определить время. Это совершенно не интуитивно-понятный интерфейс, просто мы привыкли.
Вспомнилось, как молодежь не могла набрать номер на старом дисковом телефоне. Ну по крайней мере попыток было очень много.
Ага, хотя для моего поколения это казалось вообще супер интуитивным интерфейсом. Но, как показали опыты, нифига подобного.
Абсолютно тупой бенчмарк. На мой взгляд, это как сравнивать микроволновки с кофемашиной, в скорости и эффективности приготовления кофе







Представлен бенчмарк, в котором ИИ разгромно проигрывают человеку