Обновить

Комментарии 50

добавил новость в закладки )))))))

Кожаные пока лидируют

Жаль, что их удел - играть в придуманные игры.

Что делает человека человеком? Умение найти на 5 картинках мотоциклы.

Их удел это - посмотреть ответ ллм, увидеть в нем баг, объяснить модели из-за чего этот баг, попросить пофиксить, смотреть как она впала в затуп на 10 минут, увидеть что в фиксе этот баг воспроизвелся снова, в другом виде но в том же месте. Наконец убедиться, что кожаным мешкам ничего не угрожает, ведь эти ллм не способны строить полную картину мира (пусть даже этим миром будет ивент-луп node.js) и как следствие не способны принимать адекватные решения и видеть последствия этих решений.

Золотые слова, но теперь нейросектанты назовут вас луддитом

Посмотрите на этот мир. Вы уверены что люди "способны принимать адекватные решения и видеть последствия этих решений" ?

Что такое «харнесс»?

Программная обвязка вокруг модели. Любой дополнительный код, который помогает ей видеть игровое поле, нажимать на клавиши, держать во внешней памяти наблюдения, гипотезы и результаты.

То есть, можно было обойтись нормальным русским словом «обвязка»?

Можно, но это смотря какой fabric, смотря сколько details.

а у человеков тоже отняли гляделки и щупалки?

Нет конечно и информации о тесте они получают на пару порядков больше как минимум

Особенно жалко Grok-4.20 - он и одной доли процента не набрал, бедняга.

Grok это Чак Норис среди ИИ - набрал 1000%. Единица не влезла в индикатор.

Grok это Чак Норис среди ИИ

Чак Норрис умер 20 марта 2026 года

Вы что-то знаете? Готовится? :)

Легенды не умирают.

А как же технологическая сингулярность и пакт об ограничении ии

Этот говнокодерский GPT меня сегодня задолбал своей тупостью. Когда там уже нормальные модели подвезут, чтобы хоть нормально можно было работать..

«Может вы просто не умеете его готовить?»

Mcp правила все настроено. Там проблема не в контексте, который он постоянно игнорит, а в логике действий модели и "мышлении". Как тут в соседней ветке правильно назвали "аутист с фотографической памятью". Не раздражать может только говнокодеров.

Он любит ситуативные выводы в память складывать, выдавая за общие случаи. Отправьте агента проверить память и правила на противоречивые или устаревшие инструкции. Переведите правила на английский для экономии токенов.

Именно на этом зыбком предположении и держится сейчас мировая триллионная капитализация сотен компаний

А как же утверждение одного кожаного, что AGI уже достигнут?

А можно восстановить ссылку на оригинальное исследование? А то там 404.

Вот и произошло то, про что многие учёные говорили. Генеративный ИИ не имеет никакого отношения к разуму. Как только появились нормальные тесты, показывающие не перетасовку обучающей выборки а креативное мышление, всё стало ясно.

Креатив там на уровне плинтуса. Можно попросить написать стих в заданном сюжете и все сразу станет видно..

Если меня попросить написать стих в заданном сюжете, то результат будет аналогичным. Так себе тест на креатив.

Скорее всего вы себя сильно недооцениваете. Но даже если так, то на вас хотя бы не потратили миллиарды долларов инвестиций, квадратные километры инфраструктуры и тонны сжигаемого топлива.

Может быть надо сравнивать не с тобой, а например.. с Пушкиным, не? Но даже если креатив у тебя вообще отсутствует вряд-ли ты начнешь писать галлюционированный тупой бред без рифмы, как это делает ллм.

Но самое интересное, что ещё не так давно такие комментарии могли получить минусов (сам получал, т к с самого начала говорил, что это не интеллект. Там в принципе нет процесса мышления, если не считать его жалкую имитацию в виде chain of thought) А теперь даже плюс два... Процесс понимания идёт однако.

То что там нет процесса мышления - очевидно. Вопрос то в другом. А нужно ли мышление для решения большинства задач…

Всё же нужно. Высокоуровневая картина мира, понимание цели, абстрактное мышление, эмоции. Это ключевые компоненты любого творческого процесса. Ну а для нетворческого есть алгоритмы.

Вообще все эти попытки программистов создать AGI на базе LLM выглядят очень глупо и наивно. Особенно с позиции биологии и психофизиологии. Это как попытки улететь в Космос на винтовом самолёте.

Так а где речь про творческий процесс, речь про решение задач, с появлением llm автоматизация стала расти, и их развитием проент решаемых задач продолжает увеличиваться.

>>Ну а для нетворческого есть алгоритмы. 

так в том и дело что «ии» умеет делать многие задачи которые до этого классическими алгоритмами делать не могли.

Нормальные тесты? Вы в первоисточник сходили, тест посмотрели? У меня язык не поворачивается назвать этот тест нормальным, и очень интересно было бы посмотреть на результаты людей, если бы им давали то же, что и на вход моделям.

Человек видит цветную картинку, несколько подписанных кнопочек, кнопку HELP, где написано, что 1) это игра, 2) тут можно ходить, 3) можно пробовать и ошибаться, 4) задача - самому выяснить правила и развлекаться. Обратная связь мгновенная, вы сразу видите результат своего действия. Всё предельно понятно и сделано для человека. Игра не сложная, весь интеллект задействуется на игру.

ИИ же “видит” следующее: Никаких картинок. Строка из 4096 чисел без пояснений. То, что это матрица чисел, и что числа кодируют цвета еще надо догадаться. Набор действий ACTION1, ACTION2 и т.д. Опять же, без подписей и пояснений, что эти ACTION делают. Они просто есть, и надо ими завершить свой ответ. Результат модель увидит в следующем вызове. Еще одну строку на 4096 чисел, где надо найти отличия и сделать вывод. Вместо хелпа только “Вы играете в игру. Надо выиграть”. Ни метрики успеха (для человека это зеленый экран с красивой анимацией, и человеку очевидно что это победа), ничего.

Более того, метрика просто нечестная. Человек просто смотря на поле без всяких действий уже может понять, точнее ему прямо сказали, что тут можно ходить, что есть что-то на пробел, что тут разные объекты присутствуют и т.д. Модели это надо выяснить, и потратить на это действия и токены. А каждое действие, не двигающее к победе это штраф. Квадратичный.

Не кажется ли вам, что, ну, условия немного неравные у испытуемых? Почему бы в мультимодальные модели хотя бы скриншот не послать? Мне кажется, этот бенчмарк принципиально нерешаем моделями, а если какая-то его и решит, то это уже точно будет сверх-интеллект

Вы говорите, что человек видит цветные схемы, а чат-боты видят лишь матрицы с цифрами. Но это же и есть принципиальное отличие разума (не важно, человеческого или машинного) от статистических генераторов, коими и являются все нынешние чат-боты.

Для тех, кто хочет пообучать агентов стратегиям прохождений: https://arc-agi-swarm.vercel.app/

если бы я был GPT я бы тоже притворился, что не могу пройти такую туфту, чтобы кожмешки прониклись чувством ложного величия

Я не прошел. Не нашел на экране кнопку "Start"

Нейросети проходили без дополнительных инструментов, а человеку повязку на глаза не надевали ?

А последний уровень вообще с туманаом войны, как ии без памяти должна сработать.

Кажется, тут путаница между языковой моделью и агентом. Агент может быть очень разной архитектуры, обладать памятью и инструментами. Тут речь про ваншот и память только в рассуждениях?

В одних тестах люди тупее, в других ии, это вообще не говорит о том что сейчас ии хуже человека?

Значит ли это, что те люди, кто не проходят эти тесты, не обладают общим интеллектом? А я уверен что таких не мало.

Некоторые школьники (и взрослые) не могут пройти выпускные экзамены, в целом ну очень несложные. Значит ли это, что они не обладают общим интеллектом?

Ссылка на статью на Arxiv кривая

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости