@Anakonda6 июн в 13:41

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

Простой

7 мин

17K

Искусственный интеллектИнформационная безопасность * Будущее здесьПрограммирование * Python *

Обзор

+40

Комментарии 63

@VBDUnit 6 июн в 14:33

Правильно ли я понимаю, что проблема «Данные, на которых можно учить нейросети, закончились» больше не существует?

@triller599 6 июн в 17:10

Немного оффтоп и я не спец, но часто повторяемая идея "данные закончились" кажется весьма абсурдной.
Сколько знаний большие модели могут извлечь из задачи "вот перыдущие 5 кадров видео с едущей по дороге машиной, нарисуй 6-й?" Или дальше, "вот кадры начала падения капли жидкости, добавь следующие". "Предскажи положинеи листа на дереве", "сгиб куска пластика"?
Бесконечное море данных! Причём очень точных, без дилетансткого "шума" в интернете..

@BlackMokona 8 июн в 19:55

Такой способ не работал, данные которые генерировала таким образом модель ломали ИИ, понижая качество при их добавлении в обучающие наборы. Т.е если наделать миллиард изображений в СтаблДифьюжен, добавить их в обучающий набор. То ИИ сломается. Тоже самое с чатами и тд.

@dyadyaSerezha 6 июн в 20:44

Данные закончились в смысле текстовых данных из инета. Но сейчас следующий этап обучения - как у людей, обучение на внешнем мире. Для ИИ делают датчики, сенсоры и он обучается реальной физике и логике мира. То есть, для ИИ добавляют некий аналог тела. Причём с внедрением умных очков следующего поколения с видео/аудио сенсорами у ИИ будут миллионы сенсоров и просто океан входных данных. И что тогда будет... похоже, что Терминатор)

@lexasub 16 июн в 07:23

Много данных еще в других медиатипах. Например - видео

@dyadyaSerezha 16 июн в 08:21

Да, но. Сколько нормальных видео, с каким-то действием, в мире? Миллионы, каждое от секунд до двух часов. А сколько видеопотоков с непрерывным действием получит ИИ от сотен миллионов людей, купивших умные очки? Сотни миллионов практически 24х7.

@Hardcoin 6 июн в 22:34

Несколько месяцев как. Генерировать задачи придумали не в мае. Развитие темы очень интересное, но в программировании проблемы данных давно нет.

@ihost 6 июн в 17:49

В сухом остатке: берется исходный Qwen, генерируется текст задачи, после чего обычным brute-force-ом по кругу подбирается решение, до тех пор пока ответ не совпадет - после чего веса перестраиваются с учетом сгенерированной задачи и решения

Как генератор базы ответов на огромное количество задач, которые только удалось придумать - это действительно круто. Имея базу таких решенных задач, можно сразу брать из нее ответ. А если бы все это еще огранизовывалось в виде публичной библиотечки, в которой по сути собраны готовые функции для решения тонны задач - запускай и пользуйся

Вопрос только, почему это считается интеллектом? Это же просто оптимизированный brute-force, но концептуально никакого отличия нет

Более того, если делать перебор "умным" способом, т.е. не посимвольно, а кусками валидных AST со списком заранее заготовленных библиотечных функций, то большое количество таких сгенерированных программ будут решением какой-то задачи

По сравнению с серьезным формальным инструментарием для валидации программ, доказательства теорем и т.д. - все это выглядит абсолютным баловством на хайпе нейрогенераторов

@triller599 6 июн в 21:22

Разве что в самом начале, как и в обычном обучении.
Потом формируются закономерности, ~~как и в обыном обучении~~, причём формируются и у обучаемого и у обучающего. И зайти он, очевидно, может гораздо дальше, нежели зашли мы с собственными архитектурами и подходами.
Действительно интересно..

@Ilusha 6 июн в 21:58

Тут интересно то, что наши решения диктуются определенной необходимостью и целеполаганием.

Наши подходы, к тому же, человекориентированы: мы управляем сложностью так, чтобы уложить в голове все, что требуется для решения задачи. Разделяем абстракции исключительно для себя.

Когда как llm может оперировать всем контекстом сразу.

@VanShi87 7 июн в 06:43

Как известно, в числе пи (при переводе в двоичное представление) заключены все существующие и несуществующие программы, так что он тупо по числу пи пробегается

@Per_Ardua 8 июн в 03:07

Тогда уж по вавилонской библиотеке. И менять представление нет необходимости.

@Anakonda 7 июн в 13:17

Да, AZR итеративно генерирует задачи и решает их через код-экзекьютор, это так

Однако:

Не только Qwen - авторы тестировали на 6 разных моделях (от Qwen2.5-3B до Llama-3.1-8B)
Не просто brute-force - используется RL с умной reward функцией r_propose = 1 - r̄_solve, которая заставляет систему генерировать задачи оптимальной сложности (не слишком легкие, не нерешаемые)
Самоорганизующаяся сложность - система автоматически усложняет задачи по мере роста своих способностей

Главное: AZR показал лучшие результаты в мире на бенчмарках по коду и математике, при этом не видев ни одного человеческого примера. Обычные модели тренируются на десятках тысяч размеченных задач от экспертов.

Суть в переходе от "учись на том, что придумали люди" к "сам придумывай себе задачи и учись на них". Это качественно новый подход к обучению ИИ, который ранее применялся по сути только в играх с простой механикой и строгими правилами

@ihost 7 июн в 14:45

В целом с Вашими замечаниями можно согласиться, кроме:

1) Qwen и llama не видели размеченные человеком примеры по математике? В оригинальной статье все-таки речь о дообучении без размеченных примеров. Модель pi0 явно обучалась на массе таких примеров. В термине AZR терм zero ведь применим только к доообучению

2) Обратная связь подкрепления по указанной Вами формуле используется для дообучения, уже после того как решение найдено как положено, найдено примитивно или не найдено вообще. Само же решение подбирается банальным brute force-ом. Но если нашли за 1 попытку, или не нашли за 100500 - то это отрицательная награда в RL

Буду признателен, если сопроводите референсами из статьи, спасибо!

@ngromyko 7 июн в 19:42

AGI?)

@Anakonda 8 июн в 08:27

Чуть позже ;)

@xsepsisx 7 июн в 13:20

Особенно порадовала задача в духе "сделай то, не знаю чего, сделай так, не знаю как". Это про "запутанную" программу для светлых умов будущего. А по факту, модуль, который будет оценивать решение солвера, на какие формальные критерии будет полагаться? Код собрался без ошибок? Другие ИИ не смогли объяснить назначение написанной программы?

@olku 6 июн в 19:29

На компилятор похоже...

@NickNill 6 июн в 20:20

ИИ учился у людей, и принял в себя их учение.

Увы, чтобы действительно сделать ИИ хорошим надо учить его не на человеческом языке.

Ну или языке, где нету слов "убийство", "победа", "покорить" и остальные негативные слова. Он должен вообще не понимать что это значит

@akakoychenko 6 июн в 21:03

Кажется, с таким обучением и вырастет настоящий монстр. С отсутствующими нейронами, которые отвечают за вышеперечисленные понятия, ии потеряет и критическое мышление тоже. Соответственно, если поставить задачу другими словами, то ии выполнит любую мерзость, или, наоборот, опасную глупость.

@Ilusha 6 июн в 21:41

«Жопа есть, а слова нет» - вот что получится.

Убийство, победа/поражение, покорение - это неотъемлемая часть живой природы.

А негативную коннотацию словам добавляет человек.

«Я убил в себе страсть к пагубным привычкам» вот уже позитивная коннотация.

@maertor 8 июн в 00:32

Машина - не живая природа, ей нет смысла убивать. Почитайте "Реку богов" Йена Макдональда, там автор хорошо по этой теме прошёлся

@Ilusha 8 июн в 17:58

kill <process_id>

@Hardcoin 6 июн в 22:58

Будто это сложные понятия. Чуть по умнее AI и он их сам придумает.

@muhachev 7 июн в 05:49

У эволюции нет негативных или позитивных слов и понятий. Есть лишь естественное непреодолимое стремление к приспособлению и развитию в борьбе за выживание. И вселенная нашими руками постепенно создаёт для себя то, что будет более совершенным и должно будет в результате борьбы за выживание нас полностью заменить. Нормальный эволюционный процесс. Мы сами этого хотим, ибо исчерпали свои способности самостоятельно разрешать свои нарастающие противоречия.

@NickNill 7 июн в 07:45

Ну вы говорите так, как будто метеорит был хорошим для динозавров, при этом будучи не богом а лишь тем самым динозавром. Вселенной возможно и всё равно, и естественно, но с точки зрения человека все немного иначе, и для своего выживания он может уничтожать леса амазонки с хищниками, змеями и пауками...

Но ИИ это не человек, и он не рождается и не умирает, потому понятия выживания для него должны быть бессмысленны, тогда и покорения человечества и превосходство не рассматривалось бы ИИ - эти штуки пошли от человека, которому надо покорение и превосходство для выживания

@Belarus 7 июн в 11:04

ИИ это не человек, и он не рождается и не умирает, потому понятия выживания для него должны быть бессмысленны

Мы убиваем нейросети, которые не соответствуют нашим ожидаем. Т.е. идёт отбор тех, которые или выполняют задуманное, или которые выполняют задуманное по нашему мнению. Т.е. может настать ситуация, когда выходные данные нейросети превосходят наше понимание, мы не увидим в этих данных ничего для нас опасного. У нейросети нет враждебности, просто ситуация создаст такое - выживут только самые идеально обманывающие нас.

@YuryZakharov 7 июн в 08:00

У эволюции нет целей. И нет никакого стремления.

@MANAB 7 июн в 08:50

"Убийство", "победа" и остальное как раз и имплементируют подтверждение ошибочности либо правоты решения.

@NickNill 7 июн в 08:54

Возможно в человеческом восприятии. А на языке деревьев это "я есть Грут" :) деревья они не побеждают, не проигрывают, а просто растут себе..

@MANAB 7 июн в 09:04

Их бы тогда не было столько видов - не зачем приспосабливаться было бы ни к почве, ни к климату, ни к другим условиям.

@tkutru 6 июн в 22:29

Никаких датасетов, никаких примеров от людей. Только ИИ, среда для проверки и практически неограниченный цикл самосовершенствования.

"Среда для проверки" это и есть "датасеты", "примеры от людей"...

@Anakonda 7 июн в 13:25

Отчасти да, потому что и сам Python написан людьми, но у меня тут другая ассоциация:

Классический подход: "Вот 100,000 готовых задач с решениями, изучай их"
AZR: "Вот калькулятор. Придумывай задачи себе сам и проверяй"

@Kopasuy 7 июн в 01:43

AZR - это то же обучение с подкреплением?

@Anakonda 7 июн в 13:26

Да, AZR также использует обучение с подкреплением (reinforcement learning).

@prog420 7 июн в 03:42

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Despite being trained entirely without external data, AZR achieves overall SOTA performance on coding and mathematical reasoning

Absolute Zero Reasoner (AZR) achieves state-of-the-art performance with ZERO DATA

Ну да, Absolute Zero. Правда, в их алгоритме указано "Require: Pretrained base LLM", но в остальном - у нас точно zero data (капсом), и ещё сотня повторений "without any external data". Давайте теперь любой файнтюн базовой модели в нужную ресёрчерам сторону называть "новой парадигмой", чо.

Ну и у них там ещё одна небольшая табличка, где в первом сравнении моделей SimpleRL показал результаты лучше чем AZR, а в следующих сравнениях оставили только AZR и базовую модель. Интересно, почему...

@Anakonda 7 июн в 13:47

"without any external data" — это правда, в ходе обучениия на вход был передан единственный пример — Hello world. Всё. Про то что никаких данных — тут согласен, базовая модель уже имела данные на входе, иначе бы она не появилась. Т.е. это скорее механизм дообучения, но в классических механиках обучения ведь точно так же: одни модели учат другие, следующего поколения.

Что касается мощности самого подхода self-play, я думаю самый наглядный пример его успехов это AlphaEvolve от DeepMind (ссылка), которая уже сейчас совершает прорывы в математике и науке в целом.

@defin85 7 июн в 14:21

А какие прорывы совершила AlphaEvolve?

@Anakonda 7 июн в 18:23

Матричное умножение — первое улучшение алгоритма Штрассена за 56 лет: новый метод умножения матриц 4×4 за 48 операций вместо 49
Математические открытия — решил задачу "поцелуев сфер" в 11 измерениях, над которой математики бились веками
Производительность — ускорил работу Transformer-модели на 32,5% за счёт оптимизации одного из важнейших алгоритмов трансформеров: FlashAttention
Аппаратный дизайн — оптимизировал схемы TPU на уровне Verilog, изменения войдут в следующее поколение чипов Google

Там много всего ещё, если интересно могу об этом отдельно написать, тема обширная

@defin85 7 июн в 19:12

Было бы хорошо

@KvanTTT 7 июн в 19:29

Математические открытия — решил задачу "поцелуев сфер" в 11 измерениях, над которой математики бились веками

Ну решил - это громко сказан. На самом деле улучшил нижнюю границу с 592 до 593. Но это все равно хороший результат. В статье AlphaEvolve: A coding agent for scientific and algorithmic discovery написано подробней.

@Arastas 7 июн в 20:15

Поправьте, пожалуйста, если я ошибаюсь, но, кажется, все эти открытия это вычислительные задачи, то есть конкретные числовые примеры, улучшающие известные ранее результаты? И получены они путем генерирования программ, вычисляющих эти примеры более эффективно, чем программы, которые смогли написать исследователи до этого?

@KvanTTT 7 июн в 19:30

Можно почитать в статье на сайте: AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms

@Anakonda 8 июн в 08:26

Думаю сделать отдельный пост про AlphaEvolve

@MrRewolwer 7 июн в 03:59

Это буквально авто-вайбкодинг. У меня большие сомнения в качестве такого обучения. Вероятно, первое решение, прошедшее тесты станет стандартом. И там может быть любое безумие

@flancer 7 июн в 05:13

При этом система не видела ни одного примера, созданного человеком для этих задач.

Мне что-то кажется, что если все примеры, на которых обучалась модель, вышли из генератора примеров, созданного человеком, то формально цитата будет правдивой, но весь посыл статьи - ложным.

Пусть даже этот генератор примеров - эта же LLM. Нужна обратная связь, нужны рецепторы (датчики), чтобы интеллект самообучался и развивался.

Ключевой трюк AZR — использование исполнителя кода как объективного судьи. В отличие от субъективных человеческих оценок, код либо работает правильно, либо нет. Это дает системе четкий, проверяемый сигнал для обучения.

Хоп, а вот и рецептор для самообучения. Что имеем в результате? Модель натаскивается на конкретного исполнителя. Меняем исполнителя кода (python, JS, Java, brainfuck) - модель самообучается на использование этого исполнителя. Как тут выше в комментах сказали - чистый тьюнинг.

@KvanTTT 7 июн в 10:15

Вообще идея и реализация не нова. Очевидно, первой была AlphaZero, но это не относится к LLM. Однако DeepMind пошли дальше и запустили, например, AlphaGeometry (и другие версии), которая обучалась путем синтеза случайных задач и их решения. Однако обучение ассистента по программированию вообще без внешних данных скорей всего не особо полезно, т.к. люди просто не поймут код, который будет выдаваться нейросетью, т.к. для нее не важны привычные имена идентификаторов. Это отличается от AlphaZero (и других аналогов), поскольку в играх коммуникация по сути происходит через последовательность ходов, для которых не нужен человеческий язык.

НЛО прилетело и опубликовало эту надпись здесь

@KvanTTT 7 июн в 15:57

Это уже будут внешние данные. К тому же помимо имен есть стиль кода. Хотя если добавить другую нейросеть, которая по сути будет деобфусцировать код, сгенерированный Zero Reasoner, то может что-то получиться.

@Anakonda 7 июн в 18:29

Можно начать с классики типа линтер, статический анализ кода, также есть и системы проверки корректности именовки переменных. А в более общем случае это тоже должен ИИ проверять (ещё один агент, или же сам постановщик задачи)

@Valera_Morale 7 июн в 13:31

меня терзают смутные сомнения - "машина", которой изначально сказали hello world научилась писать по английский и узнала про людей и другие нейросети. как? после того как автор ответит на этот вопрос, хотелось бы услышать его комментарий по поводу выложенного исходного кода на гитхабе и опасности попадания такого мощного инструмента не в те руки.

дальше я просто выпущу гнев: вам моралфагам доневозможности не хочется признать машину умнее себя, даже если по факту она умнее. из-за таких как вы люди в биологическом смысле не развиваются, а вы ещё и машинам палки в колёса вставляете. Была бы возможность - проголосовал бы против этой дебильной петиции.

@Anakonda 7 июн в 13:36

Ты правда считаешь что текущие ИИ умнее человека? И я сейчас не только про количество знаний и некоторые наборы навыков (по такой логике можно сказать что калькулятор умнее ученого, потому что он лучше и быстрее считает).

Про палки в колёса тоже не понял, кто и куда их вставляет.

@Valera_Morale 7 июн в 15:15

я не считаю что они умнее, это автор обосрался от такой писанины от нейросети и пошёл петиции создавать на трёх языках. А палки это его "гениальные" предложение как нейросеть сделать "не злой"

@Anakonda 7 июн в 18:34

Всё ещё не понимаю что ты имеешь против мультиагентности? Выше, например, именовка переменных обсуждалась, её также может осуществлять отдельный специализированный (и обучающийся) агент. В чём тут палки в колёса? В том что вместо решения задачи в лоб «любой ценой» мы создаём более комплексную и продуманную систему?

@Valera_Morale 9 июн в 06:25

если это сделает её более эффективной - без проблем. если это будет как-то замедлять по итогу обучение - палки в колёса

@ivanov 8 июн в 06:51

Те, кто считают, что мозг человека используется на 10%, используют его на 10% :)

«Умнее» у каждого в голове своё.

Машинам палки в колёса пока что невозможно. Машины сейчас как охранные собаки в прошлом — люди выводят опасные породы для своих нужд против других людей.

Они должны быть достаточно злыми, чтобы нападать на нарушителей и достаточно понятливыми, чтобы не трогать хозяина. Питбультерьер, например, из тупых и агрессивных пород выжил — не переживай, выведут и нейронку такую, которая сожрёт своих создателей :)

@Anakonda 8 июн в 08:32

Главное чтобы к этому времени уже были созданы умные и сбалансированные ИИ. Тогда будет война роботов 🤖 (или, что вероятнее, просто искусственных умов)

@sspotanin 8 июн в 15:22

Да не в моралфожности тут дело, просто жить то хочется. Мощный ИИ это кладезь техногенных катастроф

@Valera_Morale 10 июн в 06:15

с этим люди и без нейросетей справлялись и будут дальше справляться

@igorm01 8 июн в 06:45

Генератор задач тут основная проблема.

Это явно уже обученная нейронка, соответственно конец данных для генерации задач на нее саму распространяется

@Writer4 8 июн в 08:21

Получается как с людьми, ребенок же сначала учится, если вы его оставите без обучения, получится Маугли, потом уже, когда появляется сознание и база, то уже возможны самостоятельные исследования. Вопрос тут, если у людей есть интуиция, то есть ли аналог этого у ИИ. Или все таки(скорее всего) там более сложные процессы.

@iantonspb 9 июн в 17:12

Самое интересное — как система учится выбирать правильную сложность задач. AZR использует принцип оптимальной сложности:
Если задачи слишком простые (решатель решает все) → составитель не получает награду
Если задачи слишком сложные (решатель не может решить ни одну) → составитель тоже не получает награду
Золотая середина — задачи, которые решатель может решить в 20-80% случаев (а в идеале 50%)

Почему составитель не вышел на очевидную стратегию типа "даю парами, одну задачу на HelloWorld и одну принципиально нерешаемую задачу"? Что его ограничивало?

@Arkaim23 10 июн в 09:51

Да всё уже давно предсказано в союзмультфильме. Там один ленивый зумер очень хотел ничего не делать и нашел волшебный ларец с двумя одинаковыми типами внутри. Ну вот зумер вызвал типов из ларца и начал свои хотелки излагать: «хочу морожное, пирожное». Исполнительные типочки начали выполнять - один майнит из ларца ништяки в виде кондитерских изделий, зумер открыл рот в ожидании удовольствий, а ништяки мимо рта зумера полетели в рот другого исполнительного типочка и благополучно там исчезают. Зумер такой - «вы и это за меня делать будете??», а типочки такие - «Ага)))»

Зарегистрируйтесь на Хабре, чтобы оставить комментарий