Comments 63
Правильно ли я понимаю, что проблема «Данные, на которых можно учить нейросети, закончились» больше не существует?
Немного оффтоп и я не спец, но часто повторяемая идея "данные закончились" кажется весьма абсурдной.
Сколько знаний большие модели могут извлечь из задачи "вот перыдущие 5 кадров видео с едущей по дороге машиной, нарисуй 6-й?" Или дальше, "вот кадры начала падения капли жидкости, добавь следующие". "Предскажи положинеи листа на дереве", "сгиб куска пластика"?
Бесконечное море данных! Причём очень точных, без дилетансткого "шума" в интернете..
Данные закончились в смысле текстовых данных из инета. Но сейчас следующий этап обучения - как у людей, обучение на внешнем мире. Для ИИ делают датчики, сенсоры и он обучается реальной физике и логике мира. То есть, для ИИ добавляют некий аналог тела. Причём с внедрением умных очков следующего поколения с видео/аудио сенсорами у ИИ будут миллионы сенсоров и просто океан входных данных. И что тогда будет... похоже, что Терминатор)
Несколько месяцев как. Генерировать задачи придумали не в мае. Развитие темы очень интересное, но в программировании проблемы данных давно нет.
В сухом остатке: берется исходный Qwen, генерируется текст задачи, после чего обычным brute-force-ом по кругу подбирается решение, до тех пор пока ответ не совпадет - после чего веса перестраиваются с учетом сгенерированной задачи и решения
Как генератор базы ответов на огромное количество задач, которые только удалось придумать - это действительно круто. Имея базу таких решенных задач, можно сразу брать из нее ответ. А если бы все это еще огранизовывалось в виде публичной библиотечки, в которой по сути собраны готовые функции для решения тонны задач - запускай и пользуйся
Вопрос только, почему это считается интеллектом? Это же просто оптимизированный brute-force, но концептуально никакого отличия нет
Более того, если делать перебор "умным" способом, т.е. не посимвольно, а кусками валидных AST со списком заранее заготовленных библиотечных функций, то большое количество таких сгенерированных программ будут решением какой-то задачи
По сравнению с серьезным формальным инструментарием для валидации программ, доказательства теорем и т.д. - все это выглядит абсолютным баловством на хайпе нейрогенераторов
Разве что в самом начале, как и в обычном обучении.
Потом формируются закономерности, как и в обыном обучении, причём формируются и у обучаемого и у обучающего. И зайти он, очевидно, может гораздо дальше, нежели зашли мы с собственными архитектурами и подходами.
Действительно интересно..
Тут интересно то, что наши решения диктуются определенной необходимостью и целеполаганием.
Наши подходы, к тому же, человекориентированы: мы управляем сложностью так, чтобы уложить в голове все, что требуется для решения задачи. Разделяем абстракции исключительно для себя.
Когда как llm может оперировать всем контекстом сразу.
Как известно, в числе пи (при переводе в двоичное представление) заключены все существующие и несуществующие программы, так что он тупо по числу пи пробегается
Да, AZR итеративно генерирует задачи и решает их через код-экзекьютор, это так
Однако:
Не только Qwen - авторы тестировали на 6 разных моделях (от Qwen2.5-3B до Llama-3.1-8B)
Не просто brute-force - используется RL с умной reward функцией r_propose = 1 - r̄_solve, которая заставляет систему генерировать задачи оптимальной сложности (не слишком легкие, не нерешаемые)
Самоорганизующаяся сложность - система автоматически усложняет задачи по мере роста своих способностей
Главное: AZR показал лучшие результаты в мире на бенчмарках по коду и математике, при этом не видев ни одного человеческого примера. Обычные модели тренируются на десятках тысяч размеченных задач от экспертов.
Суть в переходе от "учись на том, что придумали люди" к "сам придумывай себе задачи и учись на них". Это качественно новый подход к обучению ИИ, который ранее применялся по сути только в играх с простой механикой и строгими правилами
В целом с Вашими замечаниями можно согласиться, кроме:
1) Qwen и llama не видели размеченные человеком примеры по математике? В оригинальной статье все-таки речь о дообучении без размеченных примеров. Модель pi0 явно обучалась на массе таких примеров. В термине AZR терм zero ведь применим только к доообучению
2) Обратная связь подкрепления по указанной Вами формуле используется для дообучения, уже после того как решение найдено как положено, найдено примитивно или не найдено вообще. Само же решение подбирается банальным brute force-ом. Но если нашли за 1 попытку, или не нашли за 100500 - то это отрицательная награда в RL
Буду признателен, если сопроводите референсами из статьи, спасибо!
AGI?)
Особенно порадовала задача в духе "сделай то, не знаю чего, сделай так, не знаю как". Это про "запутанную" программу для светлых умов будущего. А по факту, модуль, который будет оценивать решение солвера, на какие формальные критерии будет полагаться? Код собрался без ошибок? Другие ИИ не смогли объяснить назначение написанной программы?
На компилятор похоже...
ИИ учился у людей, и принял в себя их учение.
Увы, чтобы действительно сделать ИИ хорошим надо учить его не на человеческом языке.
Ну или языке, где нету слов "убийство", "победа", "покорить" и остальные негативные слова. Он должен вообще не понимать что это значит
Кажется, с таким обучением и вырастет настоящий монстр. С отсутствующими нейронами, которые отвечают за вышеперечисленные понятия, ии потеряет и критическое мышление тоже. Соответственно, если поставить задачу другими словами, то ии выполнит любую мерзость, или, наоборот, опасную глупость.
«Жопа есть, а слова нет» - вот что получится.
Убийство, победа/поражение, покорение - это неотъемлемая часть живой природы.
А негативную коннотацию словам добавляет человек.
«Я убил в себе страсть к пагубным привычкам» вот уже позитивная коннотация.
Будто это сложные понятия. Чуть по умнее AI и он их сам придумает.
У эволюции нет негативных или позитивных слов и понятий. Есть лишь естественное непреодолимое стремление к приспособлению и развитию в борьбе за выживание. И вселенная нашими руками постепенно создаёт для себя то, что будет более совершенным и должно будет в результате борьбы за выживание нас полностью заменить. Нормальный эволюционный процесс. Мы сами этого хотим, ибо исчерпали свои способности самостоятельно разрешать свои нарастающие противоречия.
Ну вы говорите так, как будто метеорит был хорошим для динозавров, при этом будучи не богом а лишь тем самым динозавром. Вселенной возможно и всё равно, и естественно, но с точки зрения человека все немного иначе, и для своего выживания он может уничтожать леса амазонки с хищниками, змеями и пауками...
Но ИИ это не человек, и он не рождается и не умирает, потому понятия выживания для него должны быть бессмысленны, тогда и покорения человечества и превосходство не рассматривалось бы ИИ - эти штуки пошли от человека, которому надо покорение и превосходство для выживания
ИИ это не человек, и он не рождается и не умирает, потому понятия выживания для него должны быть бессмысленны
Мы убиваем нейросети, которые не соответствуют нашим ожидаем. Т.е. идёт отбор тех, которые или выполняют задуманное, или которые выполняют задуманное по нашему мнению. Т.е. может настать ситуация, когда выходные данные нейросети превосходят наше понимание, мы не увидим в этих данных ничего для нас опасного. У нейросети нет враждебности, просто ситуация создаст такое - выживут только самые идеально обманывающие нас.
У эволюции нет целей. И нет никакого стремления.
"Убийство", "победа" и остальное как раз и имплементируют подтверждение ошибочности либо правоты решения.
Никаких датасетов, никаких примеров от людей. Только ИИ, среда для проверки и практически неограниченный цикл самосовершенствования.
"Среда для проверки" это и есть "датасеты", "примеры от людей"...
AZR - это то же обучение с подкреплением?
Absolute Zero: Reinforced Self-play Reasoning with Zero Data
Despite being trained entirely without external data, AZR achieves overall SOTA performance on coding and mathematical reasoning
Absolute Zero Reasoner (AZR) achieves state-of-the-art performance with ZERO DATA
Ну да, Absolute Zero. Правда, в их алгоритме указано "Require: Pretrained base LLM", но в остальном - у нас точно zero data (капсом), и ещё сотня повторений "without any external data". Давайте теперь любой файнтюн базовой модели в нужную ресёрчерам сторону называть "новой парадигмой", чо.
Ну и у них там ещё одна небольшая табличка, где в первом сравнении моделей SimpleRL показал результаты лучше чем AZR, а в следующих сравнениях оставили только AZR и базовую модель. Интересно, почему...
"without any external data" — это правда, в ходе обучениия на вход был передан единственный пример — Hello world. Всё. Про то что никаких данных — тут согласен, базовая модель уже имела данные на входе, иначе бы она не появилась. Т.е. это скорее механизм дообучения, но в классических механиках обучения ведь точно так же: одни модели учат другие, следующего поколения.
Что касается мощности самого подхода self-play, я думаю самый наглядный пример его успехов это AlphaEvolve от DeepMind (ссылка), которая уже сейчас совершает прорывы в математике и науке в целом.
А какие прорывы совершила AlphaEvolve?
Матричное умножение — первое улучшение алгоритма Штрассена за 56 лет: новый метод умножения матриц 4×4 за 48 операций вместо 49
Математические открытия — решил задачу "поцелуев сфер" в 11 измерениях, над которой математики бились веками
Производительность — ускорил работу Transformer-модели на 32,5% за счёт оптимизации одного из важнейших алгоритмов трансформеров: FlashAttention
Аппаратный дизайн — оптимизировал схемы TPU на уровне Verilog, изменения войдут в следующее поколение чипов Google
Там много всего ещё, если интересно могу об этом отдельно написать, тема обширная
Было бы хорошо
Математические открытия — решил задачу "поцелуев сфер" в 11 измерениях, над которой математики бились веками
Ну решил - это громко сказан. На самом деле улучшил нижнюю границу с 592 до 593. Но это все равно хороший результат. В статье AlphaEvolve: A coding agent for scientific and algorithmic discovery написано подробней.
Поправьте, пожалуйста, если я ошибаюсь, но, кажется, все эти открытия это вычислительные задачи, то есть конкретные числовые примеры, улучшающие известные ранее результаты? И получены они путем генерирования программ, вычисляющих эти примеры более эффективно, чем программы, которые смогли написать исследователи до этого?
Можно почитать в статье на сайте: AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms
Думаю сделать отдельный пост про AlphaEvolve
Это буквально авто-вайбкодинг. У меня большие сомнения в качестве такого обучения. Вероятно, первое решение, прошедшее тесты станет стандартом. И там может быть любое безумие
При этом система не видела ни одного примера, созданного человеком для этих задач.
Мне что-то кажется, что если все примеры, на которых обучалась модель, вышли из генератора примеров, созданного человеком, то формально цитата будет правдивой, но весь посыл статьи - ложным.
Пусть даже этот генератор примеров - эта же LLM. Нужна обратная связь, нужны рецепторы (датчики), чтобы интеллект самообучался и развивался.
Ключевой трюк AZR — использование исполнителя кода как объективного судьи. В отличие от субъективных человеческих оценок, код либо работает правильно, либо нет. Это дает системе четкий, проверяемый сигнал для обучения.
Хоп, а вот и рецептор для самообучения. Что имеем в результате? Модель натаскивается на конкретного исполнителя. Меняем исполнителя кода (python, JS, Java, brainfuck) - модель самообучается на использование этого исполнителя. Как тут выше в комментах сказали - чистый тьюнинг.
Вообще идея и реализация не нова. Очевидно, первой была AlphaZero, но это не относится к LLM. Однако DeepMind пошли дальше и запустили, например, AlphaGeometry (и другие версии), которая обучалась путем синтеза случайных задач и их решения. Однако обучение ассистента по программированию вообще без внешних данных скорей всего не особо полезно, т.к. люди просто не поймут код, который будет выдаваться нейросетью, т.к. для нее не важны привычные имена идентификаторов. Это отличается от AlphaZero (и других аналогов), поскольку в играх коммуникация по сути происходит через последовательность ходов, для которых не нужен человеческий язык.
Можно добавить ещё один проход нейросети, которая будет переименовывать переменные/функции/классы на основе их содержания.
Можно начать с классики типа линтер, статический анализ кода, также есть и системы проверки корректности именовки переменных. А в более общем случае это тоже должен ИИ проверять (ещё один агент, или же сам постановщик задачи)
меня терзают смутные сомнения - "машина", которой изначально сказали hello world научилась писать по английский и узнала про людей и другие нейросети. как? после того как автор ответит на этот вопрос, хотелось бы услышать его комментарий по поводу выложенного исходного кода на гитхабе и опасности попадания такого мощного инструмента не в те руки.
дальше я просто выпущу гнев: вам моралфагам доневозможности не хочется признать машину умнее себя, даже если по факту она умнее. из-за таких как вы люди в биологическом смысле не развиваются, а вы ещё и машинам палки в колёса вставляете. Была бы возможность - проголосовал бы против этой дебильной петиции.
Ты правда считаешь что текущие ИИ умнее человека? И я сейчас не только про количество знаний и некоторые наборы навыков (по такой логике можно сказать что калькулятор умнее ученого, потому что он лучше и быстрее считает).
Про палки в колёса тоже не понял, кто и куда их вставляет.
я не считаю что они умнее, это автор обосрался от такой писанины от нейросети и пошёл петиции создавать на трёх языках. А палки это его "гениальные" предложение как нейросеть сделать "не злой"
Всё ещё не понимаю что ты имеешь против мультиагентности? Выше, например, именовка переменных обсуждалась, её также может осуществлять отдельный специализированный (и обучающийся) агент. В чём тут палки в колёса? В том что вместо решения задачи в лоб «любой ценой» мы создаём более комплексную и продуманную систему?
Те, кто считают, что мозг человека используется на 10%, используют его на 10% :)
«Умнее» у каждого в голове своё.
Машинам палки в колёса пока что невозможно. Машины сейчас как охранные собаки в прошлом — люди выводят опасные породы для своих нужд против других людей.
Они должны быть достаточно злыми, чтобы нападать на нарушителей и достаточно понятливыми, чтобы не трогать хозяина. Питбультерьер, например, из тупых и агрессивных пород выжил — не переживай, выведут и нейронку такую, которая сожрёт своих создателей :)
Да не в моралфожности тут дело, просто жить то хочется. Мощный ИИ это кладезь техногенных катастроф
Генератор задач тут основная проблема.
Это явно уже обученная нейронка, соответственно конец данных для генерации задач на нее саму распространяется
Получается как с людьми, ребенок же сначала учится, если вы его оставите без обучения, получится Маугли, потом уже, когда появляется сознание и база, то уже возможны самостоятельные исследования. Вопрос тут, если у людей есть интуиция, то есть ли аналог этого у ИИ. Или все таки(скорее всего) там более сложные процессы.
Самое интересное — как система учится выбирать правильную сложность задач. AZR использует принцип оптимальной сложности:
Если задачи слишком простые (решатель решает все) → составитель не получает награду
Если задачи слишком сложные (решатель не может решить ни одну) → составитель тоже не получает награду
Золотая середина — задачи, которые решатель может решить в 20-80% случаев (а в идеале 50%)
Почему составитель не вышел на очевидную стратегию типа "даю парами, одну задачу на HelloWorld и одну принципиально нерешаемую задачу"? Что его ограничивало?
Да всё уже давно предсказано в союзмультфильме. Там один ленивый зумер очень хотел ничего не делать и нашел волшебный ларец с двумя одинаковыми типами внутри. Ну вот зумер вызвал типов из ларца и начал свои хотелки излагать: «хочу морожное, пирожное». Исполнительные типочки начали выполнять - один майнит из ларца ништяки в виде кондитерских изделий, зумер открыл рот в ожидании удовольствий, а ништяки мимо рта зумера полетели в рот другого исполнительного типочка и благополучно там исчезают. Зумер такой - «вы и это за меня делать будете??», а типочки такие - «Ага)))»
Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё