Bobby_Shmurda3128 фев в 10:16

45 000 лет на обучение Dota 2: Почему современный AI — это просто эффективная зубрежка

Сложный

5 мин

28K

Искусственный интеллектМашинное обучение *

Из песочницы

+17

Комментарии 23

ChePeter 28 фев в 10:56

Я школьник, и моя цель — стать исследователем и создавать AGI.

Начни с математики и таких слов "интерполяция", "экстраполяция" и " аппроксимация"

Shoman 28 фев в 15:40

Чтобы стандартный DQN начал показывать нормальный результат в среде CartPole (балансировка шеста на тележке), то ему в среднем надо 40000 шагов. Человеку же достаточно нескольких минут, чтобы достичь такого же результата.

А предыдущие миллионы лет эволюции конечно же не в счет)

Bobby_Shmurda31 28 фев в 17:01

Я понял, что ты имеешь в виду. С этой стороны ты прав, действительно, эволюция потратила много времени на создание мозга, больше чем этот DQN. Но я хотел привести этот пример в другом смысле. Эволюция создала <<алгоритм>> (мозг человека), который может обучаться намного эффективнее современного AI. Я в этом смысле имел в виду. Конечно, есть инстинкты, которые были зашиты в мозг эволюцией, но даже так мозг намного эффективнее AI.

Shoman 28 фев в 17:30

Так даже и тогда сравнение некорректно. я не буду утверждать что llm обучается эффективнее мозга, очевидно это не так. Но вот порядок насколько неэффективно, тут уже вопросы..

Но опять же наш мозг результат эволюции, и соответственно для каких-то классов задач он в процессе эволюции хорошо натренировался, и соответственно новые задачи из этого класса (как в примере) он освоит быстро. В отличии от llm.

Другие же задачи вероятно уже не так быстро, сколько вам времени нужно чтобы научится решать дифференциальные уравнения, или задачи по сопромату? И сколько потребуется llm (если допустим обучить ее сначала без знаний по этой области) а потом дообучить. Причем наш мозг не сильно изменился за последние 500-5000 лет. Но чему успевал обучиться человек за всю жизнь 5000 лет назад? (Но принципы уже были, а когда добавились знания мозг их освоил)

А если взять тот же пример с дотой, там же не просто взяли уже обученный «мозг» и дообуичли играть в доту, а научили с нуля, соответственно в эти 45000 лет, так же включено обучение понимаю физики мира (пусть и упрошенного) и тд.

Bobby_Shmurda31 1 мар в 05:54

Про не корректность сравнения ты прав, но если честно, я даже и не знал, с чем ещё можно сравнить человеческий мозг. Я пока что не знаю модели, которые имели бы эволюцию для правильного сравнения.

Ты прав, что у моделей не было миллионы лет эволюции в отличие от человека. Моя статья как раз о том, чтобы дать AI такую архитектуру, которая заменила бы эту эволюцию и позволила бы накапливать знания. Например, обучение JEPA позволило бы понимать базу физики мира.

Shoman 1 мар в 05:59

Так работы ведутся в различных направлениях.

просто заголовок статьи: ai это эффективная зубрежка»

По факту же это очень эффективный и универсальный «классификатор» и поисковик закономерностей в огромных объемах данных.

То есть обучается то он может и хуже мозга, а вот уж по облученному «шпарит» очень даже неплохо

silvero 2 мар в 05:28

Инстинктов нет. Сложность нашего мозга, придуманная эволюцией, как раз и требует двадцать лет самообучения с чистого листа. Просто подсказываю, не отрицаю вашу точек зрения.

stesov 2 мар в 06:46

Инстинктов нет только у венца творения, то есть нейросети (шутка).

Животным же, коими являются человеки, они свойственны и необходимы для выживания вида.

silvero 3 мар в 05:07

вы думаете я шутил? нет, не шутил. у термина "инстинкт" нет однозначного определения, но даже то образное что есть никак у человеков не найдено. это подтверждают многочисленные исследования.

VitaliyII 3 мар в 19:15

…эволюция потратила много времени на создание мозга… есть инстинкты, которые были зашиты в мозг эволюцией…

Дмитрий, мне стало любознательно, Ваше восприятие столь вопиюще творческой «эволюции» чем-то отличается от восприятия разумного Творца всего существующего? 🙂

ivvi 28 фев в 16:12

Gemeni -> Gemini.

Bobby_Shmurda31 28 фев в 17:01

Спасибо! Я поправил.

Hallow_Fan 28 фев в 18:39

Есть статистика позволит, то модель может спокойно сгенерировать без причины летающий камень.

В этом предложении скорее всего ошибка в первом слове.

demoren1 1 мар в 05:01

Привет, хорошая статья. Но мне кажется ты либо ошибаешься, либо не правильно интерпретируешь некоторые вещи.

> Claude Opus 4.6, GPT 5.2, Gemini 3 PRO и другие модели - но это экстенсивный путь.

Это правда, но во-первых, чтобы модели быть хорошей ей не обязательно иметь триллионы параметров, чтобы показывать достойный результат. Недавно например вышел qwen 397b который показывает результаты не хуже, чем gpt 5.2. Во-вторых модели не используют все параметры при инференсе, а активируют лишь малую их долю, таким образом увеличение параметров как раз ведет к большим интеллектуальным возможностям модели.

>модель не решает сама, как ей думать, а думает так, как мы ей сказали

Все так, большая языковая модель лишь выучивает паттерны, далее модель требуется дообучить действовать так, как мы хотим. В частности в случае ризонинга мы применяем различные техники, чтобы модель научилась правильно думать, и это дало свои результаты, та же alphaproof например умеет решать задачи с международной олимпиады по математике, а с помощью gpt сделали несколько новых открытий(например недавно gpt-5 полностью решила задачу из списка Эрдеша). То есть это не баг, а фича, что мы можем под какую-то конкретную дообучить нашу модель.

>Непонимание причин

Мне кажется, что благодаря современному rl удалось от моделей добиться крайне хорошего качества в решении логических задач. В качестве доказательства своих слов могу привести бенчмарк HLE и недавний эксперимент First Proof. Да, там модели показала себя не идеально, но и задачи являлись, либо очень сложными, либо абсолютно новыми. То есть модели уже сегодня могут строить причинно-следственные связи, что позволяет решать им крайне тяжелые задачи.

>Отсутствие здравого смысла. Для LLM камень — это просто эмбеддинг, который находится рядом с эмбеддингом "тяжело".

Но в этом и суть как мне кажется. Человек тоже воспринимает все слова в контексте и человека тоже хорошо развито ассоциативное мышление. Здравый смысл кстати можно увидеть даже у моделей, когда они видят, что пришли к нелогичному результату, они могут сказать, что-то пошло не так, и начнут перепроверку своих рассуждений.

>Обычным RL моделям, например, PPO, DQN и A2C, требуется очень много попыток, чтобы что-то понять. Если агент учится паркуру, то он должен прыгнуть с 5-го этажа и разбиться 100 раз, чтобы понять, что так делать не стоит.

>В Model-Based RL агент сначала обучает модель мира, которая предсказывает следующее состояние среды после определённого действия. Потом прокручивает в фантазиях тысячи вариаций исходов, обучаясь на них.

>Результат: DreamerV3 научился добывать алмазы в Minecraft с нуля, не имея записанных игр людей. Этот агент умирал миллионы раз не в игре, а в воображении. Это большой рост эффективности использования данных.

Я не читал статью DreamerV3, но в чем разница между генераций 100к траекторий и такой же игрой, где агент умирал миллионы раз?
Вопрос даже не в этом, положим ты имеешь модель мира и знаешь распределение будущих состояний, но тогда все что ты можешь, это обучать свою модель off-policy чаще, чем это делается в условном PPO.

В заключении. Мы не знаем, даст ли еще большее увеличение параметров, еще большее вливание данных и компьюта лучшее качество модели. Все что мы видим, что LLM на основе трансформеров и MoE, тренируемые в пайплайне pretain - fine tune - rl дают все лучшие результаты. И везде здесь появляются какие-то инновацие, которые тоже бустят качество. А значит -- все покажет эксперимент.

Bobby_Shmurda31 1 мар в 05:39

> Claude Opus 4.6, GPT 5.2, Gemini 3 PRO и другие модели - но это экстенсивный путь.

Да, я тебя понял. Недавняя модель Qwen3.5-27B на многих бенчмарках очень неплохо обгоняет Qwen3-235B-A22B только с 3B активными параметрами (https://huggingface.co/Qwen/Qwen3.5-35B-A3B). В статье я, конечно, немного утрировал, но человек всё равно намного эффективнее обучается, чем ML модели.

>модель не решает сама, как ей думать, а думает так, как мы ей сказали

Про alphaproof ты интересный пример подобрал, потому что он помог достичь LLM таких результатов не потому, что она сама умная, а потому, что она добавила к модели MCTS (планирование вперёд). Про gpt 5.2 high, она действительно решила много таких задач, это вполне стоило ожидать, потому что LLM всё же становятся умнее. Но не стоит забывать, что gpt 5.2 high обучалась в огромном количестве RL сред и почти на всех учебниках мира. Модель всё ещё <<чувствует>>, как надо решать задачи Эрдеша. Это всё ещё очень неэффективно.

>Непонимание причин

Да, RL очень сильно помог решить эту проблему, но я немного о другом. Когда человек думает о камне, у него активируются сенсомоторные связи, то есть он вспоминает вес камня, боль при ударе с ним и т. д. LLM же при слове "камень" создаёт в себе эмбеддинг, которых близок к словам "тяжело", "твёрдый" и т. д. Если задача выйдет за рамки распределения из обучающих данных, то модель не справится, в отличие от человека.

>Отсутствие здравого смысла. Для LLM камень — это просто эмбеддинг, который находится рядом с эмбеддингом "тяжело".

Про это я уже говорил выше.

Может, я не очень удачный привёл пример для того, чтобы показать разницу эффективности использования данных. Здесь плюс DreamerV3 в другом. Взаимодействие с реальной средой может быть очень неэффективно и вычислительно затратно. В то время как обучение на латентном пространстве от VAE в DreamerV3 благодаря GPU работает очень быстро.

Про твоё заключение.

Здесь я тоже немного о другом. Метрики LLM действительно растут, но методы, которые я перечислял (JEPA, GFlowNets) пытаются решить те 3 фундаментальные проблемы более кардинально и сильно, чем новый способ эффективной работы с контекстом LLM.

Kagerot 2 мар в 05:28

Привет! Я тоже школьник и мне стало интересно - а что ты читал/как изучал в целом тему ИИ? Как, на чем ты делал свою программу? И не хотел бы ты попробовать коллективно вести разработку?

P. s. я, к сожалению, пока что слаб в промышленном программировании, но, возможно, могу помогать с математчастью

Bobby_Shmurda31 3 мар в 18:23

Привет. Я просто участвовал в соревнованиях/олимпиадах по ИИ по типу ВсОШ по ИИ от Минпросвещения, kaggle и ods.ai соревнованиях. Просто программировал, на этом всё. Учился с помощью LLM. За эти 3 года в ML всему и научился.

Коллективную работу я вести не могу, со временем у меня сейчас беда.

paruntik 2 мар в 10:20

Когда в статье видишь "природа подобрала", возникает вопрос: а в своем ли уме и добром ли здравии автор этого "утверждения"? Если ты так уверен в своем утверждении, то просто доверь "природе" свое поделие и природа подберет!

VitaliyII 3 мар в 19:23

👏🤩👍

oopatow 2 мар в 17:36

привет. отличная статья - во всяком случае по духу и направлению мысли. на канал в тг подписался. рекомендую почитать мини-альманах в тему https://comexp.net/posts - думаю тебе будет интересно. он на англ, но сегодня это не проблема, полагаю. удачи в проектах!

UrmatAbdrazakov 3 мар в 05:13

Классная статья! Конечно люди в комментариях начали поправлять, но в любом случае ты движешься в правильном направлении, уверен следующие статьи будут еще лучше. Удачи, не останавливайся.

VitaliyII 3 мар в 18:57

В природе архитектором являлась эволюция, которая подобрала универсальный алгоритм для каждой задачи.

Мм, дорогой камрад, «эволюция [видов?]» это для Вас субъект (разумное существо), не объект (безмысленное существо)? Уточните, пожалуйста. 🙂

rocoss 6 мар в 15:33

Вы аргументированно показываете, что RAG, аугментации и промпт-инжиниринг - это "костыли", которые не решают фундаментальные проблемы (причинность, здравый смысл, эффективность данных). Но если принять эту рамку, возникает практический парадокс: пока архитектуры вроде JEPA или DreamerV3 не стали мейнстримом, бизнесу нужно строить работающие системы сейчас. И можно ли рассматривать графовые методы (GraphRAG, causal edges, explicit relations) не как очередной "костыль", а как промежуточный мост между статистическими корреляциями LLM и истинным причинным моделированием? Ведь граф знаний дает явное кодирование причинно-следственных связей, которое модель не выучивает, а получает в готовом виде в качестве ретривера.

Ну т.е если использовать граф не для "запоминания фактов" (что действительно можно решить фундаментально), а для структурирования пространства поиска и верификации выводов (evidence tracing, supersedes-рёбра, conflict detection) - не становится ли такая гибридная система более устойчивой к галлюцинациям, даже если базовая модель остаётся как есть?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий