Комментарии / Профиль demoren1 / Хабр

Пользователь

45 000 лет на обучение Dota 2: Почему современный AI — это просто эффективная зубрежка

Привет, хорошая статья. Но мне кажется ты либо ошибаешься, либо не правильно интерпретируешь некоторые вещи.

> Claude Opus 4.6, GPT 5.2, Gemini 3 PRO и другие модели - но это экстенсивный путь.

Это правда, но во-первых, чтобы модели быть хорошей ей не обязательно иметь триллионы параметров, чтобы показывать достойный результат. Недавно например вышел qwen 397b который показывает результаты не хуже, чем gpt 5.2. Во-вторых модели не используют все параметры при инференсе, а активируют лишь малую их долю, таким образом увеличение параметров как раз ведет к большим интеллектуальным возможностям модели.

>модель не решает сама, как ей думать, а думает так, как мы ей сказали

Все так, большая языковая модель лишь выучивает паттерны, далее модель требуется дообучить действовать так, как мы хотим. В частности в случае ризонинга мы применяем различные техники, чтобы модель научилась правильно думать, и это дало свои результаты, та же alphaproof например умеет решать задачи с международной олимпиады по математике, а с помощью gpt сделали несколько новых открытий(например недавно gpt-5 полностью решила задачу из списка Эрдеша). То есть это не баг, а фича, что мы можем под какую-то конкретную дообучить нашу модель.

>Непонимание причин

Мне кажется, что благодаря современному rl удалось от моделей добиться крайне хорошего качества в решении логических задач. В качестве доказательства своих слов могу привести бенчмарк HLE и недавний эксперимент First Proof. Да, там модели показала себя не идеально, но и задачи являлись, либо очень сложными, либо абсолютно новыми. То есть модели уже сегодня могут строить причинно-следственные связи, что позволяет решать им крайне тяжелые задачи.

>Отсутствие здравого смысла. Для LLM камень — это просто эмбеддинг, который находится рядом с эмбеддингом "тяжело".

Но в этом и суть как мне кажется. Человек тоже воспринимает все слова в контексте и человека тоже хорошо развито ассоциативное мышление. Здравый смысл кстати можно увидеть даже у моделей, когда они видят, что пришли к нелогичному результату, они могут сказать, что-то пошло не так, и начнут перепроверку своих рассуждений.

>Обычным RL моделям, например, PPO, DQN и A2C, требуется очень много попыток, чтобы что-то понять. Если агент учится паркуру, то он должен прыгнуть с 5-го этажа и разбиться 100 раз, чтобы понять, что так делать не стоит.

>В Model-Based RL агент сначала обучает модель мира, которая предсказывает следующее состояние среды после определённого действия. Потом прокручивает в фантазиях тысячи вариаций исходов, обучаясь на них.

>Результат: DreamerV3 научился добывать алмазы в Minecraft с нуля, не имея записанных игр людей. Этот агент умирал миллионы раз не в игре, а в воображении. Это большой рост эффективности использования данных.

Я не читал статью DreamerV3, но в чем разница между генераций 100к траекторий и такой же игрой, где агент умирал миллионы раз?
Вопрос даже не в этом, положим ты имеешь модель мира и знаешь распределение будущих состояний, но тогда все что ты можешь, это обучать свою модель off-policy чаще, чем это делается в условном PPO.

В заключении. Мы не знаем, даст ли еще большее увеличение параметров, еще большее вливание данных и компьюта лучшее качество модели. Все что мы видим, что LLM на основе трансформеров и MoE, тренируемые в пайплайне pretain - fine tune - rl дают все лучшие результаты. И везде здесь появляются какие-то инновацие, которые тоже бустят качество. А значит -- все покажет эксперимент.