Весь год мы хоронили классическое обучение ИИ. Оказалось, рано.

Смерть, которой не было

Почти весь этот год мы провели в убеждении, что подход, подаривший нам оригинальный ChatGPT - первый закон масштабирования - окончательно мертв.

Считалось, что этот путь развития зашел в тупик. Теперь единственное, что имеет значение - обучение с подкреплением, метод «проб и ошибок», который обеспечил большую часть прогресса за последний год.

Это мнение оказалось в корне неверным. Даже такие ведущие лаборатории, как OpenAI, были застигнуты врасплох и теперь расплачиваются за это.

Предварительное обучение (pre-training), классический метод обучения ИИ через имитацию, не просто живо - оно готовится к настоящему ренессансу в 2026 году. И это важно для вас при выборе ИИ-продуктов или принятии инвестиционных решений.


Два способа сделать ИИ умнее

Есть два пути: сделать модель «больше и толще» или заставить ее «думать дольше».

Индустрия ИИ кажется яркой, шумной, полной прорывов. Со стороны - самая динамичная отрасль в истории.

Но на самом деле она довольно скучная.

Современные модели удивительно похожи на те, что были десять лет назад. Принципы, открытые тогда, остаются столпами прогресса. Алгоритмическая база практически не менялась годами.

Большинство передовых моделей почти идентичны друг другу. Главные факторы, определяющие лидера - данные для обучения и бюджет вычислительных мощностей.

Все сводится к вычислениям. Важно не только то, сколько их у вас, но и насколько эффективно вы их используете.


Как устроены трансформеры

Все современные большие языковые модели - это трансформеры. Архитектура состоит из двух основных элементов:

Слои внимания (Attention layers) - улавливают закономерности в последовательности, заставляя слова «общаться» друг с другом. Например, слово «Пират» связывается со словом «Рыжий», чтобы понять: в предложении «Рыжий Пират был наконец побежден» речь идет об одном персонаже.

Слои долгосрочной памяти (MLP) - позволяют моделям обращаться к своим знаниям за дополнительной информацией. Модель может понять, что «Рыжий Пират» - отсылка к Барбароссе, даже если имя не упоминается в тексте. Просто потому что в процессе обучения она видела много текстов, где эти понятия были связаны.

Самый интуитивный способ понять механизм LLM - представить его как процесс сбора знаний. Модель постепенно собирает информацию из текущего текста и из прошлого опыта, пока не поймет, какое слово должно быть следующим.


Первый закон: больше данных, больше параметров

Первый закон посвящен «обучению через имитацию». Мы даем модели колоссальный набор данных и просим ее подражать ему. Через многократное повторение модель улавливает скрытые закономерности.

Это индуктивный процесс. Часто видя слова «Я» и «есть» рядом, модель понимает: если сейчас она видит «Я», то велика вероятность, что следующим будет «есть».

Как улучшить этот метод? Увеличить бюджет на обучение:

  1. Увеличить наборы данных

  2. Увеличить размер самих моделей

Насколько велики эти датасеты? Почти невозможно осознать.

Современные бюджеты на обучение передовых моделей колеблются в районе 10²⁷ FLOPs. У этого числа есть название - один октиллион.

Если взять модель с 5 триллионами параметров, это потребует датасета в 33,3 триллиона токенов. Примерно 24 триллиона слов. Эквивалент 24 миллионов полных собраний книг о Гарри Поттере. И это только за один цикл обучения.

Десять лет мы думали, что это все, что нам нужно. Многие верили: этот путь сам по себе приведет к AGI. Нужно просто делать модели больше.

Однако после печально известного прогона GPT-4.5 - модели, которая должна была стать GPT-5, но оказалась провалом - люди поняли: одного масштабирования недостаточно. Началась стагнация.

Все рухнуло, когда Илья Суцкевер, «отец ChatGPT», заявил: закон масштабирования в том виде, в котором мы его знали, мертв.


Второй закон: дайте модели подумать

Около двух лет назад группа исследователей в OpenAI задалась вопросом: «А что, если дать моделям время подумать?»

Логика проста. Люди, сталкиваясь со сложной задачей, не отвечают мгновенно. Мы обдумываем проблему, разбиваем ее на шаги. Вкладываем в задачу «мыслительные усилия».

Подход был предельно простым:

  1. Взять предобученную модель

  2. Дать ей небольшой набор данных для о��учения «цепочке рассуждений» - связыванию мыслей и декомпозиции задач

  3. Позволить модели прийти к ответу методом проб и ошибок вместо копирования готового решения

Обучение с подкреплением сработало потрясающе. Так родился второй закон масштабирования: результаты модели значительно улучшаются, если дать ей время на раздумья.

Так появились «рассуждающие модели», лидером которых стала OpenAI o1.

Этот режим «пост-обучения» позволил модели вроде GPT-4o превратиться в o1 и радикально улучшить результаты в тестах, где важно глубокое мышление.

Но этот закон не просто делал умные модели умнее. Он позволял маленьким моделям становиться такими же «сообразительными», как их огромные собратья, за счет использования вычислений в реальном времени.

Весь прошлый год индустрия была одержима этой идеей - масштабированием вычислений при ответе. Но оказалось, что и это утверждение было не совсем верным.


Почему процесс важнее результата

Судить об интеллекте - модели или человека - можно либо по результату, либо по процессу.

Процесс важнее. Большинство оценивает ИИ по «тесту утки»: если крякает как утка и выглядит как утка - значит, утка. Если модель выдает умный ответ - она умная.

Это ловушка. Умный результат - не доказательство интеллекта. Нужно смотреть на процесс достижения результата, чтобы избежать «ловушки запоминания». Модель может казаться гениальной, просто воспроизводя зазубренные данные.

Можно выучить наизусть решение сложнейшей задачи по физике, но это не сделает доктором наук.


Тест одиночного прохода

Мы пытаемся оценить качество одного «прямого прохода» - когда модель берет ввод и выдает следующий токен без возможности «рассуждать вслух».

Если запретить модели рассуждать письменно, сможет ли она решить сложную задачу?

Оказывается, «рассуждение вслух» для ИИ - часть заученной последовательности. Модели часто запоминают связку: «проблема - рассуждение - решение». Если убрать среднее звено, зубрежка перестает работать. Модель теряет нить, соединяющую условие с ответом.

Поэтому, если модель способна выдать верное решение сложной задачи за один проход, без видимых рассуждений - это и есть истинный показатель ее внутреннего интеллекта.


OpenAI проигрывает гонку

Хорошие новости: прогресс на уровне предварительного обучения все еще идет. Модели становятся «умнее на каждое предсказание».

Особенно это заметно у Gemini и Claude. Они показывают чистый рост способностей от поколения к поколению.

OpenAI, кажется, полностью капитулировала перед вторым законом. Между 4-м и 5-м поколениями GPT прогресс в «базовом» интеллекте весьма скромен. Они растут за счет того, что тратят больше мощностей на выполнение конкретной задачи.

Вероятно, поэтому ChatGPT стал ощутимо хуже в задачах, не требующих долгих раздумий. Модель GPT-5.2 Instant - насмешка над прогрессом. Приходится постоянно держать включенным флаг «Thinking», чтобы не получить ответ от этой «недумающей» и слабой базы.

В то же время Gemini прекрасна в быстрых задачах. Она быстрее и умнее ChatGPT там, где нужно ответить «с ходу».

Хотите проверить разницу между моделями на практике?

Делегируйте часть рутинных задач вместе с BotHub! 

Для доступа к сервису не требуется VPN, и можно использовать российскую карту.

По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе прямо сейчас!


Признание OpenAI

Марк Чен, директор по исследованиям OpenAI, открыто признал: они «переборщили» с пост-обучением в прошлом году и теперь пытаются вернуть себе «форму в пре-трейнинге».

Ориоль Виньялс из DeepMind, напротив, прямо назвал пре-трейнинг ключом к впечатляющим результатам Gemini 3 Pro.

Пре-трейнинг жив. В 2026 году он снова станет главным фокусом исследований после года, когда его считали «мертвым».


Что это значит для рынка

Масштаб вывода определяет размер серверов. Масштаб обучения определяет размер дата-центров.

Если предварительное обучение снова в приоритете, мы увидим колоссальное давление на рынок строительства ЦОД. Наборы данных будут только расти. В один цикл обучения нужно впихнуть еще больше ускорителей.

Мы также увидим рост «экспертной разреженности» (Mixture-of-Experts). Модели будут становиться огромными по числу параметров, но «худыми» внутри - для каждого конкретного предсказания будет задействована лишь малая часть их мощи.

Это ставит вопрос перед производителями железа: не слишком ли сильно NVIDIA увлеклась оптимизацией под «вывод»? Их следующая платформа Rubin включает первый в истории GPU только для вывода - Rubin CPX.

Но если индустрия возвращается к масштабному классическому обучению, важнее становится «горизонтальное масштабирование» - соединение тысяч серверов и дата-центров в единую сеть. Это игра не столько чипов, сколько оптики и связей.


2026: год оптоволокна

Если «масштабирование вширь» станет критическим, 2026-й станет триумфом для рынка оптических технологий. Это может привести к огромному пересмотру стоимости компаний, занимающихся сетевыми технологиями.

В любом случае вычислительные мощности остаются главным фактором прогресса. Гиперскейлеры не перестанут тратить деньги на ИИ в ближайшее время.

С учетом низких процентных ставок и политических циклов в США, в 2026 году будет очень трудно ставить против «ИИ-трейда» - надут этот пузырь или нет, приносит он прибыль прямо сейчас или нет.

Вычисления продолжат расти.