TL;DR
«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.
Вот в чём проблема
Зайдите в любой айтишный-чат.
«Из архитектуры выжали всё». «Данные закончились». «Модели будут деградировать».
Звучит умно. Проблема? Это полная ерунда.
Не потому что эти люди глупы. Часто это крутые разработчики. Проблема в том, что они видят одну ось — supervised pre-training на интернет-текстах — и думают, что это весь AI.
Ось упёрлась? Значит, AI упёрся.
Нет. Не значит.
Давайте честно: одномерное мышление — это ловушка
2012 год.
Кто-то говорит: «Мы собрали все фотографии кошек в интернете. Нейросети достигли потолка».
Технически верно. Для той парадигмы — да, потолок.
Как прогноз? Катастрофически неверно.
Через год — AlexNet. И понеслось.
То же самое сейчас. «Данные закончились» = «качественные тексты для supervised pre-training закончились».
Это правда.
Но это одна ось из шести.
Ось 1: Data Scaling — да, тут сложно
Начнём с того, о чём все кричат.
Scaling laws Каплана (2020): больше данных + больше compute = лучше модель. Красивая формула. Работала отлично.
До определённого момента.
Что сейчас:
Качественного текста в интернете ~15-20 трлн токенов
Большую часть уже скормили моделям
Diminishing returns
Но это не конец.
Data scaling трансформируется:
Синтетические данные — модели генерят данные для себя и других
Мультимодальность — видео, аудио, сенсоры. Триллионы нетронутых токенов
Специализированные корпуса — медицина, юриспруденция, наука
Текст в интернете — это не все данные в мире. Даже близко.
Ось 2: Compute Scaling — тут скрыт главный обман
Окей, смотрите.
Все говорят «compute scaling» как будто это одна штука.
Это две штуки.
Pre-training compute
Классика: больше GPU × больше времени = умнее модель.
GPT-4 стоил ~$100M. Следующие поколения — миллиарды.
Да, тут экономический и физический потолок виден.
Inference-time compute
Это прорыв 2024 года. И почти все его пропустили.
Вместо того чтобы делать модель умнее при обучении — даём ей больше времени «думать» при ответе.
Серия o1/o3 от OpenAI: та же базовая модель решает задачи разной сложности с разным бюджетом на reasoning.
Результат? 30-50% прироста на сложных задачах. Без изменения весов.
Это как разница между «выучил формулу» и «имею время подумать».
Две разные оси. Обе работают. Независимо.
Ось 3: Algorithmic Efficiency — делаем больше за те же деньги
Каждый год модели становятся эффективнее при том же compute.
История:
2017: Transformer убил RNN/LSTM — прорыв в параллелизации
2020: Sparse attention — квадратичная сложность идёт лесом
2022: FlashAttention — 2-4x ускорение, качество то же
2023: Mixture of Experts — масштабируем параметры без линейного роста compute
Что дальше:
State Space Models (Mamba) — линейная сложность для длинных контекстов
Гибриды Transformer + SSM
Новые механизмы внимания
Эмпирика: каждые 1-2 года архитектурные улучшения = эквивалент 2-3x compute при тех же затратах.
Это прекрасно.
Ось 4: Модальности — текст это только начало
Вот что важно понять.
Текущие LLM обучены на тексте. Но информация существует не только в тексте.
Модальность | Объём | Статус |
|---|---|---|
Текст | ~20 трлн токенов | 80%+ использовано |
Изображения | ~1 трлн+ | Активно осваивается |
Видео | Эксабайты | Начальная стадия |
Аудио | Петабайты | Частично |
3D/пространственные | Терабайты | Ранняя стадия |
Сенсорные данные | ∞ | Не начато |
GPT-4V, Gemini, Claude 3 — первые шаги.
Следующий рубеж — embodied AI: модели учатся через взаимодействие с физическим или симулированным миром.
Данные, которые невозможно получить из интернета. Принципиально новый тип информации.
Ось 5: Tool Use и Agents — обход ограничений
Параметрическое знание (то, что зашито в веса) — это тупик.
Устаревает с момента обучения
Ограничено размером модели
Галлюцинации
Tool use — это решение.
Модель не пытается знать всё. Модель умеет использовать инструменты:
Поиск — актуальная информация
Калькулятор/код — точные вычисления
API — внешние системы
Базы данных — структурированные знания
Другие модели — специализированные агенты
Практический пример: Claude с доступом к поиску не нужно переобучать, чтобы он знал результаты вчерашних выборов.
Это фундаментальный сдвиг в том, что значит «умная модель».
Агентные системы идут дальше: декомпозиция задачи → планирование → выполнение → проверка.
Отдельное измерение capabilities. Ортогональное к «сырому интеллекту».
Ось 6: RL и Self-Play — обучение без людей
Supervised learning на человеческих данных — не единственный способ.
RLHF:
Модель улучшается через обратную связь, а не через примеры. Оптимизирует поведение, которое сложно показать явно.
Self-play и synthetic data:
DeepSeek-R1 показал: модель может улучшать reasoning через самостоятельную генерацию и фильтрацию цепочек рассуждений.
Constitutional AI:
Модель учится следовать принципам, а не копировать примеры.
Ключевой инсайт: эти методы позволяют становиться умнее без новых человеческих данных.
Signal — из структуры задачи, а не из готовых ответов.
Как использовать эту модель
Читаете новость об AI? Слышите прогноз?
Задайте вопрос: по какой оси изменение?
Примеры
«OpenAI выпустил o3, который решает ARC-AGI на 88%»
→ Ось 2 (inference-time compute). Та же модель, больше бюджета на reasoning.
«Данные для обучения LLM заканчиваются»
→ Верно для Оси 1. Не затрагивает оси 2-6.
«Llama 3.3 70B показывает качество Llama 3.1 405B»
→ Ось 3 (distillation, algorithmic efficiency).
«Claude научился использовать компьютер»
→ Ось 5 (tool use).
Красные флаги
«LLM упёрлись в потолок» — без уточнения по какой оси
«Архитектура исчерпана» — игнорирует оси 3, 4, 6
«Без данных нет прогресса» — игнорирует RL, self-play, synthetic data
Линейная экстраполяция текущих ограничений
Ну и ну.
Почему эксперты ошибаются
Парадокс: люди, работающие с LLM ежедневно, часто делают худшие долгосрочные прогнозы.
Почему?
Проклятие знания — видят ограничения своей области, слепы к прорывам в соседних
Якорение — текущие проблемы кажутся фундаментальными
Информационный лаг — публичная информация отстаёт от frontier research на 6-12 месяцев
Линейное мышление — экспоненциальные процессы недооцениваются
Факты:
2020: консенсус — GPT-3 это потолок scaling laws
2022: нужны триллионы токенов для каждого улучшения
2023: reasoning невозможен без symbolic AI
Все эти «потолки» были пробиты.
Заключение
Я не говорю, что AGI за углом.
Я говорю более скромную вещь: одномерные прогнозы почти всегда ошибочны.
Когда кто-то говорит «LLM исчерпали себя» — спросите: по какой из шести осей?
Если ответ «по всем» — красный флаг некалиброванной уверенности.
Модели будут развиваться. Не обязательно по тем осям, которые ожидаем. Возможно, медленнее, чем надеются оптимисты.
Почти наверняка — не так, как предсказывают пессимисты.
Вывод: вместо бинарных прогнозов отслеживайте прогресс по каждой оси отдельно. Обновляйте модели по мере появления новых данных.
Вот такой ликбез.
UPD
Спасибо @ArZr за критику и уточнения :
Diminishing returns в статье упомянуты, но не раскрыты.
Речь об увеличении количества данных (и зачастую под "увеличением" понимают "увеличение в n раз") будет давать все меньше и меньше, вплоть до момента, когда улучшения от увеличения пропадут полностью или станут настолько маленькими, что в дальнейшем увеличении просто не будет смысла. И да, описанные методы решения лишь облегчают эту проблему, но не устраняют её полностью.
Ось 2 (Compute Scaling):
Формулировка «почти все пропустили» — преувеличение. Inference-time compute после выхода o1 активно обсуждался и внедрялся. Но важнее содержательная критика: inference-scaling работает для относительно узкого круга reasoning-intensive задач, и здесь тоже действуют diminishing returns.
Более серьёзная проблема — с RL-scaling. Как показывает анализ кривых обучения o1→o3→GPT-5, RL масштабируется вдвое хуже inference по порядкам величин: для эквивалентного прироста нужно в 10 000 раз больше RL-compute там, где хватает 100× inference-compute. Ранние приросты от RL были дешёвыми, потому что стартовали с малой базы — RL-compute составлял доли процента от pre-training. Но к середине 2025 года ведущие лаборатории подошли к точке, где RL-compute сопоставим с pre-training, и дальнейшее масштабирование бьёт по полной стоимости обучения. Видимо, эра дешёвого RL-scaling близка к завершению, и основным рычагом остаётся inference-scaling — который увеличивает не интеллект модели, а время на решение задачи. Это принципиально разные вещи, и в исходной статье эта разница была недостаточно акцентирована.
Ось 3: Algorithmic Efficiency — делаем больше за те же деньги
От "потолка возможностей" это спасет только в том случае, если есть возможность эффективно перенаправить высвободившиеся ресурсы в увеличение способностей модели. А это вопрос дискуссионный.
Ось 4: Модальности — текст это только начало
Теории о том, что добавление модальностей должны знатно прокачать LLM, были ещё в 2023. На практике - добавить модальности без просадки качества модели является той ещё задачей. Про значительные приросты от новых модальностей лично я тоже не особо много слышал.
Ось 6: RL и Self-Play — обучение без людей
По RL сходили с ума ну где-то с января по сентябрь 2025. Затем стало ясно, что и у этих подходов будущее не самое яркое (рассуждения насчет этого уже прикрепил ссылкой выше). DeepSeek, сколь помнится, тоже недавно выпускали отчёт, который затрагивал в том числе описанные методы, и вывод там тоже не особо обнадеживающий.
