Представлена языковая модель с линейной сложностью вычислений и контекстом до 12 млн токенов / Хабр

Кратко: стартап Subquadratic представил SubQ 1M-Preview — первую языковую модель с линейной сложностью вычислений относительно длины контекста. Заявлены контекст до 12 млн токенов, скорость в 52 раза выше FlashAttention и радикальное снижение стоимости. Независимых тестов пока нет (хотя стартап заявляет о сторонней верификации своих бенчмарков), доступ закрыт. Техническое сообщество реагирует сдержанно: пока это амбициозный пресс-релиз, а не готовый инструмент.

Квадратичный рост затрат классических трансформеров () против линейного масштабирования архитектуры SubQ () — Квадратичный рост затрат классических трансформеров против линейного масштабирования архитектуры SubQ

Архитектура SubQ обеспечивает линейный рост затрат, что снижает нагрузку на GPU почти в 1000 раз на длинных контекстах по сравнению с классическими трансформерами. Источник: subq.ai

Главная архитектурная боль современных языковых моделей — квадратичная сложность механизма внимания. С ростом длины контекста вычислительные затраты и потребление памяти увеличиваются непропорционально быстро. Индустрия годами обходила ограничение «костылями»: поиск с дополненной генерацией (RAG), разбиение текста на фрагменты, векторные хранилища. Инженеры тратят много времени на обход ограничений современных LLM: ограниченный контекст, галлюцинации и дороговизна обработки длинных запросов.

Стартап Subquadratic утверждает, что сломал этот барьер. Их архитектура обеспечивает линейный рост вычислений относительно длины контекста. Звучит как мечта, но техническое сообщество пока держит паузу.

Ключевые заявления

Линейное масштабирование: Сложность вместо . Обработка миллионов токенов без взрывного роста затрат.
Контекст до 12 млн токенов: Флагманские модели обычно деградируют задолго до заявленных 1–2 млн. SubQ обещает стабильную точность на всём объёме.
Скорость и эффективность: Механизм SubQ Sparse Attention работает в 52 раза быстрее FlashAttention и требует на 63% меньше вычислительных ресурсов.
Точность: На тесте RULER 128K модель показала 95% (против 94,8% у Claude Opus 4.6). На сложном MRCR v2 (многошаговое рассуждение по разрозненным данным) исследовательская версия набрала 83, а рабочая — 65,9. Для сравнения: GPT-5.5 — 74, Claude Opus 4.7 — 32,2. На SWE-Bench Verified результат составил 81,8 (Opus 4.6 — 80,8).

Важно: разрыв между исследовательской и рабочей версиями огромен. Насколько сильно качество «урезается» ради скорости в продакшене — открытый вопрос.

Стартап выпустил три продукта с закрытым доступом:

API: Полноконтекстный интерфейс для разработчиков. Гигабайты текста — одним запросом.
SubQ Code: Агент для командной строки. Загружает весь репозиторий в одно окно контекста. Без мультиагентных оркестраций и сложных цепочек вызовов. Вопрос «где используется эта библиотека?» обрабатывается с учётом всей кодовой базы.
SubQ Search: Инструмент глубокого поиска по длинным документам. Позиционируется как замена тяжёлым RAG-системам для корпоративных знаний.

Всё доступно только в рамках закрытого тестирования. Публичного входа нет.

Реакция технического сообщества

Без открытых проверок дискуссия сместилась с «как внедрять» на «можно ли верить цифрам». В профильных обсуждениях доминируют следующие аргументы:

Скепсис к тестам

Цифры впечатляют, но инженеры отмечают: пока модель не покажет себя на реальном коде или юридическом договоре на 500 страниц с перекрёстными ссылками, доверять ранним результатам рано. История знает немало случаев «подгонки» под конкретные наборы данных.

Разрыв между исследовательской и рабочей версиями настораживает. Есть гипотеза, что высокая скорость достигается агрессивным прореживанием внимания, что может «срезать» важные детали в длинных зависимостях.

Экономика против качества

Главный практический вопрос — цена. Если масштабирование действительно линейное, стоимость вывода модели должна упасть на порядки. Это откроет путь к анализу серверных логов в реальном времени или обработке годового архива обращений поддержки одним запросом. Но каков тариф за миллион токенов? Если он близок к текущим лидерам, преимущество нивелируется.

Тарифы не раскрыты, поэтому экономический эффект остаётся теоретическим.

SubQ Code: прорыв или иллюзия?

Мнения разработчиков разделились:

Оптимисты: «Наконец-то можно загрузить весь монолит и спросить: как изменить логику, ничего не сломав?»
Скептики: «Длинный контекст ≠ глубокое понимание. Сможет ли модель корректно связать зависимости между разрозненными модулями? Риск уверенной генерации ошибочного кода на основе нерелевантных фрагментов никуда не делся.»

Команда и финансирование

В основе — исследователи из Meta, Google, Oxford, Cambridge, ByteDance и Adobe. Посевной раунд составил $29 млн при участии ранних инвесторов Anthropic, OpenAI и Stripe. Это серьёзная заявка, но даже сильные академические команды не застрахованы от проблем с масштабированием новых архитектур в рабочих средах.

Нет опыта практического использования

В открытом доступе нет ни одного независимого обзора, кейса или отзыва. Продукт находится в закрытом тестировании, доступ предоставляется по приглашениям. Любые заявления о «реальном опыте» на данный момент — спекуляция.

Что это значит на практике?

Для разработчиков:

Следите за появлением модели в независимых рейтингах (LMSYS Chatbot Arena, открытые тесты сообщества).
Готовьтесь к сдвигу парадигмы: если заявления подтвердятся, классический RAG может уйти в нишевые задачи. Зачем искать фрагменты, если можно обработать весь массив?

Для бизнеса:

Экономика станет решающим фактором. Линейная стоимость контекста откроет сценарии, которые раньше были нерентабельны: анализ медицинских карт, расшифровок встреч, сплошной юридический аудит.
Риск зависимости от вендора. Закрытая архитектура означает полный контроль поставщика над доступом и тарифами.

Итог

SubQ предлагает не эволюцию, а архитектурную революцию. Но революция требует доказательств.

Пока перед нами «чёрный ящик» с впечатляющей математикой на бумаге. Техническое сообщество занимает выжидательную позицию: «Хотим верить, но нужны воспроизводимые результаты».

Рекомендация проста: дождитесь публичного API и независимых замеров. Когда модель выйдет из закрытого контура, мы узнаем, станет ли линейное масштабирование новым стандартом или останется красивой лабораторной работой. А пока — отличная тема для дискуссии, но не инструмент для продакшена.

А как вы относитесь к отказу от квадратичного внимания? Верите, что линейный контекст возможен без потери качества? Делитесь аргументами в комментариях.