Sakana AI, стартап из Токио, представил новый тип системы искусственного интеллекта, имитирующей работу мозга в режиме реального времени.

Новая модель компании под названием «Машина непрерывного мышления» (Continuous Thought Machine, CTM) использует иной подход, чем традиционные языковые модели, и фокусируется на том, как синтетические нейроны синхронизируются во времени, а не на том, что входные данные рассматриваются как единый статичный снимок.
Вместо традиционных функций активации CTM использует то, что Sakana называет моделями на уровне нейронов (NLM), которые отслеживают историю прошлых активаций. Эти истории определяют поведение нейронов с течением времени, а синхронизация между ними формирует основное внутреннее представление модели, дизайн которой вдохновлён закономерностями, обнаруженными в биологическом мозге.
В то время как более ранние системы использовали такие методы, как принудительное бюджетирование для стимулирования более длительных рассуждений, CTM предлагает совершенно новую архитектуру. Она является частью растущего класса моделей рассуждений, которые полагаются на более сложные вычисления во время логического вывода по сравнению со стандартными большими языковыми моделями.
CTM вводит внутреннее представление о времени — то, что исследователи называют «внутренними тиками», — не зависящее от внешних входных данных. Это позволяет модели делать несколько внутренних шагов при решении задачи, а не сразу переходить к окончательному ответу за один проход.
Каждый этап начинается с «модели синапса», которая обрабатывает текущие состояния нейронов вместе с внешними входными данными для создания предварительных активаций. Каждый нейрон сохраняет историю этих предварительных активаций, которые затем используются для вычисления обновлённых состояний, или пост-активаций, на следующем этапе.
Эти состояния нейронов накапливаются с течением времени и анализируются на предмет синхронизации. Эта синхронизация на основе времени становится ключевым внутренним сигналом модели для управления вниманием и создания прогнозов.
CTM также включает в себя механизм внимания, который фокусируется на наиболее важных частях входных данных. Обновлённые состояния нейронов и выбранные входные характеристики возвращаются в цикл, чтобы запустить следующий внутренний цикл.

В ходе первоначальных испытаний CTM применялась для классификации изображений в ImageNet 1K. Модель анализировала различные области каждого изображения в несколько этапов и достигла 72,47% точности в топ-1 и 89,89% точности в топ-5 — не самый высокий, но достойный результат. Sakana говорит, что производительность не была главной целью.
CTM также динамически адаптирует глубину обработки. Для простых задач она может остановиться раньше, а для более сложных — продолжить вычисления. Такое поведение естественным образом вытекает из архитектуры и не требует специальных функций потерь или критериев остановки.
Способность модели рассуждать с течением времени зависит от синхронизации между нейронами. Эти паттерны, полученные на основе истории активации нейронов, управляют вниманием и прогнозированием. В результате получается система, способная интегрировать информацию в разных временных масштабах, включая краткосрочные реакции на новые данные и долгосрочное распознавание паттернов.
В одном эксперименте CTM тестировали на умение ориентироваться в лабиринте. Модель, по-видимому, шаг за шагом планировала свой путь и даже частично решала более крупные и сложные лабиринты, которые она не видела во время обучения. Компания Sakana выпустила интерактивную демонстрацию, которая показывает, как модель проходит лабиринты размером 39×39 за 150 шагов.
Исследователи говорят, что такое поведение не было запрограммировано вручную, оно возникло в результате архитектуры модели и процесса обучения.

Чтобы сравнить CTM с другими моделями, команда провела тесты с сетями с долгой краткосрочной памятью (LSTM), которые широко используются для обработки последовательностей, и простыми сетями прямого распространения, которые обрабатывают входные данные за один проход.
В таких задачах, как сортировка числовых последовательностей и вычисление чётности, CTM обучался быстрее и надёжнее, чем оба базовых алгоритма. Его нейронная активность также была заметно более сложной и разнообразной. Вопрос о том, приводит ли эта сложность к более высокой производительности в практических приложениях, остаётся открытым.
В наборе данных CIFAR-10, состоящем из 60 000 изображений в десяти категориях, CTM немного превзошёл другие модели. Его прогнозы также были более близки к тому, как люди обычно классифицируют изображения. Команда провела аналогичные тесты на CIFAR-100, состоящем из 100 категорий, и обнаружила, что, хотя более крупные модели создавали более разнообразные нейронные паттерны, увеличение количества нейронов не всегда повышало точность.

CTM не предназначена для точного воспроизведения мозга, но она заимствует идеи из нейробиологии, в частности концепцию синхронизации на основе времени. Хотя реальные нейроны не имеют доступа к собственной истории активации, исследователи говорят, что модель больше ориентирована на функциональное вдохновение, чем на строгий биологический реализм.
Тем не менее, есть компромиссы. Поскольку CTM работает рекурсивно, её нельзя легко распараллелить во время обучения, что замедляет процесс. Кроме того, она требует значительно больше параметров, чем традиционные модели, что делает её более ресурсоёмкой. Пока неясно, стоит ли дополнительная сложность того.