Обновить

Комментарии 3

Надо посмотреть, что толком они сделали. Посмотрел их код https://github.com/sapientinc/HRM/tree/main/models

по сути просто разделение на две цепочки с блоками трансформера H_level и L_level, где "волны" это разные "rope", все отличие в дополнительном прогоне:

# Forward iterations with torch.no_grad(): z_H, z_L = carry.z_H, carry.z_L for Hstep in range(self.config.H_cycles): for Lstep in range(self.config.L_cycles): if not ((_H_step == self.config.H_cycles - 1) and (_L_step == self.config.L_cycles - 1)): z_L = self.L_level(z_L, z_H + input_embeddings, seq_info) if not (_H_step == self.config.H_cycles - 1): z_H = self.H_level(z_H, z_L, seq_info)

который накладывается на эмбендингы, которые входят уже в блоки. По сути пытаются сделать модуляцию между двумя видами блоков. Надо смотреть и разбирать. Но что-то новое.

Хотя Sapient Intelligence подаётся как настоящий прорыв с громкими заявлениями о «мозг-вдохновлённой архитектуре», способной «настоящему мышлению» и превосходящей гигантские LLM при крошечных 27 миллионах параметров. При изучении исходников - оказывается агрессивным "маркетингом".

На самом деле речь идёт не о фундаментально новой биологической модели мозга, а о инженерном объединении уже существующих решений. Название HRM (Hierarchical Reasoning Model), сравнение с «System 1 и System 2», и упоминание миллиардов лет эволюции - это лапша.

Если отбросить маркетинг, то тем не менее, там действительно интересная и умная работа. Они построили компактную модель на основе трансформеров, организованных в иерархическую, многократную структуру с двумя уровнями обработки (H и L), где внутренние циклы имитируют процесс пошагового уточнения решения.

Главная особенность в интеграции механизма Adaptive Computation Time (ACT) с обучением политики остановки через Q-learning, вдохновлённое алгоритмом PQN: модель сама решает, сколько «шагов мышления» ей нужно, при этом обучаясь стабильно без replay buffer и target networks, за счёт параллельных сред и регуляризации. Если проще, то она сначала прогоняет через себя несколько раз сигнал без градиентов, и потом в конце с градиентами.

Со слов авторов это позволило достичь высокой эффективности на задачах вроде ARC-AGI и Sudoku при минимальных данных и параметрах. Но эти задачи - это не тоже самое, что современные LLM и сравнение их выглядит совершенно не корректным.

То есть, настоящий вклад не в биологическую правдоподобность, а в хорошей реализации адаптивного внутреннего рассуждения внутри нейросетевой архитектуры, что действительно связано с системами глубокого обобщения без масштабирования.

Что они сделали:

  1. Взяли ACT — механизм адаптивного времени. Это не CoT, это динамическая глубина рассуждений: модель сама решает, сколько раз "подумать". обернута в класс HierarchicalReasoningModel_ACTV1.

  2. Добавили иерархические уровни (H/L) для "планирования". Гоняет их не пока "модель думает, пока не поймёт", а "модель делает 3×5 шагов и останавливается", но вот внешний ACT уровень уже решает, сколько таких "блоков" запустить.

  3. Использовали онлайн Q-learning без replay как в PQN. Они обучают политику остановки через Q-learning, как в PQN https://arxiv.org/abs/2407.04811

    В коде q_halt и q_continue это оценки "ценности" - "остановиться или продолжить"

    Целевое значение Q строится онлайн, из следующего шага

  4. Применили к сложным логическим задачам

  5. Показали, что маленькая модель может "думать"

В целом, всё построено на известных компонентах:

  • Трансформеры не новы

  • ACT 2016 год

  • Q-learning без target network из PQN (2024)

  • RoPE, RMSNorm, SwiGLU

Но вот интеграция этих элементов очень умная:

  • ACT управляет глубиной

  • H/L циклы обеспечивают внутреннее рассуждение

  • Q-learning обучает остановку

  • Puzzle ID помогает обобщению

Так что про мозг это явно метафора, а не реализация

  • Тут нет нейроморфной динамики

  • нет spiking, predictive coding, oscillations

"Без CoT, без pre-training" правда, но опять за тонной бушлита, так как речь идет про специфичные задачи в рамках особой архитектуры

  • Да, без CoT-супервизии

  • Но не "без обучения" обучалась на 1000 примерах

  • И они не "первые" другие модели (например, AlphaGeometry) тоже решают задачи без CoT

"Превосходит LLM" - зависит от задачи

  • На ARC, Sudoku, Maze - да, LLM проваливаются

  • На диалогах, генерации, commonsense reasoning - HRM, скорее всего, вообще не работает

Короче, это специализированная модель, а не универсальный LLM.

Вот такой разбор надо было сделать. А то потом приходится лезть и смотреть, что маркетинг, что правда, где нет. Больше часа пришлось потратить на это.

Название HRM (Hierarchical Reasoning Model), сравнение с «System 1 и System 2», и упоминание миллиардов лет эволюции - это лапша.

Почему? Как эвристические идеи для поиска, биологической и психофизиологической инспирации, вполне даже можно приветствовать. Глядишь и до интуитивной физики и теории теорий доберутся) Вот, свежее, уже начали осмысливать) Т.е. до формирования базовых априоров для байесовского мозга/разума, предсказательного режима, в русле работ той же группы Тэненбаума из МИТа - 1, 2 для примера. Вопрос, как этот фундамент, имплицитное знание получить и внедрить? Возможно, как эволюция нашла решение для животных, путем самообучения структур мозга еще на эмбриональной стадии? См. эту ветку коментов со ссылками на исследования, весьма забавными (сорри, писать заново не хочется). Исходное обучение на адекватных синтетических данных, а уже затем по аналогии обучения на опыте, информацией из сети? Это и обучение на ней ускорит. Вопрос, для каких архитектур такое возможно проделать? Для нейроморфных с учетом их энергоэффективности. Трансформеры такое не потянут. С другой стороны, не увязнуть в чрезмерном перетаскивании специфических биологических (эволюционных) решений.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
bothub.ru
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Greg Ewin